macOS標準ソフトで作れる合成音声ナレーション音源

Blog

macOS標準ソフト
で作れる
合成音声
ナレーション音源 2019.06.27 2018.10.23

Mac OS X Yosemite(10.9)以降ではOS標準ソフトだけで合成音声ナレーションを作ることができます。ここでは音源を作成するまでの手順や工夫ポイントをご紹介します。

今日の音声合成には「Google Cloud Text-to-Speech」や「IBM Watson Text to Speech」等のクラウドサービスが登場したりで豊富に取捨選択ができるようになってきていますが、MacではOS X Yosemite(10.9)以降であればOS標準ソフトだけで合成音声ナレーションが完全無料で作れます。

とても簡単な操作で作れてしまう優れものですので、2018年10月現在の最新macOSである10.14のMojave(モハベ)でのスクリーンショットに基づいた操作手順を紹介していきます。個人利用の非商用プロジェクトでナレーションを必要とされている際には、macOS TTS(Text-to-Speech)を候補のひとつに検討されてはいかがでしょうか。macOS TTSのライセンスの関係上、商用プロジェクトには利用できませんので、ご留意ください。

事前準備

macOS 10.12のSierra以降は、日本語がデフォルト言語環境の場合、「Kyoko」という日本人の女性の声が読み上げ時のデフォルト音声になっています(10.9 Yosemiteと10.10 El Capitanでは「Alex」というアメリカ人の男性の声がデフォルトとなっていた)。

これを「Otoya」という日本人の男性の声にしたり、英語だったら「Tom」というアメリカ人の男性、フランス語は「Thomas」というフランス人の男性、スペイン語は「Monica」というスペイン人の女性のように読み上げたい言語に応じて、複数の声の中から希望の声に変更することができます。

デフォルトの「Kyoko」は日本語読み上げ専用の声のため、「Kyoko」のまま英訳文を読み上げたのでは流暢には読み上げてくれません。読み上げたいテキストの言語にあわせた声を利用できるように有効化します。

[システム環境設定]→[アクセシビリティ]→[スピーチ]の順に開きます。

続いて[システムの声]→[カスタマイズ]の順に開きます。ここでは、例として日本語音声の「Otoya」をチェックします。はじめて有効化する際には、高品質音声にアップグレードという欄にデフォルトでチェックがつき、高品質音声がダウンロードされるようになりますので、このままチェックがついた状態で最後に[OK]を選択します。

日本語は、「Kyoko」と「Otoya」の2人しかないのですが、英語であれば男性・女性だけでなくロボット風の特殊音声からアメリカ英語なのかイギリス英語なのかオーストラリア英語なのかまで細かくわかれている中から選択できます。

読み上げが必要になる対象言語については、すべての声を有効化して、高品質音声にアップグレードしておかれることをオススメします。なぜなら、特に固有名詞を含む場合、その固有名詞部分の発音が各声で大きく差があるためです。まったく意図していない読み上げをしてしまう声もあれば、意図した通りに発音してくれる声もあったりします。

声質は気に入ったのに固有名詞を上手く読み上げてくれないから、他の声を選ばざるをえないということもでてきます。次々、聴き比べができるように、あらかじめ対象言語についてはすべての声を有効化して、高品質音声をダウンロードしておくと手取り早いです。

ショートカットキーを設定しておく

「キーを押したときに選択しているテキストを読み上げる」にチェックをつけると、ショートカットキーが有効になります。デフォルトでは、Option+Escが割り当てられます。必要に応じて変更することもできます。

テキストを読み上げさせる方法

Macに標準搭載されている「テキストエディット.app」を起動し、そこに読み上げさせるテキストを入力し、読み上げの確認したい部分を選択します。次に、ショートカットキーを設定しているのであればショートカットキーを押すか、[右クリック]→[スピーチ]→[読み上げを開始]の手順で任意のテキストの読み上げを確認することができます。

このときに読み上げる声は、[システム環境設定]→[アクセシビリティ]→[スピーチ]→[システムの声]で設定されている声になります。カスタマイズでチェックをつけて有効化している声の一覧から[システムの声]は任意に変更することができます。なお、選択しているテキストが日本語にも関わらず、システムの声を「Kyoko」か「Otoya」の日本語以外にすると、読み上げることができないので注意してください。同様に選択しているテキストが外国語で、システムの声を日本語の「Kyoko」か「Otoya」にしている場合、英語やメジャーな言語の挨拶程度であれば読み上げはしてくれますが、流暢というには程遠い激しい訛り具合となります。

オーディオファイルの保存方法

オーディオファイルとして保存(レンダリング)したい部分のテキストを選択した状態で、[右クリック]→[サービス]→[スポークントラックとしてiTunesに追加]の手順に進むと、続いてどのシステムの声で任意のファイル名で保存するかを指定できるウィンドウが開きます。このウィンドウでは、システムの声の欄のデフォルトは「Alex」になっており、「Alex」から変更する場合に選択できる声の一覧は、[システム環境設定]→[アクセシビリティ]→[スピーチ]→[システムの声]で有効化を行なっていなかった声も含む、すべての声が選択肢に入っており、どの声で保存するかを毎回アルファベット順に並んだ声の一覧の中から探し出す必要があります。

名前の欄で、任意のファイル名で保存することができます。また、場所の欄も存在するのですが、この欄を変更しても保存場所について反映されず、保存場所は、(あなたの)コンピュータ名/⁨ユーザ/(あなたの)⁨ユーザー名/ミュージック/iTunes/iTunes Media/⁨Music/Unknown Artist/Unknown Album/のフォルダに任意のファイル名のm4a形式(代表的なオーディオファイル形式であるmp3の進化版)のオーディオファイルとして保存されます。

英語男性「Alex」の例

英語女性「Samantha」の例

これらは同一のテキストを同じ読み上げ速度にしたものですが、固有名詞の読み上げに違いがあったり、読み上げ終えるまでの秒数がこれだけでも5秒の差が生じています。このように声ごとに大きな差があるので、読み上げ速度を調整したり、次に紹介するTipsなどで聞き取りやすいように、または意図通りの発音をしてくれるように工夫する必要があります。

macOS TTSを上手く使いこなすためのちょっとしたTips

できあがった原稿をそのまま読み上げさせたのでは、思い通りには読み上げてくれないことが多いです。次に紹介するような工夫を原稿に加えられたり、合成音声ナレーションには他にもたくさんの選択肢があるので素直に別の手段を検討されるのも良いでしょう。

句読点を多めに用いる

日本語のテキストを読み上げさせる場合は、句点(。)・読点(、)を。英語のテキストを読み上げさせる場合は、コンマ(,)・コロン(.)・セミコロン(;)・ダッシュ(—)などの句読点を用いて、何度もテスト読み上げをしながら、聞き取りやすいように句読点を付け足していくと良いでしょう。

誤読部分を適宜変換する

特に日本語で多く見られるのですが、原稿でたとえば「立位で〜」という部分があったとします。これは「リツイデ〜」と読み上げて欲しいのですが、「Kyoko」も「Otoya」も現時点では「リツクライデ〜」と読み上げてしまいます。このため原稿から誤読漢字部分を「リツイで〜」のように変換する必要があります。誤読していないかをテストして、誤読した部分を適宜、平仮名にしたり、片仮名にしたりで意図する読み上げをしてくれるように変換していく必要があります。

細かく区切って出力する

各声によって、ブレイクの時間もマチマチです。このmacOS TTSの読み上げは、音声合成マークアップ言語(SSML)を用いたりして細かく強調やブレイク時間を指定することはできないため、編集で強制的にブレイク時間を設けたりを調整する必要がでてきます。そのため、あらかじめセンテンス単位のオーディオファイルに細かく区切っておいた方が良いでしょう。

固有名詞の読み上げはトライ&エラー

日本語読み上げであれば固有名詞部分はすべてカタカナに変換するなど回避できるのですが、日本語以外で固有名詞の読み上げは、その声によって発音にかなり差異があります。合成音声でナレーション収録をする場合、どのソフト・サービスを選ばれるにしても、固有名詞の読み上げが最大の壁として立ちはだかります。お客様の名称やサービスを意図通りに読み上げてくれないなど最悪の事態にもなりかねません。

ただし、トライ&エラーを繰り返すことで、意図通りの読み上げに近づけたりすることが可能な場合があります。固有名詞をハイフン(-)で区切る、さらに発音されてない部分のローマ字を付け足し、その言語の男女すべての声を試したりしてみましょう。中には、意図通りの読み上げをしてくれる声が見つかるかもしれません。

個人的には、英語の女性の声である「Allison」と「Samantha」は、特に優秀で試行錯誤する中でも意図通りの発音をしてくれる組み合わせに辿り着けることがよくあります。

日本語読み上げは別の手段の検討を

日本語の読み上げのイントネーションは、まだまだシビアなようで聞いていると、「Kyoko」「Otoya」ともに可笑しなイントネーション部分がどうしても出てきます。日本語読み上げを利用するのであれば、素直に有料の日本語対応の他のソフトやクラウドサービスから、期待に近しい読み上げをしてくれるものを探された方が良いでしょう。たとえば、クラウドサービスだけでも日本語に対応しているサービスに次のようなものがあります。

Recruit

デザイナー募集

デザインは技術を使いこなす上で欠かすことのできない要素であり、
課題の解決法を生み出したり、新たな仕組みや価値を創造するのにも有効な手法です。
ブランディングやプロモーションの設計・戦略構築から行うW3Gでは
制作のみに留まらず、その後の活用までを俯瞰した「ビジネスをデザインする」
アートディレクション面にまで幅広く携われます。

求人・採用情報