macOS標準ソフト
で作れる
合成音声
ナレーション音源

Blog

Mac OS X Yosemite(10.9)以降ではOS標準ソフトだけで合成音声ナレーションを作ることができます。とても簡単な操作で作れるうえに、英語の音声読み上げであれば商業レベルのナレーション音源としても使える代物に感じました(日本語の読み上げはイントネーションが難しいようで、商業で利用するレベルには厳しいです)。ここでは音源を作成するまでの手順や工夫ポイントをご紹介します。

英訳のナレーション収録が必要になり、スタジオ収録では修正の都度、ネイティブナレーター・スタジオの手配が必要となり融通が効かないため、今日の音声合成ならばソフトから「Google Cloud Text-to-Speech」や「IBM Watson Text to Speech」等のクラウドサービスまで取捨選択が豊富にできるようになってきているので、合成音声のナレーションを作る方向で考えて、いろいろ調べていました。

よくよく調べていくとMacではOS X Yosemite(10.9)以降であればOS標準ソフトだけで合成音声ナレーションが作れることがわかったのですが、これが試してみると、とても簡単な操作で作れてしまう優れものでした!

そこで、2018年10月現在の最新macOSである10.14のMojave(モハベ)でのスクリーンショットに基づいた操作手順を紹介していきますので、ナレーションを必要とされている際には、Macがあれば完全無料で利用できるmacOS TTS(Text-to-Speech)も候補のひとつに検討されてはいかがでしょうか。

事前準備

macOS 10.12のSierra以降は、日本語がデフォルト言語環境の場合、「Kyoko」という日本人の女性の声が読み上げ時のデフォルト音声になっています(10.9 Yosemiteと10.10 El Capitanでは「Alex」というアメリカ人の男性の声がデフォルトとなっていた)。

これを「Otoya」という日本人の男性の声にしたり、英語だったら「Tom」というアメリカ人の男性、フランス語は「Thomas」というフランス人の男性、スペイン語は「Monica」というスペイン人の女性のように読み上げたい言語に応じて、複数の声の中から希望の声に変更することができます。

デフォルトの「Kyoko」は日本語読み上げ専用の声のため、「Kyoko」のまま英訳文を読み上げたのでは流暢には読み上げてくれません。読み上げたいテキストの言語にあわせた声を利用できるように有効化します。

[システム環境設定]→[アクセシビリティ]→[スピーチ]の順に開きます。

1.システム環境設定を選択
2.アクセシビリティを選択
3.スピーチを選択

続いて[システムの声]→[カスタマイズ]の順に開きます。ここでは、例として日本語音声の「Otoya」をチェックします。はじめて有効化する際には、高品質音声にアップグレードという欄にデフォルトでチェックがつき、高品質音声がダウンロードされるようになりますので、このままチェックがついた状態で最後に[OK]を選択します。

4.システムの声からカスタマイズを選択
5.日本語音声の「Otoya」を有効化する例

日本語は、「Kyoko」と「Otoya」の2人しかないのですが、英語であれば男性・女性だけでなくロボット風の特殊音声からアメリカ英語なのかイギリス英語なのかオーストラリア英語なのかまで細かくわかれている中から選択できます。

読み上げが必要になる対象言語については、すべての声を有効化して、高品質音声にアップグレードしておかれることをオススメします。なぜなら、特に固有名詞を含む場合、その固有名詞部分の発音が各声で大きく差があるためです。まったく意図していない読み上げをしてしまう声もあれば、意図した通りに発音してくれる声もあったりします。

声質は気に入ったのに固有名詞を上手く読み上げてくれないから、他の声を選ばざるをえないということもでてきます。次々、聴き比べができるように、あらかじめ対象言語についてはすべての声を有効化して、高品質音声をダウンロードしておくと手取り早いです。

ショートカットキーを設定しておく

ショートカットキーを有効にする
ショートカットキーの割り当ては任意変更可

「キーを押したときに選択しているテキストを読み上げる」にチェックをつけると、ショートカットキーが有効になります。デフォルトでは、Option+Escが割り当てられます。必要に応じて変更することもできます。

テキストを読み上げさせる方法

Macに標準搭載されている「テキストエディット.app」を起動し、そこに読み上げさせるテキストを入力し、読み上げの確認したい部分を選択します。次に、ショートカットキーを設定しているのであればショートカットキーを押すか、[右クリック]→[スピーチ]→[読み上げを開始]の手順で任意のテキストの読み上げを確認することができます。

1.テキストエディット.appを起動
2.読み上げたいテキストを選択し読み上げさせる

このときに読み上げる声は、[システム環境設定]→[アクセシビリティ]→[スピーチ]→[システムの声]で設定されている声になります。カスタマイズでチェックをつけて有効化している声の一覧から[システムの声]は任意に変更することができます。なお、選択しているテキストが日本語にも関わらず、システムの声を「Kyoko」か「Otoya」の日本語以外にすると、読み上げることができないので注意してください。同様に選択しているテキストが外国語で、システムの声を日本語の「Kyoko」か「Otoya」にしている場合、英語やメジャーな言語の挨拶程度であれば読み上げはしてくれますが、流暢というには程遠い激しい訛り具合となります。

オーディオファイルの保存方法

オーディオファイルとして保存(レンダリング)したい部分のテキストを選択した状態で、[右クリック]→[サービス]→[スポークントラックとしてiTunesに追加]の手順に進むと、続いてどのシステムの声で任意のファイル名で保存するかを指定できるウィンドウが開きます。このウィンドウでは、システムの声の欄のデフォルトは「Alex」になっており、「Alex」から変更する場合に選択できる声の一覧は、[システム環境設定]→[アクセシビリティ]→[スピーチ]→[システムの声]で有効化を行なっていなかった声も含む、すべての声が選択肢に入っており、どの声で保存するかを毎回アルファベット順に並んだ声の一覧の中から探し出す必要があります。

1.スポークントラックとしてiTunesに追加を選択
2.オーディオファイルにしたい声に変更する

名前の欄で、任意のファイル名で保存することができます。また、場所の欄も存在するのですが、この欄を変更しても保存場所について反映されず、保存場所は、(あなたの)コンピュータ名/⁨ユーザ/(あなたの)⁨ユーザー名/ミュージック/iTunes/iTunes Media/⁨Music/Unknown Artist/Unknown Album/のフォルダに任意のファイル名のm4a形式(代表的なオーディオファイル形式であるmp3の進化版)のオーディオファイルとして保存されます。

英語 男性 「Alex」の例
英語 女性 「Samantha」の例

これらは同一のテキストを同じ読み上げ速度にしたものですが、固有名詞の読み上げに違いがあったり、読み上げ終えるまでの秒数がこれだけでも5秒の差が生じています。このように声ごとに大きな差があるので、読み上げ速度を調整したり、次に紹介するTipsなどで聞き取りやすいように、または意図通りの発音をしてくれるように工夫する必要があります。

macOS TTSを上手く使いこなすためのちょっとしたTips

できあがった原稿をそのまま読み上げさせたのでは、思い通りには読み上げてくれないことが多いです。次に紹介するような工夫を原稿に加えられたり、合成音声ナレーションには他にもたくさんの選択肢があるので素直に別の手段を検討されるのも良いでしょう。

句読点を多めに用いる

日本語のテキストを読み上げさせる場合は、句点(。)・読点(、)を。英語のテキストを読み上げさせる場合は、コンマ(,)・コロン(.)・セミコロン(;)・ダッシュ(—)などの句読点を用いて、何度もテスト読み上げをしながら、聞き取りやすいように句読点を付け足していくと良いでしょう。

誤読部分を適宜変換する

特に日本語で多く見られるのですが、原稿でたとえば「立位で〜」という部分があったとします。これは「リツイデ〜」と読み上げて欲しいのですが、「Kyoko」も「Otoya」も現時点では「リツクライデ〜」と読み上げてしまいます。このため原稿から感じ部分を「リツイで〜」のように変換する必要があります。誤読していないかをテストして、誤読した部分を適宜、平仮名にしたり、片仮名にしたりで意図する読み上げをしてくれるように変換していく必要があります。

細かく区切って出力する

各声によって、ブレイクの時間もマチマチです。このmacOS TTSの読み上げは、音声合成マークアップ言語(SSML)を用いたりして細かく強調やブレイク時間を指定することはできないため、編集でブレイク時間を設けたりを調整する必要がでてきます。そのため、あらかじめセンテンス単位のオーディオファイルに細かく区切っておいた方が良いでしょう。

固有名詞の読み上げはトライ&エラー

日本語読み上げであれば固有名詞部分はすべてカタカナに変換するなど回避できるのですが、日本語以外で固有名詞の読み上げは、その声によって発音にかなり差異があります。合成音声でナレーション収録をする場合、どのソフト・サービスを選ばれるにしても、固有名詞の読み上げが最大の壁として立ちはだかります。お客様の名称やサービスを意図通りに読み上げてくれないなど最悪の事態にもなりかねません。

ただし、トライ&エラーを繰り返すことで、意図通りの読み上げに近づけたりすることが可能な場合があります。固有名詞をハイフン(-)で区切る、さらに発音されてない部分のローマ字を付け足し、その言語の男女すべての声を試したりしてみましょう。中には、意図通りの読み上げをしてくれる声が見つかるかもしれません。

個人的には、英語の女性の声である「Allison」と「Samantha」だけは、試行錯誤する中で意図通りの発音をしてくれる組み合わせに辿り着けることがよくあります。

商業レベルでの日本語読み上げは別の手段の検討を

日本語の読み上げのイントネーションは、シビアなようで聞いていると、「Kyoko」「Otoya」ともに可笑しいイントネーション部分がどうしても多々出てきます。そのため商業で利用するレベルには厳しいです。商業目的での合成音声ナレーションであれば、素直に日本語対応の他のソフトやクラウドサービスから、期待に近しい読み上げをしてくれるものを探された方が良いでしょう。たとえば、クラウドサービスだけでも日本語に対応しているサービスに次のようなものがあります。

Share, Comment
Recruit

デザイナー募集

デザインは技術を使いこなす上で欠かすことのできない要素であり、
課題の解決法を生み出したり、新たな仕組みや価値を創造するのにも有効な手法です。
ブランディングやプロモーションの設計・戦略構築から行うW3Gでは
制作のみに留まらず、その後の活用までを俯瞰した「ビジネスをデザインする」
アートディレクション面にまで幅広く携われます。