
ここでは、テクノスピーチのおすすめポイントや導入事例をご紹介します。NTT西日本との開発協定もある国立大学が中心となって開発した音声合成ソフトです。
テクノスピーチは、国立大学法人名古屋工業大学が中心となって開発した音声合成ソフトです。同大学は開発の分野において、NTT西日本と協定を結ぶ実績※があります。大学が世界に誇る先端の音声関連技術がふんだんに盛り込まれている音声合成ソフトです。
テクノスピーチは、統計的パラメトリック音声合成手法を使用しています。統計的パラメトリック音声合成は、従来の波形接続型音声合成より自然で滑らかな音声が演出できるのが特徴です。感情表現の調整もできます。
テクノスピーチは、テキスト入力から音声合成までの遅延がほとんどなく、データサイズを最小限に抑えています。そのため、複数の異なるテキストを同時に生成することも可能です。負担が少ない分、古い型のPCでも連続使用しやすいという利点があります。
電子キーボード「Casiotone(カシオトーン)」シリーズの「CT-S1000V」にテクノスピーチが導入されています。特別な演奏スキルがなくても、鍵盤で歌声を奏でられる電子キーボードです。
※参照元:株式会社テクノスピーチ公式HP:https://www.techno-speech.com/
英語音声読み上げ&ナレーション作成ソフト「A.I.VOICE」シリーズの「Kotonoha Akane & Aoi English」にテクノスピーチが導入されています。難しい英語ナレーションの収録は、音声合成で解決できるのも特徴の1つです。
※参照元:株式会社テクノスピーチ公式HP:https://www.techno-speech.com/
テクノスピーチは、統計的パラメトリック音声合成手法によって、より人間味のある音声が作成できます。複雑な感情表現の調整や読み方の指定も可能です。収録した声を生かしたオリジナルボイスの作成や歌声を合成するソフトウェア開発キッドなどを複数展開しています。
テクノスピーチは、株式会社テクノスピーチが制作しています。世界最先端の音声関連技術の普及を目的として、2009年に国立大学法人名古屋工業大学が中心となって設立されました。主に、マスメディアに関連したコンピュータのソフトウェアの企画・開発・販売をおこなっています。
テキスト音声合成ソフトウェア開発キットは、細かい感情表現を設定したり混ぜ合わせたりできるのが魅力。館内ナレーションや災害アナウンスに適しています。
これまでの波形接続型音声合成手法とは異なり、統計的パラメトリック音声合成手法を採用しているのが特徴です。さまざまな発音スタイルに対して自然な音声を合成できるうえ、怒りや悲しみといった感情表現ができる「感情音声合成技術」も搭載しています。
テキスト上の固有名詞をはじめとした未知単語は、ユーザー辞書を利用することで違和感なく発話できるようになります。読み方を部分的に修正したい場合は、対象となる単語に簡単なタグを記入することで読み方の指定が可能です。
動作が素早く、テキスト入力から音声合成までの遅延がほとんどありません。そのため、並列に動かすことで、複数のテキストを同時に音声合成できます。また、ハイスペックコンピューターを持っていなくても、スマホや組み込み向けプロセッサで作業可能です。
統計モデルをベースとした音声合成手法を採用しているため、ハードディスク容量を気にせず利用できるでしょう。
テキスト入力からの音声出力といったシンプルで分かりやすいAPIを用意。文単位で声量や話すスピード、声の高さ、声年齢の調節も可能です。音素単位での調節にも対応しているため、効率的なアプリケーション開発が期待できます。
パソコンやスマホのスピーカーで合成音声の再生ができるうえ、メモリ上でのデータ受け渡し、ファイルへの保存にも対応しています。
日本語はもちろん、英語や中国語(簡体字)にも対応しています。その他の言語は要相談となっています。
C++言語を対象とした静的ライブラリによる音声合成エンジンの提供を基本としていますが、その他の開発言語の希望にも柔軟に対応しています。Windows以外のOSでも利用可能なので、わざわざ対応する端末を用意する必要がありません。
テキスト音声合成用オリジナルボイス作成は、数時間分の収録音声から自動的にその人の声の特徴を把握して合成をおこないます。感情表現の調整も可能です。ショッピングモールのアナウンスや天気予報など、幅広い用途で使えるのが魅力。
モデルとしたい人物の声を音声合成ボイスとして作成・保存できるため、その人の声質や話し方の特徴を反映した合成音声をいつでも作り出せます。これをアニメやゲームなど活用することで、声優のスケジュールを気にせず低コストで声を吹き込むことが可能です。
喜怒哀楽といった基本的な感情以外にも、照れなどさまざまなスタイルを組み合わせて音声を作れます。そのため、複雑な感情表現が必要な作品も難なく作れるでしょう。
ショッピングモールの館内アナウンスや駅の構内放送、デジタルサイネージなどのコマーシャルやテレビ放送の天気予報など、あらゆるスタイルの音声合成に対応しています。抑揚の有無なども設定できるので、シーンに合わせた発話を実現できるでしょう。
病気などが原因で声帯を摘出する必要がある人が、手術前に自身の音声を収録しておくことで、声帯摘出後に自身の声を発するサポートが可能です。すでに声帯を摘出している場合、声の似ている家族の協力によって本人に似せた音声を作成できます。口調や声質などの再現度も高いため、違和感を抱きにくいでしょう。
お子さまの声を収録してボイスを作れば、音声合成によって小さな頃の声を再現できます。お子さまの成長後も、変わらず可愛いらしい声で話しかけてくれるなど、癒し効果に長けたシステムの構築にも一役買ってくれるでしょう。
故人の音声をデータとして残しておけば、音声合成用ボイスの作成によって再現できます。過去に収録した音声がいくつか残っていれば、それらを使用して音声合成用ボイスを作れます。収録状況やデータ量によってはボイスが作成できなかったり音声の品質が落ちてしまうことがありますが、技術でカバーできるケースもあるため、困った場合は相談してみると良いでしょう。
歌声合成ソフトウェア開発キットは、歌唱者の歌声はもちろん、癖やテクニックまで細かく再現できるのが魅力。キャラクターを歌わせたい時、わざわざ収録しなくても音声合成で賄えるということです。
統計的パラメトリック音声合成手法によって、歌唱者のテクニックや癖、裏声まで細かく再現できます。「歌唱スタイル補間技術」の利用によって、まるで生身の人間が歌唱しているかのような自然な歌声に仕上がるでしょう。
楽譜の入力から歌声の合成までのスピードが非常に早く、遅延ストレスがかかりにくいです。複数パートの同時もできるほど能力も高いため、作業効率アップも期待できます。また、高性能なコンピューターを使用せずとも、スマホや組み込み向けプロセッサでハイクオリティな作品を作り出せるのも良いところです。
また、音声合成手法には統計モデルを活用しているので、データサイズやメモリ使用量が小さく、ハードディスク容量を圧迫しません。
アプリケーションを効率的に開発できるよう、APIは歌声の出力と音符/休符の入力というシンプルな設計を採用しています。声の大きさや高さ、発声タイミングなどを個別調整するAPIも提供しているでしょう。
パソコンやスマホを使った音声の再生以外にも、ファイルの保存やメモリを介したデータの受け渡しなどに対応しています。
日本語(かな)をはじめ、英語や中国語(ピンイン)、台湾中国語(注音)といった言語に対応。そのほかの言語は要相談となっています。
歌声合成エンジンはC++言語用の静的ライブラリが基本ですが、その他の開発言語に関する相談も受け付けています。Windowsをはじめとした複数のOSで利用できるのも嬉しいポイントです。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。