【オトナリ】音声合成ソフトをまとめました » 音声合成ソフトの基礎知識 » 音声合成の歴史を知りたい

音声合成の歴史を知りたい

音声合成の技術は1700年代には母音や子音を発することが可能な機械がすでに発明されていたようです。その後パソコンの技術により音声合成の技術はさらに発展していきました。
このページでは、音声合成が発展していった歴史を1790年代から2022年現代まで紹介しています。

1790年代

人間の声を人工的に作り出す「音声合成」への挑戦は古代から始まっていましたが、実際に母音や子音を発することはできていませんでした。しかし、1791年にフォン・ケンベレンが発明した機械式音声合成器によりそれが可能となり、音声合成の歴史が開幕しました。

1930年代

1939年になると、ダッドレーが「Voder」を発明しました。これは以下のような操作によって演奏されるボイスモデルであり、ワールド・フェアでのデモンストレーションで大反響を受けました。

キーボードによる母音のオン/オフ切り替え
周波数を制御するペダル
子音再現ボタン

1940年代

1940年代に入り、コンピュータの誕生と発展により、音声合成は飛躍的進化を遂げていくことになります。この時代に発明されたのが、スティーブンとファントによる声道アナログ型合成器です。

1950年代

1950年代に入り、郵政省通信総合研究音声研究グループにより、日本最初の全電子式音声合成装置が発明されました。ようやく現在のようなコンピューターを使った音声合成器が誕生したのです。

1960年代

1960年代にはマイクに向かって喋りながら楽器を弾くと、声が楽器の音程に合わせたロボットボイスになって合成される「Voicer Coder」（言語分析および再合成機）がダッドレーによって開発されました。

また、浮動小数点数演算ハードウェアを搭載した「IBM 704」が、ベル研究所にて歌った「デイジー・ベル」はコンピューターによる初めての歌として現在も語り継がれています。

さらに、日本の産業技術総合研究所では、世界初の英語による「text-to-speechシステム」が開発されるなど、1960年代は合成音声の技術がメキメキと進捗していきました。

1970年代

1970年代に入ると、クラットによって母音を特徴づける優秀な周波数成分であるフォルマントの合成器が開発されました。

また、電々公社電気通信研究所は線形予測分析（LPC)合成を提案し、1978年にはTI ゲーム機Speach&Spellで一定数のメッセージを音声出力できるようになっていきます。

1980年代

1980年代に入ると、クラットは韻律規則や音韻接続規則の記述によって、テキストからの音声合成を実現しました。1983年にはDECがDEC Talkでテキストから音声合成を商品化しています。

また、1984年に発売された初代Macから始まり、WindowsやAmiga OSといったOSに音声合成エンジンが搭載され、初めて音声合成が使用されたテレビゲームも発売されました。

さらに、1986年にはシャルバンティエによってPSOLA(ピッチ同期波形重畳）合成方式が開発されるなど、1980年代はより音声合成が身近な存在へと近づいてきた時代といえるでしょう。

1990年代

1995年にはニックキャンベルによるCHATR(コーパスベース音声合成方式）が開発され、ICASSP1995にて隠れマルコフモデル（HMM）による音声合成が発表されました。

また、1990年代後半にはカーナビが普及されました。その経路案内などの音声ガイダンスに音声合成システムが起用されたことで、その技術が広く一般的に知られるきっかけとなりました。

2000年代～現在

2000年代は「初音ミク」などの歌声音声合成技術製品が発売され、ニコニコ動画など様々なメディアで取り上げられたことにより、音声合成技術は一般的にもさらに広く知られていきました。

2002年にはHMM音声合成ツールキット（HTS）が名古屋工業大学によってリリースされ、2013年には初の深層学習方式の音声合成がGoogleにより発表されました。

また、2016年に深層学習による波形生成モデルWaveNetがDeepMindによって発表され、2017年にはEnd-to-end方式による音声合成システムTacotronがGoogleによって発表されました。

2022年現在では、スマートスピーカーの声を好きな芸能人の声にする「コエステーション」や「おしゃべりひろゆきメーカー」で一時期Twitterなどで話題になった「CoeFont」にように、特定の人の声の特徴を学習して似た合成音声で本物が喋ったように発話させる技術やサービスが広がっています。

※参照元：
株式会社エーアイ公式HP「音声合成の歴史」（https://www.ai-j.jp/company/profile/history/）
coestation公式HPブログ「音声合成とは？歴史から学ぶ音声合成を活用するメリットと今後」（https://coestation.jp/blog/detail.php?id=1002230#:~:text=が可能です。-,音声合成ソフトの歴史,-次に、この技術）
CoeFont公式HP「おしゃべりひろゆきメーカー」https://hiroyuki.coefont.cloud/
CoeFont公式HP：https://coefont.cloud/coefonts

今後も音声合成の進化に注目

古くからその試みがあった音声合成はコンピュータの発明により飛躍的に進化していきました。コンピュータの技術が発展していくほど、音声合成の技術も磨かれていきました。

インターネットが一般家庭の隅々にまで定着していった頃、目覚ましい進化を遂げていったAIの技術によって音声合成は新しい幕開けを迎えることとなりました。

現在はテキストを打ち込むだけで蓄積された音声ベースデータから、より感情のある声に近いと感じられる音声合成が次々と生み出されています。今後も音声合成の進化に注目です。

本サイトでは「音声合成ソフト」のおすすめを、ニーズ別に紹介しています。音声合成ソフトの進化が気になる方は、下記3選をご確認ください。

「ニーズ別音声合成ソフトの
おすすめ3選」
を見る

あわせて読みたいページ

目的に合ったものはどれ？
ニーズ別音声合成ソフトのおすすめ3選

音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。

調整が簡単で質の高い
音声合成をしたい

AITalk®
（株式会社エーアイ）

引用元：AITalk® 公式HP
https://www.ai-j.jp/

特徴

先端ディープラーニングを導入した独自の技術で、
音質・肉質感の向上、多様な発話表現を実現。

利用シーン

日本語・英語・中国語をメインに、
品質重視のカーナビや館内放送、ニュース読み上げなど

エーアイ
公式HPを見る

AITalkを
詳しく見る

エーアイに問い合わせる

芸能人の声を使った
音声合成をしたい

コエステーション
（コエステ株式会社）

引用元：コエステ株式会社公式HP
https://coestation.jp/

特徴

9万以上の一般ユーザーだけでなく、
40以上に
のぼる有名人などの
豊富な「コエ」の数。

利用シーン

世界観やPR要素重視の
ゲームやYouTube動画など
（エンタメ系）

コエステ
公式HPを見る

コエステーションを詳しく見る

コエステに問い合わせる

外国語をメインに
音声合成をしたい

ReadSpeaker
（HOYA株式会社）

引用元：HOYA株式会社公式HP
https://readspeaker.jp/

特徴

中国語と区別して広東語も。
日本語、英語(アメリカ・イギリス)、韓国語をはじめ、
24言語に対応。

利用シーン

観光案内や美術館の音声ガイダンスと
いった、
外国籍の方の利用が多い場所など

ReadSpeaker
公式HPを見る

ReadSpeakerを詳しく見る

ReadSpeakerに問い合わせる

【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。（2022年2月調査時点）
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。