音声合成の種類

音声合成の方法には、いくつか種類があります。このページでは、音声合成の種類について解説しています。

録音編集方式

録音編集方式は、単語や短いフレーズなどを録音した音声データを組み合わせて言葉を作る音声合成の方式です。肉声を利用するため、自然な音声となりやすいのが特徴といえます。しかし録音した音声データがベースとなるので、生成できる言葉に限界があります。

テキスト音声合成方式

テキスト音声合成方式は、テキストを読み上げて音声にする方式です。打ち込んだテキストであればどんな言葉でも対応できるというメリットがあります。その一方で、機械が読み上げている感じが強く、不自然な音声になってしまうという欠点があります。

コーパスベース音声合成方式

コーパスベース音声合成方式は、会話やスピーチ、インタビューなどの音声データを集めて「音声コーパス」と呼ばれる音声データベースを作成しておき、テキスト入力時にデータベースに格納された音声波形を活用して音声を合成する方式です。テキスト音声合成方式と比べると、不自然さを解消させることができるのが特徴です。現在、幅広く用いられている音声合成方式の基盤となっています。

波形接続型合成方式と統計モデル型合成方式

波形接続型合成方式と統計モデル型合成方式は、どちらもコーパスベース音声合成方式の1つです。音声の出力の仕方に違いがあります。

波形接続型合成方式は、音声を波形データとして音素単位に分割してデータベースに格納し、テキストが入力された時に、その音素を組み合わせて音声にする方法です。単純に波形を組み合わせると音声が不自然になってしまうため、アクセントや構文などの情報から判断して適切な組み合わせを抽出してくれます。

統計モデル型合成方式は、データをもとにAIが学習して推論モデルを作り、そのモデルを使って推論して音声波形を合成する方法です。テキスト解析によって取り出された単語・品詞と、音声から抽出した音響特徴量の関連を学習させ、音響モデルを作成します。

HMM音声合成方式とDNN音声合成方式

統計モデル型合成方式には、HMM音声合成方式とDNN音声合成方式の2種類があります。

HMMは隠れマルコフモデルと呼ばれる学習アルゴリズムを使ったもので、DNNはディープラーニングを使った学習モデルのことをいいます。これまでは、HMM音声合成方式が音声合成の主流として活用されていましたが、最近はDNN音声合成方式の利用が徐々に増えてきています。

音声合成の種類についてはもうお分かりいただけたでしょうか。
本サイトでは「音声合成ソフト」のおすすめを、ニーズ別に紹介しています。種類を把握したうえで目的に合うソフトがあるか、ぜひ下記3選をご確認ください。

目的に合ったものはどれ?
ニーズ別音声合成ソフトのおすすめ3選

音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。

調整が簡単で質の高い
音声合成をしたい

AITalk®
(株式会社エーアイ)
特徴
先端ディープラーニングを導入した独自の技術で、
音質・肉質感の向上、多様な発話表現を実現。
利用シーン
日本語・英語・中国語をメインに、
品質重視のカーナビや館内放送、ニュース読み上げなど

芸能人の声を使った
音声合成をしたい

コエステーション
(コエステ株式会社)
特徴
9万以上の一般ユーザーだけでなく、
40以上に
のぼる有名人などの
豊富な「コエ」の数。
利用シーン
世界観やPR要素重視の
ゲームやYouTube動画など
(エンタメ系)

外国語をメインに
音声合成をしたい

ReadSpeaker
(HOYA株式会社)
特徴
中国語と区別して広東語も。
日本語、英語(アメリカ・イギリス)、韓国語をはじめ、
24言語に対応。
利用シーン
観光案内や美術館の音声ガイダンスと
いった、
外国籍の方の利用が多い場所など

【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。