音声合成の仕組み

ここでは、音声合成ソフトの仕組みをご紹介します。音声合成ソフトは利用目的や利用シーンに合ったものを選ぶことが大事です。以下でそれぞれの仕組みを紹介しますので、参考にしてみてください。

仕組み(方法)は複数ある

音声合成の仕組みは以下のように複数の種類があります。

録音編集方式

録音編集方式は、テキスト音声合成方式と並ぶ基本的な音声合成方式の一つです。番号や地名などある定まった単語やフレーズを録音し、それぞれを組み合わせて一つの文章を形成します。肉声により録音するため自然な音声に仕上がりますが、イントネーションがおかしいと感じる場合があります。

テキスト音声合成方式

テキスト音声合成方式も、基本的な音声合成方式の一種です。読んで字のごとく、テキストを読み上げて音声に変換する方式の合成技術です。さまざまな単語や言葉に対応し音声にできるのがメリットです。テクニカルには、「規則合成方式」と「コーパスベース合成方式」の2種類に分類されています。

規則合成方式

規則合成方式はテキスト音声合成方式の一種で、あらかじめ一定の規則を設定したうえで、その規則に沿って音声波形を合成する方式です。新しい単語にも対応できるメリットがある一方、機械的に音読されている感が否めません。リアルな人間の声を表現するのが難しかったため、WEBサイトやメールの読み上げなど、アクセシビリティツールとして限定的に用いられていました。

コーパスベース合成方式

コーパスベース合成方式もテキスト合成方式の一種ですが、こちらは現在、広く使われている音声合成技術のベースとなっているものです。あらかじめ、会話・スピーチ・インタビューなどの音声データを集積しておき、そこへテキストを入力して音声データベースの「音声波形」を用いて音声合成を行います。

コーパスベース合成方式は、「波形接続型音声合成方式」と「統計モデル型音声合成方式」の2種類に分類されます。

波形接続型音声合成方式

波形接続型音声合成方式は、大量の音声を収録して音素単位に分割し、音素同士をつなぎ合わせて音声合成をする方式です。高音質な音声合成が可能ですが、波形を組み合わせただけでは不自然な音声になるため、適切な組み合わせを抽出するための専門知識やスキルを要します。プロや上級者向けの方式です。

統計モデル型音声合成方式

統計モデル型音声合成方式は、事前に音声データと機械学習により音声モデルを作成しておき、モデルに沿ってテキストの解析を行い音声を予測して合成する方式です。音声データが少なくても安定した音声合成ができるメリットがあります。

目的に合ったものはどれ?
ニーズ別音声合成ソフトのおすすめ3選

音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。

調整が簡単で質の高い
音声合成をしたい

AITalk®
(株式会社エーアイ)
特徴
先端ディープラーニングを導入した独自の技術で、
音質・肉質感の向上、多様な発話表現を実現。
利用シーン
日本語・英語・中国語をメインに、
品質重視のカーナビや館内放送、ニュース読み上げなど

芸能人の声を使った
音声合成をしたい

コエステーション
(コエステ株式会社)
特徴
9万以上の一般ユーザーだけでなく、
40以上に
のぼる有名人などの
豊富な「コエ」の数。
利用シーン
世界観やPR要素重視の
ゲームやYouTube動画など
(エンタメ系)

外国語をメインに
音声合成をしたい

ReadSpeaker
(HOYA株式会社)
特徴
中国語と区別して広東語も。
日本語、英語(アメリカ・イギリス)、韓国語をはじめ、
24言語に対応。
利用シーン
観光案内や美術館の音声ガイダンスと
いった、
外国籍の方の利用が多い場所など

【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。