ここでは、音声合成ソフトの仕組みをご紹介します。音声合成ソフトは利用目的や利用シーンに合ったものを選ぶことが大事です。以下でそれぞれの仕組みを紹介しますので、参考にしてみてください。
音声合成の仕組みは以下のように複数の種類があります。
録音編集方式は、テキスト音声合成方式と並ぶ基本的な音声合成方式の一つです。番号や地名などある定まった単語やフレーズを録音し、それぞれを組み合わせて一つの文章を形成します。肉声により録音するため自然な音声に仕上がりますが、イントネーションがおかしいと感じる場合があります。
テキスト音声合成方式も、基本的な音声合成方式の一種です。読んで字のごとく、テキストを読み上げて音声に変換する方式の合成技術です。さまざまな単語や言葉に対応し音声にできるのがメリットです。テクニカルには、「規則合成方式」と「コーパスベース合成方式」の2種類に分類されています。
規則合成方式はテキスト音声合成方式の一種で、あらかじめ一定の規則を設定したうえで、その規則に沿って音声波形を合成する方式です。新しい単語にも対応できるメリットがある一方、機械的に音読されている感が否めません。リアルな人間の声を表現するのが難しかったため、WEBサイトやメールの読み上げなど、アクセシビリティツールとして限定的に用いられていました。
コーパスベース合成方式もテキスト合成方式の一種ですが、こちらは現在、広く使われている音声合成技術のベースとなっているものです。あらかじめ、会話・スピーチ・インタビューなどの音声データを集積しておき、そこへテキストを入力して音声データベースの「音声波形」を用いて音声合成を行います。
コーパスベース合成方式は、「波形接続型音声合成方式」と「統計モデル型音声合成方式」の2種類に分類されます。
波形接続型音声合成方式は、大量の音声を収録して音素単位に分割し、音素同士をつなぎ合わせて音声合成をする方式です。高音質な音声合成が可能ですが、波形を組み合わせただけでは不自然な音声になるため、適切な組み合わせを抽出するための専門知識やスキルを要します。プロや上級者向けの方式です。
統計モデル型音声合成方式は、事前に音声データと機械学習により音声モデルを作成しておき、モデルに沿ってテキストの解析を行い音声を予測して合成する方式です。音声データが少なくても安定した音声合成ができるメリットがあります。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい