音声合成の方法には、いくつか種類があります。このページでは、音声合成の種類について解説しています。
録音編集方式は、単語や短いフレーズなどを録音した音声データを組み合わせて言葉を作る音声合成の方式です。肉声を利用するため、自然な音声となりやすいのが特徴といえます。しかし録音した音声データがベースとなるので、生成できる言葉に限界があります。
テキスト音声合成方式は、テキストを読み上げて音声にする方式です。打ち込んだテキストであればどんな言葉でも対応できるというメリットがあります。その一方で、機械が読み上げている感じが強く、不自然な音声になってしまうという欠点があります。
コーパスベース音声合成方式は、会話やスピーチ、インタビューなどの音声データを集めて「音声コーパス」と呼ばれる音声データベースを作成しておき、テキスト入力時にデータベースに格納された音声波形を活用して音声を合成する方式です。テキスト音声合成方式と比べると、不自然さを解消させることができるのが特徴です。現在、幅広く用いられている音声合成方式の基盤となっています。
波形接続型合成方式と統計モデル型合成方式は、どちらもコーパスベース音声合成方式の1つです。音声の出力の仕方に違いがあります。
波形接続型合成方式は、音声を波形データとして音素単位に分割してデータベースに格納し、テキストが入力された時に、その音素を組み合わせて音声にする方法です。単純に波形を組み合わせると音声が不自然になってしまうため、アクセントや構文などの情報から判断して適切な組み合わせを抽出してくれます。
統計モデル型合成方式は、データをもとにAIが学習して推論モデルを作り、そのモデルを使って推論して音声波形を合成する方法です。テキスト解析によって取り出された単語・品詞と、音声から抽出した音響特徴量の関連を学習させ、音響モデルを作成します。
統計モデル型合成方式には、HMM音声合成方式とDNN音声合成方式の2種類があります。
HMMは隠れマルコフモデルと呼ばれる学習アルゴリズムを使ったもので、DNNはディープラーニングを使った学習モデルのことをいいます。これまでは、HMM音声合成方式が音声合成の主流として活用されていましたが、最近はDNN音声合成方式の利用が徐々に増えてきています。
音声合成の種類についてはもうお分かりいただけたでしょうか。
本サイトでは「音声合成ソフト」のおすすめを、ニーズ別に紹介しています。種類を把握したうえで目的に合うソフトがあるか、ぜひ下記3選をご確認ください。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい