本記事では、音声合成ソフトを使用する上で必要となる「マークアップ言語」について解説します。
「SSML」とは、音声のマークアップ言語のことです。代表的なマークアップ言語としては「HTML」があります。SSMLのコードを書くことで、音声合成ソフトで作成する音声をさまざまな形でコントロールできます。
日付や時刻、略語などをSSMLの記述で指定することにより、音声のレスポンスをより細かくコントロールできます。
「speak」は、SSMLを有効にするためのコードです。読み上げたいテキストの最初と最後に「「speak」「/speak」」を入れることで、自動的にSSMLが有効になります。このコードを入れないとSSMLが適用されないため、必ず忘れずに入れてください。
「break /」は、指定した時間音声の再生を停止することができるコードです。再生する音声の間に、例えば「break time="2s"/」と入力すると、この部分で2秒間音声が停止されます。HTMLの改行タグ「br」と同じ位置づけで活用できます。
「p」は、適度な時間音声の間を空けることができるコードです。HTMLの「p」と同じで、適度な段落を確保してくれます。音声の合間をバランスよくしたいときに使用します。2秒以上など、ある程度長く間を空けたいときは、先に紹介した「break /」を、適度に間を空けたいのであれば「p」を使用すると便利です。
「emphasis」は、音声の発声を少し強くすることができるコードです。強調を強くするほど、スピードはゆっくり、音声は大きくなります。
「prosody」は、音声のボリュームやスピードを変化させることができるコードです。「属性」をひとつ以上設定することで、音声に変化をもたらすことができます。このコードで調整できるのは、「早さ」「高さ」「大きさ」の3種類です。
例えば、「「prosody volume="loud"」音声テキスト「/prosody」」と入力することで、音声が大きくなります。また、「「prosody pitch="high"」音声テキスト「/prosody」」と入力すると、音声が高くなります。強弱や遅さ、速さなど、属性を入れることでさまざまな形にカスタマイズできます。
音声合成ソフトで使用するコードには、本記事で紹介したコード以外にも数多くあります。ただし、音声認識ソフトの種類によっては正しく再生されないものもあるため、使用する音声認識ソフトにコードが対応しているかを確認したうえで入力することをおすすめします。
本記事では、音声認識ソフトに関するさまざまな情報を発信しています。音声認識ソフトの使用を検討している人、より詳細な情報を求めている人は、ぜひ参考にしてください。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。