
ここでは、Voice Track Makerのおすすめポイントを中心にいくつかご紹介します。2021年8月にリリースされたばかりの新しい音声合成ソフトですが、高性能な機能が充実しているのでぜひチェックしてみてください。
Voice Track Makerには、韻律射影機能が搭載されています。韻律射影機能とは、実際の人の声を録音し、その音声の抑揚とテンポの情報をその場で分析して、音声合成に真似してもらう機能のことです。これにより、喜怒哀楽の感情表現以外の演技表現も実現されました。
韻律射影機能には3種類の製品を展開しており、機能制限ありの無料お試しプランから8つの日本語話者が搭載した本格プランまであります。無料版といっても、男女2人の話者から選択出来て、音声合成の作成自体は可能です。商用目的の場合、33,000円(税込み)のPro Light版もしくは165,000円(税込)のPro版のどちらかを選ぶ必要があります。
Voice Track Maler は、2022年1月より商用ライセンスWEB版の販売を開始しています。売上1,000万未満の法人向けプランが月額3,300円(税込)、売上1,000万以上の法人向けプランが月額55,000円(税込)です。複数のツールで大きなコンテンツ制作をおこなう場合は、別途見積もりを出すプランもあります。
毎年数々のゲームクリエイターを輩出する専門学校バンダイゲームアカデミーでおこなわれた制作イベント「Game Jam」で、Voice Track Makerが使用されました。実際に制作した学生曰く「躍動感やニュアンスなどの細部まで作り込むことができることに技術の進歩を感じた」、「人の声を当てボタンをクリックするだけでほぼ自動で音声の軸となる音が作成できて、とても使いやすかった」※などポジティブな意見が多かったようです。
※参照元:東芝デジタルソリューションズ 株式会社公式HP:https://voicetrackmaker.bp.recaius.jp/ContentsPage
Voice Track Makerは、通常の感情表現とは違う演技表現も取り入れた韻律射影機能が付いているのがポイントです。主に、人の声の収録が重要視されないゲームやコンテンツの制作などのクリエーション分野への活用が期待されそうです。
Voice Track Makerは、東芝デジタルソリューションズ 株式会社が制作しました。2003年に東芝の社内カンパニー2社を統合して誕生した会社で、主にIoTやAIを活用したICTソリューションの開発・製造・販売を中心におこなっています。
音声合成サービスを体験してもらうための無料プランがあります。一部機能制限がありますが、男女1人ずつ日本語話者の選択が可能です。
Voice Track Maker Performanceには、テンポ射影機能が新たに搭載されています。テンポ射影機能により、テキスト入力で自動生成した合成音声の抑揚は変わらぬまま、クリエーターが教示した声のテンポだけを変えて自然な表現にすることができます。
これによって合成音声に自然な揺らぎを与えられ、イキイキとした表現の音声を簡単に生成することが可能となりました。
音声合成に声の抑揚とテンポを真似させる従来機能「韻律射影機能」を強化。今まで表現できなかった「冷たぁ~い」といった長母音のニュアンスなど、生成した合成音声を韻律を直感的なユーザーインターフェースで容易に、かつ細かく調整することができます。
人の収録音声をもとに、7人分の声辞書を標準搭載しています。さまざまな声が用意されていて、落ち着いたナレーションや若々しいキャラクターなどさまざまな場面で利用することが可能です。活用することで、音声合成の適用シーンの幅がさらに広がるでしょう。
Pro Lightは、機能制限なしで使えるベーシック版です。3名の日本語話者(男性2名女性1名)が搭載されており、商用利用も可能。価格は、33,000円(税込)です。
Pro版は、利用制限なしで8名の日本語話者(男女4名ずつ)が搭載された本格版です。商用利用が可能で、価格は165,000円(税込)。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。