音声対話システムに、音声合成ソフトを採用している企業が増えています。そこでここでは、音声対話システムに音声合成ソフトを活用している企業をまとめて紹介しています。
成田空港からリリースされた、世界の空港で初※となる「成田コンシェルNariCo powered by しゃべってコンシェル」に株式会社エーアイの高品質音声合成エンジン「AITalk」が採用されています。「成田コンシェルNariCo powered by しゃべってコンシェル」とは、成田空港が提供している世界初の空港版音声エージェントアプリです。NTTドコモと共同開発を行い、アプリに話しかけると、お客様一人一人のニーズに対応したサービスとして、空港の案内サービスです。このアプリはお客様の話す意図を読み取り、親しみ易いなめらかな声で適切な情報を提供します。この声を高品質音声合成エンジン「AITalk」で作成しています。
参照元:株式会社エーアイ公式HP(https://www.ai-j.jp/topics/1814/)※2022年3月時点。
沖電気株式会社では、アバターを介した音声対話において、バックグランドが対話AIでも友人オペレーターでも、同じアバターとして振舞い接客を行う、接客支援ミドルウェア「CounterSmart」の音声に、コエステ株式会社が提供する音声合成エンジンのコエステーションを採用しています。
参照元:コエステーション公式HP(https://coestation.jp/business/case/)
Sporifyは、ディープニュートラルネットワークを用いたオリジナルボイス開発経験、ブランドボイスに関する深い専門知識を持つ、ReadSpeakerのTTSを採用しています。オリジナルボイスに、ディープラーニングの導入により、音声の品質が向上し、より繊細で自然な感情表現が可能になっています。また、オリジナルボイスでは、お客様ご指定の声優さんの声を基に、声優さんの特徴を活かした音声を作成しています。これらのオリジナルボイス作成に、「ReadSpeakerのTTS」が使われています。
参照元:ReadSpeaker公式HP(https://readspeaker.jp/news/articles/casestudy_20210921-01_Spotify.html)
音声対話とは、音声を認識するだけでなく、発話の意図を理解し、考え、適切な回答をする音声対話システムです。音声認識技術に伴い活発に開発が行われ、1990年代には、多くの研究機関がプロットタイプのシステムを開発していました。現在ではAI技術の進化に伴い、発話の意図の理解・推論も向上し、より適切な回答を自然で滑らかな音声で可能になっています。
本サイトでは音声対話としても応用可能な「音声合成ソフト」のおすすめを、ニーズ別に紹介しています。
感情表現が豊かかどうかなど、目的に合うソフトがあるか、ぜひ下記3選をご確認ください。
音声合成技術の進化に伴い、従来のテキストベースのインターフェースから、より直感的な「声による対話」が注目を集めています。スマートスピーカーやカーナビ、医療・福祉機器など、音声対話を取り入れたサービスは年々増加しており、ユーザー体験の質を大きく左右する要素となっています。
音声対話の魅力は、手を使わずに情報検索や指示が可能な点です。運転中や料理中、あるいは身体が不自由な人にとって、音声による操作はまさに生活を支えるテクノロジーとして役立ちます。
テキストベースの操作とは異なり、音声対話は「話しかけるだけ」で操作できるため、高齢者や子どもなどデジタルに不慣れな層でも、比較的習得しやすい傾向があります。ただし、実際の使いやすさは、音声認識精度や設計の工夫によって左右されます。
声にはトーンや抑揚があり、単なるテキストよりも親しみや温かさを感じられるのもメリットの一つです。たとえば高齢者向けのケアロボットや、子ども向けの教育アプリなどでは、音声対話によって「相手がいる感覚」が強まり、心理的な安心感を得られるでしょう。
声による操作は、他の作業をしながら同時進行で進められるため、忙しいビジネスパーソンや家庭の主婦・主夫にとっても時間効率の高い選択肢となります。
発話のクセや背景音、話者の年齢・性別などによって、音声認識の精度が低下する場合があります。誤認識による操作ミスは、ユーザーの不満や不信感につながる要因です。
音声による入力は周囲に内容が筒抜けになる可能性があるため、公共の場やオフィスでは使いにくいのが課題の一つです。とくに個人情報や機密情報を扱う場面では、慎重な運用が求められます。
現在の音声対話システムは、あらかじめ設計されたフローやキーワードに基づくものが多く、自由会話にはまだ限界があります。ユーザーの意図を汲み取りきれず、会話がかみ合わないといった課題も残されています。
視覚的なインターフェースと違い、音声は情報の「一時的な出力」に依存するため、再確認や複数の情報提示には不向きです。たとえば「複数候補の中から選ぶ」といった作業では、視覚表示の方が圧倒的に効率的です。
音声対話の導入ポイントは「いかに人間らしい音声体験を提供できるか」にあります。感情表現や文脈に応じたイントネーション、聞き取りやすい音質など、細部までこだわった音声合成エンジンの活用が不可欠です。
とくに最近では、AI技術を活用した音声ソフトが進化し「人の声に近い自然な音声表現」を実現しています。これにより、ユーザーはより快適でストレスを感じづらい対話体験を受けられます。
たとえば、当サイトで紹介しているような高品質な音声合成ソフトを活用すれば、ナビゲーションやFAQ、読み聞かせコンテンツなど、さまざまな用途に応じた音声対話の活用が可能です。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。