AI技術を取り入れた音声読み上げソフトでは、アクセントや間の取り方、感情表現などをより自然に制御できるのが特徴です。翻訳機能や多言語対応を備えたものもあり、海外向けのコンテンツや学習用途にも重宝します。
一方で、無料版と有料版で使える機能が変わる場合や、クレジット表記の要否があるなど、ライセンスの違いも多岐にわたります。
実在する声優の声をもとに自然で感情豊かな音声を生成します。最新のAITalk®6では深層学習とニューラルボコーダーを用い、より人間らしいイントネーションや抑揚を再現可能。70名以上の話者、64言語に対応し、ナビ音声、アナウンス、教育コンテンツ、放送用途など幅広く活用されています。Web APIやSDK提供で導入も容易です。
好きなときに、イメージ通りの音声を、オンデマンドに合成できることが最大のメリットだと感じて
います。教職員からの急な問い合わせに対しても、対応することができるようになりました。また、事前に
原稿を作成することで、内容を文章として整理することができて、コンテンツのクオリティ向上にもつな
がっているような気がします。まだ試していませんが、複数のキャラクタの音声を使い分けて、掛け合い
のような対話形式の教育コンテンツを作ってもおもしろいかもしれません。学生の興味を引くことができ
ると思います。
引用元:AI.J 株式会社公式サイト「お客様の声」(https://www.ai-j.jp/202205lp/)
AIを用いた多言語対応の読み上げソフトです。無料会員は毎月5,000文字まで商用利用も含め使えます(クレジット表記が必要)。日本語以外にも80言語以上対応しており、男性・女性・子どもの声など、複数の音声を選択できます。クオリティが高いうえにインストール不要で、気軽に試しやすいことが魅力です。
以前は、10分程度の動画資料の声入れに、6時間程度かかってしまうこともありました。
(前略)しかし、現在は1時間半程度でナレーション業務が完結しています。人の声が不要になったおかげ
で、詳細な台本が必要なくなり、やり直しの手間も少なくなったことが大きいですね。
(前略)業務改善のため、音読さんで作ったナレーションを入れた動画を、講習に組み込んでみたんで
す。すると、口頭と同等の理解を得られていることがわかり、人事課員がオリエンテーション以
外の業務にも時間を使えるようになりました。
引用元:音読さん公式サイト「導入事例」(https://ondoku3.com/ja/post/interview-adire/)
無料で使え、18言語・男女の声を選べるオンラインサービスです。クレジット表記をすることで商用利用も可能という太っ腹な設定が魅力です。
見つかりませんでした。
音声合成分野で長い実績を持つブランドです。ロンバード効果をシミュレートし、騒音下でも聞き取りやすい音声を生成できる技術に定評があります。評価実験によると通常の音声合成と比べ、騒音環境下で1.6倍の了解度向上が確認されています。
(前略)鉄道には、「ダイヤ改正」があり、その度に追加音源が必要な場合には、案内放送の音声デー
タをナレーター業者に依頼して作成していました。その作業は膨大で、コストや納品の期間な
どの対応に問題が発生していました。
そこで、大手企業でも導入されている「ReadSpeaker」について調査を始めました。
(前略)また、コストの面において、今までのナレーター業者への依頼によるデータ作成よりも、充分
にコストダウンが見込めることも確認できました。なによりも、ダイヤ改正の音声メッセージ
の対応は、ナレーター業者に依頼することなく、南海電鉄のスタッフが自分たちで作成できる
ので、納期の短縮も図れます。
(前略)南海電鉄では、今後も駅の放送装置の入替えのタイミングで、各駅の「ReadSpeaker」の採
用駅を増やしていきたいと考えています。
引用元:ReadSpeaker Japan 公式サイト「導入事例」(https://readspeaker.jp/case/casestudy_20220426_nankai-dentetsu/)
テキスト読み上げ、ボイスチェンジ機能、独自AI音声の作成など、多機能な総合AI音声サービスです。翻訳機能も53カ国語に対応しており、海外向けの資料や動画でも活用しやすい点が強みです。
実際に活用してみると、ここまで進化してきているんだなと驚きました。細かい修正点が発生した際も、すぐに音
声を生成し直すことができるので、スタッフが読み上げていた時よりもスピーディーに対応することができまし
た。
また、ニュアンスの表現が難しい部分やAI音声だけで一本調子になってしまい聞き手が飽きてしまわないように、
従来どおりスタッフによるナレーションも使いましたが、商品のターゲット層に近い声を採用するため、私(志賀
様)が読み上げた原稿を女性の声質にボイスチェンジしたり、男性の声に変換したりしました。その際は、声のヴ
ァリエーションが多かったので、思い通りの声質に変換することができました。
引用元:PR TIMES【Voice Space活用事例紹介】(https://prtimes.jp/main/html/rd/p/000000066.000056192.html)
文字起こしやAIラップ、音声クローンといったユニークな機能が詰まった多機能ソフトです。3,200種類以上の音声を選べるため、幅広いナレーションスタイルを実現できます。ノイズ除去機能の評価が高く、録音編集を一括で行いやすい点もポイントです。
声のクローン機能が面白すぎる!自分の声をAIに学習させて、好きなセリフを自然に
喋らせることができます。友達との遊びや動画編集で大活躍。ちょっとしたエンタメ
用途でも、ここまでできるのはすごい。
引用元:ReadSpeaker Japan 公式サイト「導入事例」(https://jp.imyfone.com/voice-generator/reviews/)
VoxBoxのおかげで、手軽にプロ並みのナレーション音声を作れるようになりました!
特にAI音声のクオリティが高く、感情表現も豊かで驚きました。言語の種類も豊富
なので、いろいろなシーンで活用できて本当に便利です!
引用元:ReadSpeaker Japan 公式サイト「導入事例」(https://jp.imyfone.com/voice-generator/reviews/)
140言語、1,200以上のAIアバター、2,800以上の動画テンプレートを用意するオンラインサービスです。商用利用も可能で、動画編集からAI音声生成までワンストップで行えます。
Vidnoz AIは素晴らしいツールだと断言できます。まず、無料通話時間が提供されているので、予算が限られている
個人にとって非常に使いやすいです。次に、AIによる動画生成機能は本当に革新的です(ただし、改善の余地はあ
ると思います)。その他の機能に関しては、類似製品と比べて大きな違いはありませんが、Discordマネージャーと
話すのが楽しいです。彼は親切で頼りになる方です。
引用元:Product Hunt公式Vidnoz AIのレビュー(https://www.producthunt.com/products/vidnoz-ai/reviews)
私はプロダクトマネージャーで、アプリのレビューにVidnoz AIをバーチャルで使っています。自分のビジョンを分
かりやすく説明するのは難しい時があり、それをより良く説明しようとするとさらに難しくなります。しかし、こ
のAIツールはAIが様々な方法で動画を生成してくれるので、その点でとても役立っています。本当に素晴らしいツー
ルだと思います!
引用元:Product Hunt公式Vidnoz AIのレビュー(https://www.producthunt.com/products/vidnoz-ai/reviews)
Amazon Web Services(AWS)の一部として提供される音声合成サービスです。API連携がしやすく、アプリケーションやWebサービスに組み込みやすい特徴があります。ニューラル音声を選ぶと、かなり自然な読み上げが可能です。
より人に近い声で、さらにラジオ放送に利用する上で十分な声質かどうか、という点は極めて重要でし
た。Amazon Polly は最も人間に近い音声で、これならラジオ放送に利用してもリスナーに受け入れられ
ると考えました。
Amazon Polly にかかるコストは、年間わずか 400〜800 円で、数年前に導入を検討していた他社サービス
と比較すると 1,200 分の 1 程度となっています。これは衝撃的な安さです。
引用元:AWS Japan 公式サイト「ソリューション事例: FM WAKAYAMA」(https://aws.amazon.com/jp/solutions/case-studies/fm-wakayama/)
タレントや声優、有名人など多種多様なAI音声が提供されています。自分の声を録音してAI化し、声のクローンを作ることも可能です。リアルタイムボイスチェンジ機能を使えば、ライブ配信でもタイムラグなく変換できます。
YouTubeを顔出し無し声出し無しで運営していますが、すべてCoeFontのおかげです。
プランに加入すれば商用利用もできる為、YouTube収益化後も継続して利用できます。
(前略)著名人の声を使用していますが、そのおかげでYouTubeで動画にした際に視聴者に興味を持ってもらえる為再生数が
増えやすい。別の音源ソフトを使っていましたが、CoeFontに変えたその日から圧倒的に再生数が伸び、あっという
間に収益化基準であるチャンネル登録者数1000人を達成しました。
引用元:ITreview公式サイト ユーザーレビュー(https://www.itreview.jp/products/coefont/profile#review-199883)
高機能なソフトが増えていますが、誤読の修正や設定の微調整を行うことで、より自然でクオリティの高い音声を得られます。
固有名詞や専門用語、カタカナ英語などは、AI音声合成では誤読されがちです。たとえば「重複」を「ちょうふく」と読むのか「じゅうふく」と読むのか、ソフトによって変わってしまいます。
VTuberのように、自分の声をかわいいキャラクターの声に変えたり、別の人物のように変えるなど、多様な要望が増えています。Voice SpaceやCoeFontはリアルタイム変換が可能で、ライブ配信やイベントでの使用に向いています。
リアルタイム変換はCPUへの負荷が大きいことがあります。使用するPCや配信ソフトとの相性を事前に確認しておくと安心です。
VoxBoxは録音や音声編集機能も内蔵しており、ノイズ除去からピッチ調整まで一括でこなせます。ほかのソフトでは、生成された音声ファイルを別の編集ソフトで処理することが一般的です。
生成から編集までソフト内で完結できると時短になります。
編集機能の多さはその分操作も複雑になる場合があるため、自分の技術や時間に合わせて検討してください。
一般的に英語・中国語・韓国語などのメジャー言語は対応しているソフトが多いですが、アフリカーンス語やウルドゥ語などに対応しているかはサービスによって異なります。
VoiceVOXなどキャラクター音声が中心のソフトでは、キャラクターごとに定められた利用規約を守る必要があります。商用利用で収益化する際は必ず確認してください。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。