
ここでは、音声合成 mimi® TTSの特徴や導入事例をまとめてみました。複数の音声APIを取り扱っている会社なので、音声全般の導入を検討している人は要チェックです。
音声合成 mimi TTS は、総務省管轄のNICT(国立研究開発法人情報通信研究機構)が制作した音声合成エンジンを使用しています。NICTは情報通信技術の研究開発に取り組み、幅広い分野に活かしていく研究所のことで、つまり国が管理する情報通信分野のプロということです。
音声合成 mimi TTS は、10か国の言語に対応しています。対応言語は、日本・英語・スペイン語・フランス語・韓国語・インドネシア語・中国語・ベトナム語・ミャンマー語・タイ語。音声合成は、男性と女性が選択できるので、利用目的に合った音声を作成できます。
音声合成 mimi TTS は、1処理につき30,000円(税不明)で設定されているので、余計な設定を加えずシンプルな音声合成がほしい人にはうれしい価格です。音声合成以外にも、音声認識「mimi ASR」や翻訳認識「mimi TRA」など複数の音声APIをリリースしており、複数の機能を組み合わせて機能性を強化もできます。
新語や固有名詞などは定期的にアップデートされるうえ、当て字や特殊な読み方をする言葉は単語を追加することですぐに呼び出せます。音声合成では、入力したテキストを単語に分けた後、それぞれの単語の読み方を推定し、それに合わせて違和感のない音声を作成しているのが特徴です。
単語としてインプットされていない文字列や一般的な区切りではない文字列が並んでいる倍は、イントネーションが不自然であったり周辺のテキストまで誤った読まれ方をするなど、音声合成にエラーが発生します。その点、単語登録機能を有効活用すれば、これらのトラブルを回避できるでしょう。
作成した音声データをスマホやパソコンなどで再生する際、初回再生時にはクラウド音声合成のリクエストや合成時間がかかります。合成した音声をクライアントキャッシュとして一時的に保存しておけば、次回以降は即時再生が可能です。
また、クライアントキャッシュは応答の高速化を実現できるだけでなく、通信量の削減にも一役買ってくれるでしょう。応答文のパターンに合わせて、「LFU(Least Frequently Used)キャッシュ」もしくは「LRU(Least Recently Used)キャッシュ」として組み込まれます。これは、あらかじめ音声データの最大キャッシュ量を設定しておき、指定した範囲を超過した場合、最も古いLRUまたは利用頻度の最も低いLFUから消去していくというシステムです。
音声合成 mimi® TTSは、原則としてクライアントサイドキャッシュを除く再利用行為やキャッシュ行為を禁止しているため注意が必要です。
音声合成 mimi® TTSの提供する「mimiクラウドAI」は、パブリッククラウドをもとに構成されています。そのため、より高いセキュリティが必要な場合や閉域網での利用、航空・宇宙といったオフライン環境にて音声AIや翻訳サービスを提供したい場合は、オンプレミス環境に構築可能です。
お客様のニーズに合わせてソフトウェアをはじめとしたシステム開発を行っているため、要望がある場合は相談してみると良いでしょう。
河合塾のAI教材「河合塾One」にmimi TTSが導入されています。場所や時間を選ばずスマホからいつでもオンライン学習ができる教材です。こちらの事例のように映像やキャラクターに音声をプラスしたい時にはmimi TTSの音声合成は適しているでしょう。
※参照元:Fairy Devices株式会社公式HP:https://fairydevices.jp/news_20211207
オムロン ソーシアルソリューションズが開発した駅構内での案内ロボットにmimi TTS が導入され、近鉄大和西大寺駅で試験運用が開始されています。音声処理技術以外にも、マルチディスクハードウェアを提供しています。
※参照元:Fairy Devices株式会社公式HP:https://fairydevices.jp/omron
音声合成 mimi TTS は、国立研究開発法人情報通信研究機構「NICT」が制作した音声合成エンジンを使用しています。10か国語に対応しており、幅広い分野に活用できるのが特徴です。
音声合成 mimi TTSは、Fairy Devices株式会社が制作しています。2008年にNASAのデータを活用したプラネタリウムソフトウェア「StellarWindow™️」を開発。2014年にクラウドAPI「mimi®︎」シリーズの提供開始以降、音を活用化できるプラットフォーム事業に力を入れています。
国立研究開発法人の研究所が開発した音楽合成エンジンを使用しており、英語や中国語、フランス語やスペイン語など10言語に対応しています。また、単語追加機能もあるので、専門用語や人名など登録すれば定型文の作成も可能です。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。