
全世界で利用される通販サイトAmazonが提供する音声合成ソフト、Amazon Polly。ここでは、Amazon Pollyの特徴や機能について紹介します。
Amazon Pollyは、何十種類もの音声を多言語でサポートしています。標準的なTTSボイスに加え、より自然で人間的な声で読み上げられるニューラルテキスト読み上げ(NTTS)ボイスにも対応。Amazon Pollyが対応している言語は次の通りです。
アラビア語、英語、ドイツ語、ポルトガル語、英国英語、カタルーニャ語、フランス語、デンマーク語、オランダ語、フランス語、ドイツ語、ヒンディー語、アイスランド語、英語、イタリア語、日本語、韓国語、中国標準語、ニュージーランド英語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、南アフリカ英語、スペイン語、スウェーデン語、トルコ語、ウェールズ語
Amazon Pollyは、音声合成アプリケーション向けXMLベースマークアップ言語の標準フォーマット「Speech Synthesis Markup Language(SSML)」にも対応。これにより、言い回しや強調、イントネーションのための一般的なSSMLタグがサポートされています。
さらにAmazon SSMLのカスタムタグには独自のオプションも追加されています。特定の音声をニュースキャスターの発話スタイルで読み上げることも可能です。
Amazon Pollyはリアルタイムストリーミングにも対応。MP3、Vorbis、raw PCMのオーディオストリーム形式がサポートされています。
エフエム和歌山では、Amazon Pollyを利用した「人工知能アナウンサー・ナナコ」による、ラジオニュースや天気予報の放送を行っています。アナウンサーやディレクターの確保が難しい時間帯であっても、安定したアナウンスクオリティでの無人放送を実現しました。
参照元:Amazon Polly公式HP:https://aws.amazon.com/jp/solutions/case-studies/fm-wakayama/
Amazon Pollyは幅広い言語に対応しているのが魅力です。さらに発話スタイルや音声の速さ、高さ、大きさの調整も自由に行えるため、より人間に近い自然な読み上げも実現できます。
Amazon Pollyを製作しているAmazonは、通販サービスで有名な会社です。音声合成ソフトのほか、幅広い業種に役立つ製品を多く開発しています。例えば画像と動画を分析する「Amazon Rekognition」やテキスト内でインサイト・関係性を検出する「Amazon Comprehend」など。無料期間が設けられているものも多く、手軽にお試しできるのが魅力です。
ドキュメント内のテキストから、インサイトや関係性を検出する自然言語処理ソフトです。
※1ユニット=100文字・最低料金は3ユニットから。円レートに関する表記はありませんでした。
機械学習を使用し、画像と動画を分析するソフトです。自動機械学習を使用しています。
※グループ1のAPI…AssociateFaces、CompareFaces、DisassociateFaces、IndexFaces、SearchFacesbyImage、SearchFaces、SearchUsersByImage、SearchUsers
※グループ2のAPI…DetectFaces、DetectModerationLabels、DetectLabels、DetectText、RecognizeCelebrities、DetectProtectiveEquipment API
Amazonは、Amazon Polly以外にもAIを活用したさまざまなサービスを提供しています。
組織で仕事をする人に向けた生成AI搭載のアシスタントです。「Amazon Q Business」と「Amazon Q Developer」の2シリーズがあり、Amazon Q Businessは組織内のコンテンツやデータ、システムの活用を最適化するための答えを得たり業務で生じている問題をスピーディーに解決するのに役立ちます。
Amazon Q Developerはソフトウェアの構築や運用、変換のために活用できるアシスタント。こちらにもAIが搭載されており、デベロッパーのタスクをサポートします。
サーバーレスで手軽に最新の基盤モデルを利用できる生成AIサービスです。大手AI企業が提供するモデルをAPI経由で選択すると、ビジネスに適した生成AIアプリケーションを構築できます。データカスタマイズや高度なセキュリティ機能が備わっており、AWSの他のサービスと統合して利用することが可能です。
具体的な活用例として、コードの自動生成を実現して開発の生産性を向上する、文書を要約させて業務効率化を実現するなどが挙げられます。
低コストで機械学習(ML)を実現するフルマネージドサービスです。データサイエンティストとデベロッパーが開発からデプロイするまでをサポートするため、生産性の大幅な向上を期待できます。
事前に最適化された環境により開発を進められるので、推論費用の削減にも効果的です。独自のサーバーを構築せずにデータを保存・共有できるほか、運用管理や保守作業もサポートしてくれます。
クラウドベースのアプリケーション開発プラットフォームです。企業規模のアプリケーションを自然言語を使用して構築します。デプロイから運用、メンテナンスまで処理してくれるので、アプリケーション管理の手間がかかりません。
App Studioを導入すると、高度なソフトウェア開発スキルを持っていなくてもわずか数分で組織のニーズに合わせたアプリケーションを開発することが可能。アプリケーションの生成後は、簡単な手順で機能の更新や高度なAI機能の追加も行えます。
音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。
調整が簡単で質の高い
音声合成をしたい
芸能人の声を使った
音声合成をしたい
外国語をメインに
音声合成をしたい
【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。(2022年2月調査時点)
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。