【オトナリ】音声合成ソフトをまとめました » 音声合成ができる製品一覧 » Amazon Polly

Amazon Polly

引用元：Amazon Polly公式HP https://aws.amazon.com/jp/polly/

全世界で利用される通販サイトAmazonが提供する音声合成ソフト、Amazon Polly。ここでは、Amazon Pollyの特徴や機能について紹介します。

Amazon Pollyとは

幅広い言語から選択可能

Amazon Pollyは、何十種類もの音声を多言語でサポートしています。標準的なTTSボイスに加え、より自然で人間的な声で読み上げられるニューラルテキスト読み上げ（NTTS）ボイスにも対応。Amazon Pollyが対応している言語は次の通りです。

アラビア語、英語、ドイツ語、ポルトガル語、英国英語、カタルーニャ語、フランス語、デンマーク語、オランダ語、フランス語、ドイツ語、ヒンディー語、アイスランド語、英語、イタリア語、日本語、韓国語、中国標準語、ニュージーランド英語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、南アフリカ英語、スペイン語、スウェーデン語、トルコ語、ウェールズ語

発話スタイルや音声の速さ・高さ・音量を調整可能

Amazon Pollyは、音声合成アプリケーション向けXMLベースマークアップ言語の標準フォーマット「Speech Synthesis Markup Language（SSML）」にも対応。これにより、言い回しや強調、イントネーションのための一般的なSSMLタグがサポートされています。

さらにAmazon SSMLのカスタムタグには独自のオプションも追加されています。特定の音声をニュースキャスターの発話スタイルで読み上げることも可能です。

リアルタイムストリーミングに対応

Amazon Pollyはリアルタイムストリーミングにも対応。MP3、Vorbis、raw PCMのオーディオストリーム形式がサポートされています。

Amazon Pollyの導入事例

エフエム和歌山の人工知能アナウンサーのケース

エフエム和歌山では、Amazon Pollyを利用した「人工知能アナウンサー・ナナコ」による、ラジオニュースや天気予報の放送を行っています。アナウンサーやディレクターの確保が難しい時間帯であっても、安定したアナウンスクオリティでの無人放送を実現しました。

参照元：Amazon Polly公式HP：https://aws.amazon.com/jp/solutions/case-studies/fm-wakayama/

Amazon Pollyの機能

音声切り替え機能
音声同期機能
ストリーミング音声の最適化
発話スタイル、音声の速さ、高さ、大きさの調整
音声の速度調整
音声合成
カスタム辞書
ブランド音声

Amazon Pollyのおすすめポイント

Amazon Pollyは幅広い言語に対応しているのが魅力です。さらに発話スタイルや音声の速さ、高さ、大きさの調整も自由に行えるため、より人間に近い自然な読み上げも実現できます。

ニーズ別！業務効率化におすすめな
音声合成ソフトを見る

Amazon Pollyを制作しているAmazonとは

Amazon Pollyを製作しているAmazonは、通販サービスで有名な会社です。音声合成ソフトのほか、幅広い業種に役立つ製品を多く開発しています。例えば画像と動画を分析する「Amazon Rekognition」やテキスト内でインサイト・関係性を検出する「Amazon Comprehend」など。無料期間が設けられているものも多く、手軽にお試しできるのが魅力です。

扱っているソフト一覧

Amazon Comprehend

ドキュメント内のテキストから、インサイトや関係性を検出する自然言語処理ソフトです。

主な用途：ビジネスデータのマイニングとコールセンター分析 / 製品レビューのインデックス・検索 / 法的書類の整理 / 金融書類の処理
提供形態：アナログ外線接続 / SIP内線接続(IP-PBXビハインド)
機能：エンティティ認識 / カスタム分類 / 感情分析 / 的を絞ったセンチメント / PII識別・リダクション / 毒性検出 / 分類機能 / キーフレーズ抽出 / イベント検出 / 言語検出 / 構文解析 / トピックモデリング / 多言語サポート
価格：
・ユニットあたりの料金：キーフレーズ抽出…0.0001USドル
感情分析…0.0001USドル
Targeted Sentiment…0.0001USドル
エンティティ認識…0.0001USドル
言語検出…0.0001USドル
イベントタイプごとのイベント検出…0.003USドル
構文解析…0.00005USドル

※1ユニット=100文字・最低料金は3ユニットから。円レートに関する表記はありませんでした。

Amazon Rekognition

機械学習を使用し、画像と動画を分析するソフトです。自動機械学習を使用しています。

主な用途：不適切なコンテンツの検出 / オンラインによる本人確認 / メディア分析の合理化 / スマートアラートの送信
提供形態：アナログ外線接続 / SIP内線接続(IP-PBXビハインド)
機能：画像認識 / 動画分析 / 顔比較・検索 / 顔検出・分析 / 有害・不要コンテンツを検出 / カスタムラベル / テキスト検出 / ラベル / 動画セグメント検出 / 有名人の認識 / 統計情報 / OAIリンク
価格：
・グループ1：最初の1,000,000ページ…0.001USドル
次の4,000,000ページ…0.0008USドル
次の3,000,000ページ…0.0006USドル
35,000,000枚以上の画像…0.0004USドル
・グループ2：最初の1,000,000ページ…0.001USドル
次の4,000,000ページ…0.0008USドル
次の3,000,000ページ…0.0006USドル
35,000,000枚以上の画像…0.00025USドル
・Image Properties：最初の1,000,000ページ…0.00075USドル
次の4,000,000ページ…0.0006USドル
次の3,000,000ページ…0.000045USドル
35,000,000枚以上の画像…0.0001875USドル

※グループ1のAPI…AssociateFaces、CompareFaces、DisassociateFaces、IndexFaces、SearchFacesbyImage、SearchFaces、SearchUsersByImage、SearchUsers

※グループ2のAPI…DetectFaces、DetectModerationLabels、DetectLabels、DetectText、RecognizeCelebrities、DetectProtectiveEquipment API

その他の製品・サービス

Amazonは、Amazon Polly以外にもAIを活用したさまざまなサービスを提供しています。

Amazon Q

組織で仕事をする人に向けた生成AI搭載のアシスタントです。「Amazon Q Business」と「Amazon Q Developer」の2シリーズがあり、Amazon Q Businessは組織内のコンテンツやデータ、システムの活用を最適化するための答えを得たり業務で生じている問題をスピーディーに解決するのに役立ちます。

Amazon Q Developerはソフトウェアの構築や運用、変換のために活用できるアシスタント。こちらにもAIが搭載されており、デベロッパーのタスクをサポートします。

Amazon Bedrock

サーバーレスで手軽に最新の基盤モデルを利用できる生成AIサービスです。大手AI企業が提供するモデルをAPI経由で選択すると、ビジネスに適した生成AIアプリケーションを構築できます。データカスタマイズや高度なセキュリティ機能が備わっており、AWSの他のサービスと統合して利用することが可能です。

具体的な活用例として、コードの自動生成を実現して開発の生産性を向上する、文書を要約させて業務効率化を実現するなどが挙げられます。

Amazon SageMaker AI

低コストで機械学習（ML）を実現するフルマネージドサービスです。データサイエンティストとデベロッパーが開発からデプロイするまでをサポートするため、生産性の大幅な向上を期待できます。

事前に最適化された環境により開発を進められるので、推論費用の削減にも効果的です。独自のサーバーを構築せずにデータを保存・共有できるほか、運用管理や保守作業もサポートしてくれます。

App Studio

クラウドベースのアプリケーション開発プラットフォームです。企業規模のアプリケーションを自然言語を使用して構築します。デプロイから運用、メンテナンスまで処理してくれるので、アプリケーション管理の手間がかかりません。

App Studioを導入すると、高度なソフトウェア開発スキルを持っていなくてもわずか数分で組織のニーズに合わせたアプリケーションを開発することが可能。アプリケーションの生成後は、簡単な手順で機能の更新や高度なAI機能の追加も行えます。

会社概要

会社名：AWSジャパン株式会社
所在地：東京都品川区上大崎3丁目1-1 目黒セントラルスクエア
電話番号：公式HPに記載がありませんでした。
公式URL：https://aws.amazon.com/jp/?nc2=h_lg

あわせて読みたいページ

目的に合ったものはどれ？
ニーズ別音声合成ソフトのおすすめ3選

音声合成ソフトは入力した文字情報などを基に、電話の自動応対やe-learning教材、カーナビ、ゲームのキャラクターなど、さまざまな場面で「声」の役割を担ってくれるものです。
本サイトでは、数ある音声合成ソフトの中でも他社に負けない強みを持った3社を、その特徴ごとに紹介しています。

調整が簡単で質の高い
音声合成をしたい

AITalk®
（株式会社エーアイ）

引用元：AITalk® 公式HP
https://www.ai-j.jp/

特徴

先端ディープラーニングを導入した独自の技術で、
音質・肉質感の向上、多様な発話表現を実現。

利用シーン

日本語・英語・中国語をメインに、
品質重視のカーナビや館内放送、ニュース読み上げなど

エーアイ
公式HPを見る

AITalkを
詳しく見る

エーアイに問い合わせる

芸能人の声を使った
音声合成をしたい

コエステーション
（コエステ株式会社）

引用元：コエステ株式会社公式HP
https://coestation.jp/

特徴

9万以上の一般ユーザーだけでなく、
40以上に
のぼる有名人などの
豊富な「コエ」の数。

利用シーン

世界観やPR要素重視の
ゲームやYouTube動画など
（エンタメ系）

コエステ
公式HPを見る

コエステーションを詳しく見る

コエステに問い合わせる

外国語をメインに
音声合成をしたい

ReadSpeaker
（HOYA株式会社）

引用元：HOYA株式会社公式HP
https://readspeaker.jp/

特徴

中国語と区別して広東語も。
日本語、英語(アメリカ・イギリス)、韓国語をはじめ、
24言語に対応。

利用シーン

観光案内や美術館の音声ガイダンスと
いった、
外国籍の方の利用が多い場所など

ReadSpeaker
公式HPを見る

ReadSpeakerを詳しく見る

ReadSpeakerに問い合わせる

【選定基準】Googleで「音声合成ソフト」と検索して出てきた、14社の中から、以下の条件に当てはまる企業を3社選出しました。（2022年2月調査時点）
・AITalk®
日本語話者が最多。ディープラーニングを用いた先端技術であるDNN音声合成を使った独自エンジン
・コエステーション
声優や芸能人などプロの声数が最多
・ReadSpeker
外国語の種類が豊富で、唯一外国語におけるイントネーション調整が可能。