音声合成ってなんだろう?その進化論、導入事例やロボットとのコラボについて考えてみた

こんにちは、高電社 営業部の三井です。皆さま、音声合成ソフトウェアをご存知ですか?
一般的に音声合成と聞いてまずイメージするのは、アニメに出てくるステレオタイプなロボットや、扇風機の前で「我々は宇宙人だ」と発声したときの声ではないでしょうか (少なくとも私にとってはそうでした)。

ところが、最新の音声合成を聞いてみると、まるで本当に人が話しているように聞こえるのです。
eラーニングの教材として採用されるレベルまでクオリティが高くなっているのも、十分に納得できます。

身近なところだと、スマートフォンの「Googleアシスタント」や「Siri」などで、特定のトリガーワードを発してからアシスタントに質問すると、音声で答えてくれますよね。その音声こそが、音声合成技術の賜物なのです。同じく、いま注目されているスマートスピーカー、「Google Home」や「Amazon Echo」にも採用されていることをご存知の方もいらっしゃることでしょう。

街中だと金融機関のATMでの音声案内や、駅の構内放送などで耳にする機会も増えています。クオリティが高いことと、普段から知らず知らずのうちに耳にしている為、これが実は音声合成であることに気が付いていないことが多いかもしれません。
更に最近の音声合成では最先端のAI技術「ディープラーニング」を利用して、自身の声を解析して、あたかも自分が話しているかのような音声を再生できる技術も出てきています。技術の進歩って本当に凄いですね!

当社でもこの音声合成を「多言語自動翻訳音声合成システムJ-SERVER Guidance」と言う、舌を噛みそうな長いネーミングのソリューションで利用しています。当初は、北海道で外国人に人気の観光地や、外国人居住区の自治体の防災行政無線(住民に同報を行う広域放送)として導入されました。
現在ではその用途が広がり、商業施設における災害時の避難指示放送でも採用されています。利用シーンますます広がりを見せており、インバウンド対応や2020年のイベントに向け、今後はホテルや旅館、公共交通機関にも広がると見込まれています。

外国語へのニーズが高まる反面、人手不足が叫ばれて久しい昨今、ロボットが接客対応をするという状況も増えているようです。ということは、一昔前に一般的だったロボットのような音声を話さないロボットが活躍!?
そんな時代はすぐそこまで来ているのかも知れませんね。都会で、観光地で、わが社が手掛けたロボットの音声を耳にできることを楽しみにしながら、業務に励もうと思います。