受付システム「超受付さん」ができるまで　〜第4回「超受付さん」の音声UIはどうしてる？その3〜

アップフロンティアの R&D 統合新カテゴリー「超技研」のxR分科会活動から生まれた、受付システム「超受付さん」。

訪問先の人を呼び出すために、いつも同じ手順を踏まなければいけない今までの受付システムとは違って、初回の受付登録さえしてしまえば、次回の受付では「顔パス」を実現できます。

縦長ディスプレイ＋PC・カメラ・マイク。

組み合わせや見た目は地味かもしれませんが、そこには開発メンバーの英知が詰まった、技術のインテグレーションとなっています。

今回は、本業の合間を見ながら長い長い時間をかけて生まれたこのシステム開発の裏側をお届けします。

第4回「超受付さん」の音声UIはどうしてる？その3

出演
ギャップロ編集部：G
「超受付さん」開発チームリーダー： N

Text to Speech について

N：キャラクターに何かをしゃべらせる場合は、

　　　1. サーバーにテキストを送信
　　　2. サーバーで音声変換
　　　3. 変換した音声ファイルを受信
　　　4. 音声を再生
　　　5. キャラの口の動きを同期させる

というプロセスを踏む必要があります。

「Text to Speech」… テキストを音声に変換する機能を提供するクラウドサービスを使う必要がありまして、最初は AWS の Amazon Polly を使いました。

その頃は社長の3Dモデルを使っていたので、社長に近い声を探していたんですが、結構やぼったい声になってしまって…。イントネーションもちょっと物足りなかったんです。

G：それは…キャラクター（社長）に合わなかったというか、違和感があったのでしょうか？

N： Amazon Polly の評価を下げるつもりはないんですけど、ちょっと今回のケースには合わなかったですね…。
なるべくキャラクターを表情豊かにしたいという思いがあったんですが、冷たすぎるかなぁという印象でした。

G：社長の声は、ロートーンで特徴のある声なので、そこから離れてしまうと違和感が出てしまいそうですよね。

N：そうですね。

Microsoft のAzureを導入したけど…

N：そして次に見つけたのが、先程も話していた Microsoft Azure の Text to Speechです。こちらは Amazon Polly より声色の選択肢…パターンは多かったんですけど、それでも試してみるとちょっと違うな、という感じでした。

G：声のトーンを合わせるって難しいんですね…。

N：そうですね、難しいですね。
さらにその次に見つけたのが、ドコモの Text to Speech ※ でした。
※ 現在はサービス終了しています。

G：当時出ていたものですね。それはどうだったんですか？

N：音声のパターンは非常に豊富で、男性・女性、10代・20代・30代といった年代別の声があり、そのうえでキャラクターの「明るい女性」「暗い男性」のような分類もされていたので、ここでキャラクターに合った声を見つける事ができました。

G：なるほど。かなり色んな音声パターンを試したんですね。

いろいろなパターンを試せる構造

N：あ、でもプログラムのレベルでモジュールという構造を採ってるので、声の変更はラクにできるんです。
Amazon Polly の Text to Speech のモジュール、 Microsoft Azure の Text to Speech のモジュール、ドコモの Text to Speech のモジュール …という具合に単体で作ってもブロックのようにリプレイスできるので、そこは最初にちゃんとプログラム実装して良かったと思います。

G：それはこういった試行錯誤を想定して、こう作ろうと決めてたんですか？

N：残念ながら違います。 (笑)
実は、以前からUnityでもう少し単体テストしやすいように機能ごとにプログラムを組めないかという課題はあって、その解決策として UniRx とか Zenject を使ってアーキテクチャを構築してみようかという案はあがっていたんです。

今回このプロジェクトがタイミングとしてはとても良かったので、導入を決断したという流れでした。
まあ、社内プロジェクトという事で敷居が低かったというのもありましたね。

G：なかなか案件ではできないですもんね。

ドコモのAIエージェントに換装

N：あと、ちょっとややこしい話ですが、現在に至るその前に、さらに “ドコモの Text to Speech” から、”ドコモAIエージェントAPI の Text to Speech” に入れ替えました。

G：あ、先程出てきた終わってしまったサービスの件ですね？

N：そうです。

G：サービス終了で、現行サービスのドコモAIエージェントAPI に換装をしなければいけなかったと。

N：そうですね。結果として換装になりましたが、後継サービスだからドコモAIエージェントAPI を採択したという訳でも無かったんです…。

G：え？違うんですか？

N：ドコモAIエージェントAPI には、AIボット、Speech to Text や Text to Speech などのサービス以外にも、会話処理、音声認識、音声合成など様々な機能がひとつのパッケージになってるんですが、日本語のイントネーションが自然で、感情豊かだ…というデモを「Unite Tokyo 2019」で目の当たりにしたんです。
非常に表情豊かなしゃべり方ができて、声色のパターンも多い。
終わってしまったドコモのサービスからさらに魅力的になっていたので、これは使うしかないという事で導入を決めました。

次回
第5回「画像認識？個人認識？」へ続く

前回
第3回「「超受付さん」の音声UIはどうしてる？その2」はこちら

関連リンク
超受付さん： https://chouketsuke.upft.jp/
ドコモAIエージェントAPI：https://www.nttdocomo.co.jp/biz/service/ai_agent_api/

アプリエンジニアのための技術情報サイト

受付システム「超受付さん」ができるまで　〜第4回「超受付さん」の音声UIはどうしてる？その3〜