音声デバイスの発話の仕組みとは? 音声認識・検索チーム座談会
パイオニアが2022年3月に満を持して発売した、“会話するドライビングパートナー”「NP1(エヌピーワン)」。
次世代通信型ドライブレコーダー、スマート音声ナビ、クルマWi-Fiなど多彩な機能を搭載し、運転中のあらゆる場面で会話を通してドライバーをサポートする世界初※のAI搭載通信型オールインワン車載器です。
NP1の中でも要となる"音声"技術。その開発の裏側について、Cross Technology CenterのPiomatix情報サービス部より6回に渡り連載をお届けしています。
※ドライビングパーソナル音声AIを搭載したコネクテッドデバイスとして、ESP総研調べ (2022年3~4月実施のカーエレクトロニクス製品に関する市場調査)
今回話を聞いたのは……
“音声認識”と“音声検索”って、いったい何?
前原:
今回集まったのは、音声のみで動作するパイオニアの次世代カーデバイスである「NP1」に欠かせない、“音声認識”と“音声検索”という二つのチームに属しているエンジニアです。
人が話した内容を文字にして検索しやすい形式のデータへ変換し、検索などをおこなう別のチームに渡す役割を担っているのが、僕と杉山さんが所属する「音声認識」チーム。
神村:
対して、僕と石井さんが働いている「音声検索」チームでは、音声認識チームからもらったデータをもとに最適な検索結果を導き出すための仕組みを開発しています。
細かく分けると、データを解釈してどんなことを求めているのかという“意図”へ落としこむ段階を石井さんが受け持っており、膨大なデータの中から最適と思われる結果を導き出すプロセスの部分を、僕が担当しています。
石井:
音声による発話で検索をかける時、すべての人が「最寄りのコンビニに行きたい」というように、決まった言い方をしてくれるわけではないですよね。
例えば「ミニストップへ行きたい」と固有名詞を挙げる人もいれば、同じコンビニでも地方によって「ミップ」や「ミニ」というように、通常とは異なる呼び名やイントネーションで話しかける場合だってあります。
なので、検索システムへあらかじめそのような言葉の“ゆらぎ”を登録しておいたり、単純に直線距離で近いところにある店ではなく、なるべく走行中の道路の進行方向上で探すようにしたりと、よりユーザーに寄り添った親切で快適な検索結果のための仕組みづくりをしているんです。
杉山:
音声認識の細かいところでいうと、車内のノイズとユーザーの声の大きさにどれくらい差があれば“発話”として認識するように設定するのか、また滑舌や言い間違いをどれほど許容するのかといった部分の調整なども業務のひとつ。
開発当初はなかなか思うように動かないことばかりだったのですが、製品として世に出した今ではずいぶん快適に使えるように。ちゃんと動いた瞬間は、“よくここまで来ることができたな”と感動しました。
前原:
僕たちのチームは、開発段階でテスト走行の距離が1000kmを超えましたからね。一日中試験運転用の車内で作業していたこともあるし、走りこみしている部活みたいだった(笑)。
それぞれの仕事の難しさとやりがい
神村:
僕は、パイオニアの関連会社に新卒入社した頃から検索関連の業務に長らく携わってきたのですが、実は音声を使ったものはこれが初めて。
“検索”とひと口に言っても、テキスト検索の世界の常識では通用しない場面が多々あり、その違いに苦労することもよくあります。
例えばあるウェブサイトの検索エンジンでテキスト検索を試みたとき、ユーザーが名前を多少間違えて覚えていたとしても、入力して漢字変換する際に無意識のうちに正しい名前を選択しているなど、知らず知らず軌道修正されていることがあります。
ですが音声はそうもいかないんです。しかも日本語には同音異義語がとても多くて、難易度が桁違い……。
石井:
例えば、宮城県の仙台市と鹿児島の薩摩川内(さつませんだい)市などがその例ですね。テキストで漢字にするとすぐに違いが分かりますが、音声だと「せんだい」のイントネーションがまったく同じなんです。
対策としては、今いる場所から近いほうを優先して出すとか、その場所の“著名度”に応じて優先度を決定する、などがあります。「ディズニーランド」くらい著名度の高い場所であれば、遠い場所からの検索であっても候補に残りやすくする、といった具合です。
前原:
音声認識についていうと、やはり“認識しない”という事態がどうしても起こってしまうのが、いちばん大変なところですね。
発話環境は毎回違うので仕方のないことなのですが、ユーザーにとってはそうもいきません。「NP1」の提案に対してユーザーが「いいえ」とか「違う」と答えた事例のデータが挙がることがあるので、都度音声認識システムに不備があったのかどうかを検証し、不具合が起こらないようにしていきます。
また、実際に「NP1」を使っている社員から「こういう状況でこう発話したけど認識されなかったよ」というフィードバックをもらうことも。
杉山:
ノイズに負けてしまったり認識できないワードがあったり、滑舌や訛りといった違いも影響しますからね。「認識しなかった」という声をいただいたら、実験車両車をできるだけその環境に近づけて再現し、解決を試みます。
前原:
ひとつひとつの事例へ順に対応していく過程は果てしなくもありますが、そのぶん解決できたときの喜びは大きく、やりがいだといえると思いますね。
ほかの音声デバイスと比べた際の、NP1のおもしろさ
神村:
「NP1」ならではの特性について話すと、検索ワードの意図解釈に特色が。「NP1」はリビングやオフィスで使うものではなく、あくまで運転中に話しかけるデバイス。
だから、“車の中でこのワードを思い浮かべるときはこんなことを求めているのかな”というふうに想定して、結果を出すようにプログラミングしてあるんですよ。
石井:
具体的に言うと、家で「コーヒー」と発話するときは、“コーヒーメーカーを起動して”とか“コーヒー豆をネットで注文して”、といったアクションを期待していることが予想されますよね。
でも「NP1」では、近くのコーヒーショップを提案する線が濃厚に。同じように「お腹が痛い」と言われたら、薬や症状の検索よりも近場の病院を探すことを優先するなど、より“周辺施設を探す”という解釈をしやすい仕様になっているんです。
杉山:
あるとき「“さわやか”に行きたい」という言葉が正しく認識されなかった、と言われたことがありましたよね(笑)
静岡県の人気ご当地レストランであるハンバーグ店ではなく、同名を持つご近所の居酒屋を案内されたと報告されたっけ。
実は、検索ワードが短ければ短いほど解釈の余地が狭くなり、検索の難易度が上がるんです。静岡県外から「さわやか」というワードだけでハンバーグ店を導き出せるようにするのには、苦労しました。
石井:
“さわやか”は一般的には形容動詞なので、対応すべきか否かという議論をしたことを僕も覚えています(笑)
エンジニアとして、どんなキャリアを積んでいきたい?
杉山:
最近までは「NP1」の業務でデバイスのエッジ側に携わる機会が多かったのですが、今後はクラウドも開発できる知識やスキルを身につけなければと考えています。
パイオニアは資格試験にチャレンジする環境が整っているので、去年取ったAWSの資格に加え、今後はE資格にも挑戦していきたいです。
前原:
資格試験に向けては、日々の業務をこなしながらの勉強が必要になるので、「やる」と宣言したものの、年度末になってしまった……なんて慌てる声をよく聞くのですが(笑)
その点杉山さんはすごいと思います。
僕は今、音声認識を担当しているけれど、そこだけにとどまらず、将来的には音楽や画面検索の技術などと組み合わせて何か新しいことをやっていけたらいいなと。
もちろん杉山さんのように、クラウドにも興味はあるのですが。
神村:
クラウドの勉強は僕にとっても課題です。
今は世間の流れの中でクラウドがメインになってきて、考え方をシフトしなければならない場面がしばしば。以前からの知識が通用する部分もあるものの、しっかりアップデートしていかなければと感じますね。
検索技術に関しても、今使っているエンジンの次のバージョンがすでにリリースされているので、そこもカバーしないと……。学びの連続です。
石井:
僕は“おもしろいことがしたい”という自らの行動理念に基づいて、やりたいことをやれるようになっていけたらいいかな。
そのためにはE資格や人工知能の検定など、自分にも勉強すべきことが山ほどありますけど……。そして、いつか企画にも携われるようになりたい。
そのためには資格だけではなく、契約や法律に関することなど、覚えなければならないことだらけなのですが。技術が理解できる企画担当になれるように、手に職をつけていきたいです!
最後に
パイオニアでは一緒に新しいサービスを作ってくれる仲間を募集しています。
カジュアル面談も随時、受け付けています。
興味を持っていただけた方はぜひ、採用情報からご応募お待ちしています!