騒がしい場所で複数の声が重なる状況は「カクテルパーティー問題」と呼ばれ、特に聴覚に障害のある人には負担が大きいと指摘されています。研究チームはこの課題に対し、会話相手の声を分離して着用者に再生する試作ヘッドホン「プロアクティブ・ヒアリング・アシスタント」を開発しました。
システムは二つのAIモデルで動きます。第一のモデルはターンテイキングを追跡して誰がいつ話したかを特定し、発話の重なりが少ない箇所を検出します。第二のモデルは不要な背景雑音や会話の外れた声を消音し、特定した参加者の声を分離してクリーンな音声を返します。システムは2〜4秒の音声で会話相手を識別でき、着用者に加えて1〜4人の会話相手を扱えます。音声の遅延は混乱を招かない程度に十分高速です。
試験は11人の参加者で行われ、AIフィルタ適用後の音声はベースラインよりも2倍以上好意的に評価されました。シニア著者のShyam Gollakota氏(ワシントン大学Paul G. Allen School所属)は、従来は脳内電極に頼る方法が多かったが、応答のリズムは音声だけでAIが追跡できるため埋め込み型デバイスは不要だと述べています。成果は中国蘇州で開かれたConference on Empirical Methods in Natural Language Processingで発表され、基盤となるコードはオープンソースで公開されています。
課題として話の重なりや長い独白、会話への人の出入りが精度を下げる可能性があり、他言語のリズムには追加調整が必要かもしれません。現在の試作は市販のオーバーイヤー型ヘッドホンとマイクで動きますが、チームはこれを小型化してイヤフォンや補聴器の小さなチップ上で動作させたいと考えています。研究はMoore Inventor Fellowsプログラムの資金で行われました。
難しい単語
- カクテルパーティー問題 — 騒がしい場所で声が重なり聞き取りにくい状態
- ターンテイキング — 会話で話す順番や交代を管理すること
- 分離する — 混ざった音や声を切り離すこと分離して
- 消音する — 不要な音を小さくすること消音し
- 遅延 — 音声などが届くまでの時間差
- オープンソース — 誰でも利用や改良できる公開されたソフト
ヒント:記事中の強調表示された単語にマウスオーバー/フォーカス/タップすると、その場で簡単な意味が表示されます。
ディスカッション用の質問
- この試作ヘッドホンを小型化して補聴器などに組み込むことには、どんな利点と課題があると思いますか。理由と例を挙げてください。
- 本文は他言語のリズムに追加調整が必要かもしれないと述べています。言語のリズムが音声識別に影響する理由を自分の言葉で説明してください。
- 会話の重なりや長い独白が精度を下げるとあります。日常生活でそのような状況が起きたとき、あなたならこの技術に何を期待しますか。