言葉の聞き間違いをAIは正せない
ヤニー/ローレル(yanny/laurel)論争について、Sonixが各社の文字書き起こしツールを用いて検証を行っている。
jp.techcrunch.comnlab.itmedia.co.jp検証結果は、GoogleとSonixのものでは最初から"laurel"と出力されたとのことだが、Amazonのものでは何度やっても“year old"が出力された。また、IBMのWatsonは、“yeah role”と“laurel”を交互に出力した。
このようにツールによって結果が異なるのは、各社が最適化のターゲットとしているユースケースが異なるためだと推測される。人間の声はとても複雑であり、声量・抑揚・アクセント・周波数などが違うため、音声認識のモデルをすべての声に対応させることは非常に難題なのである。