2020年03月25日

音声認識による文字起こし その精度は?

文字起こしの専門業者と音声認識AIが同じ音声を反訳したら――。
結果を正確さ読みやすさの両面で比べると、AIにどこまで頼れるかが見えてきます。
AIには、人間に匹敵する文字起こしをできる場合と、できない場合がありました。

AI音声認識の精度の検証

目次

1. 音声認識と専門業者の文字起こしを比較

この記事では、同一の音声ファイルを用いて、専門業者と音声認識AIの比較を試みます。
AIが今や圧倒的に勝る処理速度での競争ではなく、文字起こしの出来栄えを比べます。

<おことわり>
比較対象にしたAI音声認識サービスは、この試みで用いたような音声ファイルの処理用に最適化されたものではありません。
また、この記事は、音声認識AIと文字起こし専門業者の優劣を論じるものではありません。

試みの概要

文字起こしの専門業者

文字起こしの専門業者は、業界大手から2社を選びました。(=専門業者A専門業者B
発話の間を埋める「えー」「あのー」といった意味のない言葉を取り除く「ケバ取り」に加え、
「話し言葉」を「読み言葉」にして読みやすくする「整文」込みでの反訳を発注しました。

比較対象にした音声認識AI

音声認識AIは、遠隔音声認識に対応しているものと、そうでないものを一つずつ選びました。
いずれも、使用する場面や目的に応じてユーザーからの評価が高く、業界シェアも随一です。

遠隔音声認識は、音を拾うマイクから数メートル離れた発話も認識するよう設計されています。
今回は市販のスマートスピーカーに採用されているものを選びました。(=音声認識X

もう一つは、口元近くのマイクで音声を拾うことを前提とする近距離音声認識のサービスです。
発言者1人につきマイク1本を用意できる会議などで使われています。(=音声認識Y

使用した音声

使用した音声は、この試みのため特別に用意したものではありません。
ある青年実業家がウェブセミナー用の動画を室内で自分撮りした際のものを拝借しました。

デジカメで撮影されたmp4ファイルを、フリーソフトでmp3ファイルに変換しています。
雑音はほとんどありません。話者とマイクの距離は50~60センチほどです。

 

それでは、動画冒頭の計30秒余りに含まれる四つの文について、一つずつ検証していきます。

音声認識の精度を左右する集音・録音の環境

2. 朗読なら音声認識は専門業者に匹敵

1文目の音声

 

専門業者A:
本日は、ウエブマーケティングにとってとても重要なメディア選択というお話をさせていただきます。
専門業者B:
本日は、ウエブマーケティングにとってとても重要なメディア選択というお話をさせていただきます
音声認識X:
本日はウェブマーケティングにとってとても重要なメディア選択というお話をさせていただきます
音声認識Y:
本日はウェブマーケティングにとってとっても重要なメディア選択というお話をさせていただき、

 

AI音声認識は専門業者と遜色なく、発話通りに音声が文字列としてテキスト化されています。
音声認識Xは句読点がなく、音声認識Yでは文末が途切れていますが、理解するには十分です。

ここのくだりは、話者の滑舌が良く、意味を持たない言葉(フィラー)も挟まれていません。
このように、原稿の朗読に近い音声の場合、AI音声認識の精度は高いことがわかります。

 

朗読は高精度で音声認識

3. 音声認識は「話し言葉」を「読み言葉」に直すのは苦手

2文目の音声

 

専門業者A:
メディア選択というのは、たくさんあるマーケティングの中から、戦術、メディアの中からどれが一番自社に合ったマーケティングなのかというのを正しく選ぶということになります。
専門業者B:
メディア選択というのは、たくさんあるマーケティングの中から、戦術、メディアの中からどれが一番自社に合ったマーケティングなのかというのを正しく選ぶということになります。
音声認識X:
メディア選択というのはたくさんあるマーケティングの中からですね先日メディアの中からどれが一番自社にあったマーケティングなのか?っていうのを正しく選ぶということになります
音声認識Y
メディアセンターというのは、たくさんあるマーケティングの中からですね先日メディアの中からどれが1番自社に合ったマーケティングなのかっていうのを正しく選ぶということになり、

 

音声認識X音声認識Yも「戦術」を「先日」と誤認識しています。

遠隔音声認識に対応していない音声認識Yは、より精度が劣っています。
1文目で認識できていた「メディア選択」を「メディアセンター」と誤認識してしまいました。
「たくさんある」の次に「と」という、発音されていない文字も出てきます。
1文目と同様に、尻切れにもなってしまっています。

また、音声認識X音声認識Yも、「話し言葉」を「読み言葉」に直すことはできていません
読むうえで邪魔になる「ですね」が、そのまま残っています。
読み言葉としては「という」と記すべき「っていう」も同様です。
AIは拾うことのできた音声を忠実に文字列にしていくので、これはやむを得ないでしょう。

4. 音声認識は忠実さと誤認識が同居

3文目の音声

 

専門業者A:
これは、実はデジタルマーケティング、ウエブマーケティングには最も大事なことなんじゃないかなということで、きょうお話をさせていただきます。
専門業者B:
これは実はデジタルマーケティング、ウエブマーケティングには最も大事なことなんじゃないかなということでお話をさせていただきます。
音声認識X:
これは実はですねま別段マーケティングウェブマーケティングにはどうも大事なことなんじゃないかなということでですね影響お話をさせて
音声認識Y:
これは実はですねデザインマーケティングマーケティング岩間とも大事なことなんじゃないかなということでですね一応お話しを

 

専門業者A専門業者Bは、読み言葉に直す際に割愛した語句が若干異なりますが、難なく読めます。

一方、音声認識X音声認識Yともに、読むうえで邪魔になる「ですね」や「」が、そのまま残っています。
専門用語の誤認識も目立ちます。(これはAIに事前学習させれば解消可能かも知れません)

音声認識Xでは「デジタルマーケティング」が「別段マーケティング」と誤認識されています。
また、「最も大事」が「どうも大事」に、「えー、きょう」が「影響」になってしまっています。

音声認識Yでは、「デジタルマーケティング」が「デザインマーケティング」と誤認識されています。
「ウェブマーケティング」の「ウェブ」は認識されなかったようです。
「マーケティングには最も大事」は「マーケティング岩間とも大事」になってしまいました。
「えー、きょう」は「一応」となってしまったうえ、ここも文末は尻切れになってしまっています。

5. 音声認識の誤認識は短い文でも発生

4文目の音声

 

専門業者A:
メディア選択というお話になります。
専門業者B:
メディア選択というお話になります。
音声認識X:
メディア先だというお話そうですね
音声認識Y:
PRセンターというお話

 

短い発話であっても、AIが正確に音声を認識できるとは限りません。

「メディア選択」を、音声認識Xは「メディア先だ」、音声認識Yが「PRセンター」と誤認識しています。
「PRセンター」は、もとの音声からはかけ離れた文字列です。

文末も、乱れて支離滅裂になっていたり、認識できていなかったりしています。
音声認識Xの場合、「なります」という音声を「そうですね」という文字列に変換しています。
これも、もとの音声からはかけ離れた文字列です。
前後の文脈を読んで、辻褄の合う文字列にすることは、まだ難しいようです。

6. 音声認識を使いこなすポイント

音声認識AIは、特定の条件の下であれば、専門業者と遜色ない文字起こしができます。
一方、音声認識AIを使いこなすにあたっては、少なくとも以下のポイントがありそうです。

話者の話し癖

自然の発話に頻出するフィラーは「読み言葉」には不要だが、忠実に文字列にしてしまう
→ 発話のとおり文字列にしても読みやすい、朗読のような話し方をしてもらえるか?

録音・集音の環境

AIの開発者が推奨する条件の下で録音・集音した音声でないと、認識精度が低下してしまう
→ 雑音が少ない・マイクが口元に近いなど、利用するAIに適した環境で録音できるか?

AIの語彙量

AIの知らない用語は、人間が明瞭に聞き分けることができるものでも誤認識されてしまう
→ 認識させる音声に含まれる専門用語や言い回しをAIに事前学習させておけるか?

これらについて周到な対策を講じるほど、音声認識AIは頼れる存在に近づきそうです。
逆に、対策を講じられないほど、音声認識の結果を修正する煩わしさに悩まされるでしょう。

話し言葉を音声認識する難しさ