2020年04月09日

文字起こしって簡単? いいえ、プロにもAIにも難しいんです

ある音声ファイルの文字起こしを専門業者3社に依頼したところ、
同一内容のはずなのに、各社がそれぞれ異なる言葉に反訳してきた部分がありました。
プロは誤認識をしてはならないはずです。なぜ、このようなことが起こるのでしょうか。

文字起こしは人間にもAIにも難しい

目次

1. 専門業者の反訳を読み比べ AIの音声認識とも比較

人工知能(AI)による日本語の音声認識では、同音異義語の誤認識が起こりがちです。
これに対し、文字起こしのプロたちに、そのようなミスが許されようはずがありません。

ただ、人間かAIかを問わず、聞き取りにくい音声はあります。
その際、それぞれが独自の工夫をし始めると、反訳に違いが生じるようです。
この記事では実際の事例を検証し、何が「優れた文字起こし」なのかについても考えます。

誤認識はなぜ発生するのか?

1-1. 文字起こしが一致しなかった事例の概要

使用した音声

まずは、専門業者で三者三様の文字起こしになった部分の音声を聞いてみましょう。
話者は「音声認識による文字起こし その精度は?」の記事に登場する方と一緒で、
ウェブマーケティングにおける「メディア選択」について語っています。
ここでいう「メディア」とは、Facebook や YouTube などを指します。

文字起こしが一致しなかった部分は、
「たくさんのメディアの中から、自社に最も合ったものを選びましょう」
という文脈の中で語られる、4秒ほどのくだりに出てきます。
音質も話者の滑舌も悪くないのですが、2~3秒目に聞き取りにくい部分があります。


文字起こしを依頼した専門業者

文字起こしの専門業者は、業界大手から3社を選びました。(=専門業者A、B、C
意味のない言葉を取り除く「ケバ取り」に加え、
「話し言葉」を「読み言葉」にして読みやすくする「整文」込みで発注しています。

音声認識AIとも比較

参考までに、同じ音声をAIが認識して文字に起こした結果とも比較しました。
音声認識エンジンの異なる3タイプのAIを選んでいます。(音声認識X、Y、Z

1-2. 不一致が見られた文言

ことごとく一致しない

文字起こしの結果が分かれた語句を赤字にして強調しています。
(AIによる音声認識で文字列になってしまっている無意味な言葉は薄字にしてあります)

音声を再掲いたしますので、再生しながらご確認ください。


専門業者A:
どこに出せば一番お客さんが認知するのかというの本当に難しい

専門業者B:どこに出せば一番お客さんに資するのかというのほんとうに難しい
専門業者C:どこに出せば一番お客さんにリーチするのかというの本当に難しい
音声認識X:どこに出せばですね一番お客さんに位置するのか?というの本当に難しい
音声認識Yどこに言い出せばですね、1番お客さんに維持するのかというの本当に難しい
音声認識Zどこに言い出せばですね一番気にするのかというの本当に難しい


音韻では「当たらずとも遠からず」

音声認識Zは「お客さん」という語の認識もれもあるため、いったん比較対象から除外します。
残り五つの文字起こしに絞って検討すると、違いのポイントとなる文言は

(が)認知するに資するにリーチするに位置するに維持する

と、音韻が似ていることがわかります。カタカナで表記してみると

(ガ)ンチスル・ニスル・ニリーチスル・ニイチスル・ニイジスル

となり、より鮮明になります。このことから、

どこに出せば一番お客さん(が)ニ~スルのかというのが本当に難しい

の「ニ~スル」をどう聞き取るかで、人間もAIも苦労したであろうことが見て取れます。

同じ音声を「ニ~スル」にフォーカスして、今一度聞いてみてください。
みなさんだったら、これをどのような文字に起こしますか?

 

1-3. 話者は何と言っていたか

このくだりで話者は何と言っていたのかを、ご本人に確かめてみました。
文字起こしは聞き取りクイズではありませんが、今回の「正解」は下記の通りです。

話者本人:どこに出せば一番お客さんにリーチするのかというのが本当に難し

よって、専門業者Cが、話者の発話した通り書き起こせていたことになります。

専門業者による書き起こし

2. 文字起こしのプロどうしで違いが生じる理由

2-1.  意味が通じることを重視?

音声認識Zを除く五つの文字起こしを、改めて前半部に絞って検討します。
(分かりやすくするため、音声認識による文字起こしにはケバ取りを施しました)

専門業者A:どこに出せば一番お客さんが認知するのか
専門業者B:どこに出せば一番お客さんに資するのか
専門業者C:どこに出せば一番お客さんにリーチするのか
音声認識X:どこに出せば一番お客さんに位置するのか
音声認識Y:どこに出せば1番お客さんに維持するのか

こうして比べてみると、
専門業者A、B、Cの文字起こしは、いずれも日本語としては成立しています。
正確さは若干犠牲にしても、「当たらずとも遠からず」の範囲内であれば、
文脈に照らして意味の通じる文にすることを優先する意思の作用が見て取れます。

これに対して、音声認識X、Yの文字起こしは、日本語としては、やや破綻しています。
認識した音韻に忠実であろうとし、文脈の検討は行き届かないか、二の次という印象です。
むしろ、認識漏れのあった音声認識Zの方が、

音声認識Z:どこに出せば一番気にするのか

と、日本語としての辻褄を何とか合わせようとする意図を感じさせます。
ただし、真相は確かめようがありません。

2-2. 100%正確な反訳でない専門業者はハズレ?

文字起こしを外注するなら、腕が確かな専門業者を選びたいものです。
ただ、ブランドの確立している個人事業主の方にではなく、法人に外注する場合、
たくさんいるスタッフの中から特定の人を指名することは、おそらくできません。

今回、話者本人が喋った通りの文字起こしにはならなかった専門業者Aには、
アタリ・ハズレでいうところの「ハズレ」のスタッフをあてがわれてしまったのでしょうか。

業界のベテランの一人は、逐語反訳では聞こえた通りの厳密さが求められるとしつつも、
整文反訳においては「必ずしもハズレということにはならないのでは」といいます。

2-3. 業界のベテランにきく

プロが文字起こししても、話者の発話と一致しないのはなぜか。
業界大手の一社で定年まで文字起こしに従事した”元・達人”に伺いました。
以下は、その時のインタビューになります。

――今回の音声ですが、何と聞こえましたか?
リーチする」(専門業者C)、「認知する」(専門業者A)の両方に聞こえました。
限られた時間内で文字に起こしを求められたら、専門業者Aのようにしたかも知れません。
でも、専門業者Cの文字起こしを見てから改めて聞き直すと、これが正解ですね。
正解を知ってしまうと、そういうふうにしか聞こえなくなるから、不思議なものです。

――素人の耳にはどれも正解に聞こえました
ここのくだりは判別が難しかったです。
ただ、プロはそうした音声にも対応できなければなりません。

――どうやって対応するのでしょう?
文脈からある程度の類推をして……というのは後付けの理由かな。
「ここはどの漢字を当てはめようか」などと考えながら聞いているわけではありません。
確かに文脈は気にしますが、話者の話し方にも大きく影響を受けます。
冒頭の1、2分を聞く間に特徴が頭に入ってきて、その後の反訳に反映されていくのです。
(注:今回の音声は全体で約15分。問題の部分は冒頭から6分を過ぎたあたりに出てくる)

――「話し方の特徴」とは?
その人の話し方の癖、言葉のつかい方の癖、といったものでしょうか。
発している言葉は違っても、そういった癖は随所に出てくるものです。
「この人は、こういうところで強調するのか」「こんなところではトーンを落とすのだな」など。
そういった聞き方をしていかないと、不明な部分は聞き取れません。

――誰もができるようにマニュアル化するのは難しそうですね。
「流れ」で聞き、そこまでの文意から判断して、「ここはこう言っているな」と直感します。
用字や表記のルールとは違い、経験値の世界になります。
句読点の打ち方も含めると、もう本当に、文字起こしをする人の個性が出る。

――それでプロどうしでも違いが生じる、と?
実際に、違いが生じるのが普通なのではないでしょうか。
けれども、熟練者が文字に起こしたものは、どんなものであれ、読みやすい。
なお、プロであっても注意すべきことがあります。

――何でしょう?
音声を聞いて、ひとたび「こうかな?」と思ってしまうと、何度聞き直してもそう聞こえてしまうこと。
特に、いったん文字に起こしてしまったら、その後はどうしてもその文字に引きずられてしまう。
ただ、意味が通じなかったり不自然だったりする場合は、そのままにできません。

――解決策はありますか?
私は、トイレに立ったり一晩眠ったりして、自分をリセットした状態にして聞き直します。
ほかの人に聞いてもらい、「こうなのでは?」という別の選択肢を提示してもらうのも有効です。
どのプロのみなさんも、それぞれのやり方を工夫なさっているのではないでしょうか。

――それでも打開できないときは?
何と言っても正確さが第一です。
お客様のご要望によっては、とにかく聞こえた通りを仮名書きにしていくこともあります。
一方、整文反訳のときは、どんな文字列に起こせば最も伝わるのかも考えます。
特定または不特定多数の人が、情報や知識を得たいと思ってお読みになるので。
それと、起こした文字列を話者がご覧になったとき、ご納得いただけるように。
「こうは言っていませんよ」という御指摘をいかに少なくできるかが勝負です。

2-4. 優れた文字起こしとは

文字起こしの目的は、音声による記録を、読める形にして便利に活用することでした。
文字起こしを外注するユーザーの立場で考えたとき、
最も重要なことは、コストに見合う価値を得られること、
すなわち、用途に応じて十分役に立つ文字起こしでなければ意味がありません。

厳密な正確さよりも、読みやすさこそが求められることもあるでしょう。
話者としても、自身の発した一言一句を克明に覚えていることは、むしろ稀かも知れません。
精度ばかりで優劣を論じ得ないところが、人間の手掛ける文字起こしの難しさといえそうです。

文字起こしでの聞き取りの難しさ

文字起こしのコツと効率的なやり方・単語登録実例も公開!【テープ起こし・文字起こし初心者向け】もあわせてご覧ください。

 

AI 文字起こし比較 TOP

 

文字起こし(テープ起こし) 簡易見積りはこちら(1分単位、選べる納期)
文字起こし(テープ起こし) の正式なお見積りはマイページよりお願いします