2021年02月19日

音声認識AIと人間、文字起こしの「ケバ取り」はどちらが得意?(その1)

文字起こしに興味を持ち、ネット検索をされた方が必ず出会うであろう用語の一つに「ケバ取り」なるものがあります。何となく「余計なものを排除して文章を整えるんだろうな」位に思われるでしょうが、具体的にはどんな作業なのでしょうか。

 

「ケバ取り」は、AIと人間どちらか得意?

 

 

目次

1. 文字起こし原稿における「ケバ」とは 

試しに辞書で「けば」を引いてみると、「『毳・毛羽(けば)』布・紙などの表面がこすれたりしてできる細かい毛のようなもの。」とあります(広辞苑)。

目の粗い布や紙、木材の表面をなでると、指先にざらっと引っかかるものがあります。そう、あれが「けば」です。普通は、最後にやすりをかけるなどして滑らかに整えます。

文字起こしも同じ。人間の発話には、様々な〈夾雑音〉が混じっています。単なる口癖や「あのー」「えーと」といった言葉と言葉の隙間を埋めるもの、途中まで言いかけてやめたり、言い間違えを言い直したりするもの(いわゆる「かんで」しまった部分)、鼻をすする音、咳払いや舌打ち、うなり声などなど。かろうじて文字に表せるものから、もはや〈雑音(ノイズ)〉にすぎず文字化不可能なものまで、ありとあらゆる〈音声〉が含まれています。

これが文字起こしにおける「ケバ」です。もし全ての音声を無理やり文字に起こしていったら、出来上がった原稿は全く読めないものになってしまうでしょう。

 

 

2. 文字起こしの基本原則は「読める原稿」を作ること

当コラムでも繰り返し述べているように、よい反訳原稿とは、正確な音声の再現であると同時に「きちんと読めるもの」でなければなりません。どれほど音声に忠実であっても、誰にも読めない原稿では〈記録〉になりません。

「ケバ」に共通するのは、「それ自体は特に意味をなさない」点です。話し手自身も、そこには何の意味も込めていません。無意識に発した〈音〉であり、そうした〈発声〉をしたことすら覚えていないでしょう。「人に指摘されるまで自分の口癖に気づかなかった」というのは、どなたも経験のあることではないでしょうか。

これは、裏を返せば「仮になくても問題のない部分」ということになります。前項で、あえて〈雑音(ノイズ)〉という言葉を用いましたが、話し手の発言というより〈背景音〉の一部と解釈すれば、「削除してしまっても内容には影響なし」と考えることができます。

文字起こしの「ケバ取り」とは、そうした意味のない音声を削り落とし、「手触りのいい」滑らかな原稿に仕上げる作業なのです。

 

文字起こしの基本原則は読める原稿を作ること

 

 

3. 文字起こしにおける「けば」は3段階に分類できる

では、文字起こしの「ケバ」には、具体的にどんなものがあるのでしょうか。どんな「ケバ」なら、反訳者の判断で削除が許されるのでしょうか。以下、3段階のレベルに分けて、もう少し詳しく解説していきます。

レベル1は、言うまでもなく、咳払い、舌打ち、鼻息など。そもそも文字にできないような音声は、ばっさり切り捨てて構いません。

レベル2は、「あのー」「えーと」「うーん」といった無機能語です。これらは〈フィラー〉と呼ばれ、言葉が一旦途切れたときに、再び聞き手の注意を引きつけるために用いられます(飲食店で店員を呼ぶ卓上ベルのような役割)。これも、やはり機械的に削除できる部分です。このあたりまでは、文字起こし初心者でも比較的分かりやすい部分ではないでしょうか。

レベル3は少し複雑で、簡単に全削除とはいきません。状況(前後の文脈、話し手の口調など)から、削除可能かどうかをその都度判断しなければなりません。

 

 

4. 文字起こし熟練者の脳は勝手に「ケバ取り」を行ってくれる

レベル3の「ケバ取り」は、ずばり〈口癖〉です。これについては、少し深い考察が必要なので、稿を改めて次回のコラムで取り上げることにします。

さて、文字起こしの経験を積んでいくと、当サイトのコラム(「反訳者の脳」を手に入れて文字起こしを効率化)で述べたように、不思議と「文字化しない音は耳に入らない」状態になっていきます。録音音声をどんなにしっかり聴いても、「まー」「うーん」などの〈声〉は意識に全く残らないのです。まさしく「(文字起こし熟練の)境地に達する」という感じです。

音を聴く段階で脳が勝手に「ケバ取り」を行ってくれるため、作業がはかどるのですが、これには欠点があります。まれに文字起こしの依頼者(クライアント)から「フィラーを残してほしい」という注文があり、そうなると、いつもどおり聞き流そうとする脳に逆らい、音声を繰り返し再生して必死に〈フィラー〉を聴き取る羽目になります。

プロの反訳者たるもの「顧客の注文に応える」のが仕事ですから、頑張るしかありません。まあ、めったにあることではないのが救いです。

 

文字起こし熟練者の脳は勝手にケバ取りを行ってくれる

 

 

5. 文字起こしの「ケバ取り」はAIより人間になお一日の長

本題から少しそれますが、AIには少なくとも2021年初頭の時点で、プロ反訳者に匹敵するだけの「ケバ取り」作業はできません。インターネットの動画サイトでも、発言に合わせてテロップがほぼリアルタイムで表示されるものがありますが、AIにとって日本語のケバ取りは難易度がまだ高いと見え、欧米語のそれと比べると厳しいものがあるとの印象を否めません。

音声認識AIにもいろいろありますが、〈声〉と〈音〉の区別が苦手なAIの場合、たとえ屋内での動画撮影でも、テーブルにグラスを置く音、紙をめくる音、窓外を通る車のエンジン音まで全て〈声〉と判断し、近い言葉を当てはめようとします。結果、まともに読めない、意味不明の字幕が流れることになります。

〈声〉と〈音〉を完璧に識別するには、全出演者の〈声〉を含む、想定されるあらゆる〈音〉をあらかじめAIに教え込み、波形の違いを学習させておくしかなさそうですが、「あらゆる音」となると際限がありませんので、認識精度には一定の限界があるのも無理のないことだといえるでしょう。

AIの音声認識力は初期の頃より格段に上がっていますが、結局は人間がチェックを行わないと、読める原稿にはなりません。AIが人間に代わって録音反訳を完璧に行えるようになるのは、まだ大分先のことになりそうです。

 

次回は、「ケバ取り」レベル3の〈口癖〉について、さらに考察を深めていこうと思います。

 

AIが人間に代わり反訳を完璧に行うことはまだ出来ない

AI 文字起こし比較 TOP

 

文字起こし(テープ起こし) 簡易見積りはこちら(1分単位、選べる納期)
文字起こし(テープ起こし) の正式なお見積りはマイページよりお願いします