2020年10月23日

文字起こしと臨場感 AI音声認識が省みない“残り93%“への挑戦

文字起こしの大原則は、聞こえたとおりを文章にすること。これはAI音声認識の自動反訳が、速さの面で既に人間の能力を凌駕しています。ただ、機械的な文字列生成では失われてしまう臨場感の再現は、匠の技になお一日の長がありそうです。

 

文字起こしと臨場感

 

目次

1. 文字起こしで再現できる情報は1割に満たない?

 心理学に〈メラビアンの法則〉というものがあります。人間が互いに意思疎通を図るとき、言語自体による情報はわずか7%しかないというものです。言葉以外のジェスチャー、顔の表情、口調といった周辺情報のほうが、コミュニケーションにおいて、はるかに多くの比重を占めているそうです。つまり、「音声の文字化」というのは、そのたった7%に携わる作業になります。

 7%しかない材料で、残り93%を的確に表現するのは不可能です。まさしく「“音声の文字化”の限界」です。でも、反訳者は、この7%を8%、9%、あるいは10%にまで広げられないか、いつも悪戦苦闘しています。「“残り93%”への挑戦」です。

 

反訳者による残り93%への挑戦

 

2. 反訳で「ト書き」を使いたい欲求に駆られるが……

 ほとんどの場合、反訳文には、音声以外の記載は認められていません。ただし、裁判の尋問調書などでは、例外的に「うなずく」「用紙に記入する」などといった動作の記載が許されています。ドラマ脚本なら「ト書き」と呼ばれるものです(「ト書き」の語源は、脚本家が脚本中で「『そのとおりだ』(と笑う)」のように、「と○○」と動作を指定することによります)。

 これには裁判という特殊性が関係しています。裁判の尋問は、基本的に質問と答えから成り立っているため、肯定か否定か、あるいは返答に詰まって何も答えられなかったのかという部分が極めて重要になります。証言態度そのものが判決に影響を与えることがあるからです(これを「裁判官が心証を取る」といいます)。

 

 前述したように、一般の会議録ではト書きは許されていません。そのため、反訳者はしばしば、「ここでト書きを使えたらな」という欲求不満を抱えることになります。

 例えば、同じ「申し訳ありません」という発言でも、心から悔いて涙混じりに謝罪した場合と、口をとがらせて不服そうにつぶやいた場合では、込められている意味がまるで違います。なのに、文字にすると全く同じになってしまいます。読み手には、語り手の表情や口調、ジェスチャー、その場の雰囲気が伝わりません(ちなみに、この現場の雰囲気を全部ひっくるめて、私は「臨場感」と呼んでいます)。そんなとき、反訳者は思わずト書きや、何らかの形容表現を使いたくなります。

 

 

3. 文字起こしの原則は「聞こえたとおり」

 もし、そういった形容が許されたとしたら、どうでしょう? 確かに、より正確に記録を残すことはできるかもしれませんが、注意すべきは、そこにどうしても反訳者の主観が入り込んでしまうことです。

「音声記録の文章化」であるからには、絶対に反訳者の主観が投影されてはいけません。本当に反省しているかどうかは、当人以外には(当人自身にも)分かりません。それを反訳者が勝手に判断したり、もしくは語り手に対する好き嫌いの感情が入り込んでしまったりしたら、正確な音声記録の再現ではなくなります。

ですので、結局は聞こえた音のとおり文字化せざるを得ないのです(余談ですが、仮に語り手の主張がいい加減で、反訳者自身が持っている価値観と真逆であっても、発言のまま文字に起こさねばならず、そこにストレスを感じることがあります)。

 

文字起こしの原則は聞こえたとおり

 

4. それでも場の雰囲気を反訳で再現するには

 そこで、苦肉の策とでもいおうか、ふだんなら文字にしない部分をあえて残すことで、何とかその場の雰囲気を再現できないか、と工夫することになります。

 

 「だからね、あの、わ、私が言ってるのはね、何の責任もない、私には責任はないんだってことですよ」

 

 これを「無機能語はカットする」「言い直しは改めて言い直したほうを残す」「簡単な倒置は直す」といった文字起こしの基本ルールに従えば、

 

 「だから、私が言っているのは、私には何の責任もないんだということですよ」

 

 となりますが、ちょっとだけルールを拡大解釈して

 

 「だから、私が言っているのはね、何の責任もない、私には責任はないんだということですよ」

 

 と反訳したりします。わざと余計に反訳することで、語り手の焦燥感を多少なりとも表現できると考えるからです。これなら、音声(発言)自体はちゃんと存在しているわけですから、「迷ったときは音どおり」の大原則には違反しません(屁理屈かもしれませんが)。

 ただし、ここでもやり過ぎは絶対禁物です。やり過ぎると、どうしても反訳者自身の判断が入り込んできます。違法でなくとも脱法的な拡大解釈なのですから、やらなくて済むならやらないほうがいいし、どうしても必要であるなら、ここぞというときだけに限るべきです。

 

 

5. まだある 文字起こしの様々な制約

 「!」「?」といった記号も、通常の反訳文では使用することができません。理由は不明ですが、恐らく出来上がった文書が散文調に、あるいは軽薄に見えてしまうからだと想像します。そして、この決まりが反訳者の手かせになります。

 「私は関係ない!」もしくは「私は関係ない(と大声で叫んだ)」などと表記ができれば楽なのですが、残念ながらそれはNG。この場合も、泣く泣く音のまま、「私は関係ない」と文字化するしかありません。

 

 さらに、困るのが、いわゆる「こそあど言葉」とオノマトペ(擬音語、擬態語)の問題です。

 「これがあれして、それがああなった」などと発言されると、気を利かせて「これ」「あれ」を対象物に言い換えたくなるのが人情ですが、それも反訳者の裁量を超える、やり過ぎになります。音声のとおり文字化しなければなりません。ただし、指示代名詞ばかりで意味不明瞭なときは、あらかじめ依頼主から「『あれ』と発言している部分は○○○としてください」などと指示があるか、後日の校正戻りの際に赤字で修正が入ってきます。指示がない場合、反訳者が勝手に言い換えをすることは許されません。

 独特なオノマトペを使われたときも、反訳者は頭を抱えます。

 「ガラスがグジャンと割れた」(音はそう聞こえる)という発言があり、出てくるのがその1か所だけで、大勢に影響がない(音自体に特に意味はない)ときは、「ガチャンと割れた」と一般的な表記に直したりします。しかし、何度も同じ表現が登場する場合は、それが発言者の個性なのだと割り切って、「グジャン」と文字化したりします。

 どうかすると、発言者がなまじ音をリアルに再現しようとしたせいで、はっきり聞き取れなくなってしまうことがあります(漫画的に書けば「○※♭▲◎×★♯」みたいな感じ。つまり音として全く聞き取れない)。そのときは、無理に文字を当てはめず、一般に使われる代表的な擬音で文字化しておくのが無難でしょう。これも不都合があれば、校正戻りの際に赤字で修正されてきます。

 

 

6. 難しい反訳のうまい処理方法を共有し合おう

 当サイトの他のコラムでも繰り返し言及していますが、大事なのは「音声と意味のバランス」です。このバランス感覚を養うには、とにかく経験を積むしかありません。仕事とは関係のない日常の会話でさえ、相手の口調や表情に注意を払う中で、何らかのヒントが得られるかもしれません。もし誰かが、何かしらうまい処理方法を思いついた場合は、反訳者同士で情報交換し、技術を共有し合いたいものです。

 言葉や知識のストックを増やす意味でも、反訳のテクニックを磨く意味でも、24時間常にアンテナを張りめぐらせておくことが、よい反訳者には必要といえるでしょう。

 

反訳者同士で情報や技術を共有する

AI 文字起こし比較 TOP