2020年04月09日
ケバ取り・整文・逐語反訳 読みやすい文字起こしはどれ?
一口に「文字起こし」といっても、起こし方は一つではありません。
元の音声に忠実な文字列に起こしますか?
それとも、文章としての読みやすさを優先しますか?
文字起こしに何を求めるかによって、仕上がりはなり違うものになります。
この記事ではその違いを、実際の音声と文字列で比べていきます。
1. 代表的な文字起こしの種類
代表的な文字起こしのやり方としては、次の3種類があります。
1-1. 逐語反訳(ちくごはんやく)
話者が発した音声のとおりの文字列に起こしていきます。
「あのー」「えーと」等、特に意味を持たず、なくても差支えのない言葉を、業界では「ケバ」などと呼びますが、これらもすべて聞こえた通り忠実に再現します。
学術研究や裁判資料などに用いられる正確な記録としての用途があります。
1-2. ケバ取り
逐語反訳からケバだけを除去し、残りは話者の音声を忠実に起こした文字列になります。
「音声認識と手入力 音声ファイルを確実に文字起こしできるのはどちら?」でも概説しましたが、ケバを含む文字列は往々にして読みにくくなってしまいがちです。
ケバがなくなると、それだけでかなり読みやすくなる場合が多くあります。
話し方の癖や、倒置法による強調など、臨場感をある程度残すことができます。
1-3. 整文反訳(せいぶんはんやく)
ケバ取りに加え、文意を損ねない範囲で、読みやすい文章にするため編集を加えます。
文法上の誤りや明らかな言い間違いを修正したり、必要に応じて言葉を補ったりしながら、
話し言葉を書き言葉に変換するので、読みやすい文章になります。
2. 話し言葉は書き言葉に比べて読みにくい
それでは、文字起こしの結果である文字列のサンプルを見ていきましょう。
第201通常国会で1月30日に開かれた参議院予算委員会における首相答弁の一部です。
逐語反訳 → ケバ取り → 整文 の順でご覧いただき、違いをご確認ください。
説明の都合上、込み入った整文をしないで済む部分の音声で作業したものになります。
実際の音声は次の通りです。
2-1. 逐語反訳
あの、おー、ま、確かにですね、えー、ま、働き方改革を進めていく上においても、えー、あるいは、あー、この育休、う、子育てと、お、おー、両立できる制度を進めていく上においても、えー、ま、中小企業や、あ、そうしたフリーランスの方々、あー、有期雇用労働者、あー、はですね、えー、育児休業の取得率が、ま、低い状況にある、えー、ま、重点的な支援が、こういう皆さんに対する、え、こうした皆さんに対する、え、重点的な支援が必要であると考えております。ま、このため、中小企業については、代替要員の確保、おー、等を、おー、助成金により支援、えー、するとともに、えー、有期雇用労働者については、あー、平成29年より育児休業の、お、要件を緩和、あ、したところであります。また、個人事業主のうち、えー、労働者に類似した働き方をする、え、方についても、働き方の多様化を踏まえつつ、育児、え、介護等々の両立の観点から今、けん、えー、検討を、えー、検討を進めてまいりたいと、え、思います。
425文字。聞こえた通りを文字列に起こすと、こうなります。
2-2. ケバ取りにとどめたもの
確かに、働き方改革を進めていく上においても、あるいは、この育休、子育てと両立できる制度を進めていく上においても、中小企業や、そうしたフリーランスの方々、有期雇用労働者は、育児休業の取得率が低い状況にある。重点的な支援が、こういう皆さんに対する、こうした皆さんに対する重点的な支援が必要であると考えております。このため、中小企業については、代替要員の確保等を助成金により支援するとともに、有期雇用労働者については、平成29年より育児休業の要件を緩和したところであります。また、個人事業主のうち、労働者に類似した働き方をする方についても、働き方の多様化を踏まえつつ、育児、介護等々の両立の観点から今、検討を、検討を進めてまいりたいと思います。
318文字あります。意味を持たない言葉はすべて取り除かれていますが、言葉の重複などが見られます。
2-3. ケバ取り+整文反訳までしたもの
確かに、働き方改革を進めていく上においても、あるいは、育休、子育てと両立できる制度を進めていく上においても、中小企業や、そうしたフリーランスの方々、有期雇用労働者は、育児休業の取得率が低い状況にある。こうした皆さんに対する重点的な支援が必要であると考えております。このため、中小企業については、代替要員の確保等を助成金により支援するとともに、有期雇用労働者については、平成29年より育児休業の要件を緩和したところであります。また、個人事業主のうち、労働者に類似した働き方をする方についても、働き方の多様化を踏まえつつ、育児、介護等々の両立の観点から今、検討を進めてまいりたいと思います。
292文字です。すっきりと読めます。
3.「聞く」と「読む」では大違い
このように三つ並べただけでは、違いが分かりにくいかも知れません。
3-1. 逐語反訳すると、話し言葉の冗長さが際立つ
そこで、逐語反訳した文字列のうち、ケバとして取り除いた文字列を「■」で、さらに、整文した際に取り除いた文字列を「■」で表示してみました。
■■■■■■■■確かに■■■■■■■■、働き方改革を進めていく上においても、■■■あるいは、■■■■■育休、■■子育てと■■■■■■両立できる制度を進めていく上においても、■■■■■中小企業や、■■そうしたフリーランスの方々、■■■有期雇用労働者■■■■は■■■■■■、育児休業の取得率が■■■低い状況にある。■■■■■■■■■■■■■■■■■■■■■■■■■■■こうした皆さんに対する■■■重点的な支援が必要であると考えております。このため、中小企業については、代替要員の確保■■■■等を■■■■助成金により支援■■■■するとともに、■■■有期雇用労働者については、■■■平成29年より育児休業の■■■要件を緩和■■■したところであります。また、個人事業主のうち、■■■労働者に類似した働き方をする■■■方についても、働き方の多様化を踏まえつつ、育児、■■介護等々の両立の観点から今、■■■■■■検討を■■■■■■■進めてまいりたいと■■■思います。
何となくスカスカ、という印象になりますね。
このサンプルでは、「■」と「■」が、425文字のうち計133文字(32.3%)ありました。
話し言葉のおよそ3分の1が、読み言葉にすると不要になる文字列だったことがわかります。
3-2. ケバ取りと整文で取り除いた語句を復元してみると
今度は、ケバ取りした「■」と、整文で取り除いた「■」を、赤で復元してみましょう。
これら不要な言葉が非常に目障りとなり、文意を追うことが困難に感じるほどです。
あの、おー、ま、確かにですね、えー、ま、働き方改革を進めていく上においても、えー、あるいは、あー、この育休、う、子育てと、お、おー、両立できる制度を進めていく上においても、えー、ま、中小企業や、あ、そうしたフリーランスの方々、あー、有期雇用労働者、あー、はですね、えー、育児休業の取得率が、ま、低い状況にある、えー、ま、重点的な支援が、こういう皆さんに対する、え、こうした皆さんに対する、え、重点的な支援が必要であると考えております。ま、このため、中小企業については、代替要員の確保、おー、等を、おー、助成金により支援、えー、するとともに、えー、有期雇用労働者については、あー、平成29年より育児休業の、お、要件を緩和、あ、したところであります。また、個人事業主のうち、えー、労働者に類似した働き方をする、え、方についても、働き方の多様化を踏まえつつ、育児、え、介護等々の両立の観点から今、けん、えー、検討を、えー、検討を進めてまいりたいと、え、思います。
音声で聞くと難なく理解できても、そのまま文字列に直すと非常に読みにくくなってしまう。
そこに、文字起こしの難しさがあります。
4. 専門業者・熟練者の反訳のしかた
音声の文字起こしをしたことのある方は、初めての時、どうだったでしょうか?
音声に引きずられ、逐語反訳になってしまいがちだったのではないでしょうか?
そこからケバを取り、さらに、整文に仕上げるといった手順を必要としませんでしたか?
その結果、仕上げるまでに長大な時間と手間がかかっていませんでしたか?
少し慣れてくると、ケバをわざわざ文字に起こすことはなくなるでしょう。
さらに熟達すると、音声を聞きながら直に整文した文字列を入力できるようになります。
ただ、その域に達するには、回数をこなし、経験を積まなければなりません。
専門業者に「素質あり」と見込まれて採用された人でも、数年かかるといわれています。
別の本来業務をお持ちの方が片手間に従事するのは必ずしも得策とはいえないでしょう。
「話し言葉」「書き言葉」については、当サイトの以下のコラムもご参照ください。