2020年05月31日

音声認識でなくても毎分300文字! 手入力でも文字起こしはここまで効率化できる

文字起こしをする際、AI音声認識による文字列の自動生成に頼れない時は、手で入力するしかありません。ですが、時間はかけたくないものです。そこで、熟練者が作業している入力画面を録画して、真似できそうなノウハウを探ってみました。

手入力でも文字起こしは効率化できる

 

目次

1. タイピングが特別に速いわけではない

話し言葉を読みやすい形で文字に起こすのが「整文反訳」です。録音の状態が良く、複数の話者の発言が入り乱れない音声の場合、熟練者は1分間あたり300文字分程度の「整文反訳」ができます。1分間に300文字というのは、アナウンサーがニュースの原稿を読み上げる速さのイメージになります。

 

ここでいう「300文字」とは、文字で記された文章を見ながら300文字分をタイピングできるということではありません。聞こえた通りを文字列にする「逐語反訳」として毎分300文字分打ち込める、というのとも違います。そうではなく、聞き取った話し言葉を頭の中で読みやすい形に「整文」して文字入力した成果が、1分間あたり300文字分に及ぶ、ということになります。

 

今回、入力画面を分析させてもらった熟練者は、タイピング競技で上位に食い込めるような速打ち名人ではありません。キーボード入力の速さは、ブラインドタッチのできる一般的な事務職の方と大差ないレベルです。それでも、アナウンサーがニュース原稿を読み上げるのと同等の速さで文字起こしをできてしまうのです。

 

まずは、その熟練者が音声ファイルを再生しながら文字起こしの入力作業をしている画面のキャプチャー動画をご覧ください。(聞こえてくる音声がやや早口に聞こえるのは、この熟練者が音声の再生速度を133%に設定して作業しているためです)

 

 

2. ミスパンチや一時停止も結構している

画面上のカーソルの動きに注目すると、この熟練者の文字入力には無駄やミスのあることが見て取れます。

 

まず、入力のしかたが「カナ入力」ではなく「ローマ字入力」です。ローマ字入力の場合、カナ入力に比べるとキーを叩く回数がどうしても多くなるため、速く入力するうえで有利とはいえません。

 

また、ミスパンチも結構しているようで、バックスペース(後退)のキーを操作して誤入力を消去し、入力をやり直している様子が何度も見受けられます。

 

さらに、入力が音声に追いつけなくなってしまい、再生を一時停止しているところも3カ所ありました。(音声が途切れている箇所になります)

 

熟練者でもミスパンチや一時停止をしている箇所がある

 

3. だが、単語登録が効いている

それでもこの熟練者は、キャプチャー画面を録画した約51秒の間に258文字分の反訳作業をできています。再生時間60秒(すなわち1分間)あたりに換算すると300文字を超える処理能力であり、まさにアナウンサーがニュースの原稿を読み上げるのに匹敵する速さです。

 

しかも、この熟練者は、音声の再生速度を133%にして作業しています。つまり、録音された音声を実時間よりも短い時間で文字起こしできていることになります。

 

キーボードを打つ速さはそこそこであるにもかかわらず、なぜそのようなことが可能になるかというと、やはり単語登録が効いているからです。「させていただきたいというふうに考えております。」という23文字のくだりでは、ローマ字入力すると31回のキー入力を要するところ、わずか数回のキー入力で済ませているなど、単語登録による入力の省力化が随所にみられます。

 

その結果、再生速度を133%に上げていながら、音声の流れにある程度追随できています。キー入力の回数を減らせるからこそ、音声ファイルの再生速度も高めに設定できるのでしょう。

 

再生速度が上がることで、「えー、」「あのー」といった、意味のある言葉どうしの間に埋め込まれる無意味な言葉(フィラー)が気にならなくなる効果もありそうです。フィラーは逐語反訳でない限り、文字に起こす必要はないので、入力しなければならない文字数を減らすことにもつながります。

 

単語登録しておいた語句は毎回正しく変換できるので、ミスパンチで入力をやり直す手間を未然に防げるという点でも大いに有効です。

熟練者の作業の決め手は単語登録

 

4. 作業後に見直す必要がない

この熟練者は、フィラーなど不要な言葉を取り除く「ケバ取り」にとどまらず、言葉の重複や言い間違い、文法上の誤りをなくした「整文」までを、音声を聞きながら頭の中で済ませています。そのうえで文字入力できているので、文字起こしの成果物は事後の修正を必要とせず、そのままでも納品可能ものとなっています。

 

以下は音声ファイルを聞こえた通りの文字列に直した逐語反訳(393文字)になりますが、このうち赤字の部分(136文字)について、この熟練者は入力せずに省いていることがわかります。

ま、例えば、あのー、土曜日が多いとか日曜日が多いとか、そういう状況、でもなくてですね、あのー、えー、今後、もう少し、あの、実績を蓄積させていただいたところで、あのー、ま、どういう利用の状況があるかというところを分析した上で、また、あのー、ま、利用されている、うー、方、あのー、えー、バスの運転手さんに、あの、アンケートなんかもとりまして、えー、ま、どういったニーズがあるかとかも含めて、えー、今後、あの、分析させていただきたいというふうに考えております。えー、実績といたしましてはですね、あのー、え、当初想定していたよりも、あのー、おー、多く、うー、ま、利用、を、していただいておりまして、えー、こんねん、あ、えーと、4月分だけで、えー、いきますと、あの、1カ月分の、おー、利用料金収入については、あの、当初、おー、想定していたよりも1割程度、おー、多いという状況でございます。

赤字込み393文字、黒字のみ257文字)

 

 

5. あなたにもできる四つのノウハウ

熟練者が入力作業をしている画面のキャプチャー動画を分析することで、主に以下四つのノウハウが見えてきました。豊富な語彙力のあることが前提となりますが、どれも専門業者でなければできないというものではありません。

 

 ① 単語登録を駆使して、キー入力の回数を減らす

 ② 音声の再生速度を自身の能力に見合った設定にする

 ③ 音声に追いつけなくなったら、ためらわず一時停止する

 ④ 頭の中でケバ取りや整文をしてしまう(そのような聞き方をする)

 

特に重要なのが「①」の単語登録といえます。当サイトのコラム「単語登録を使いこなそう 文字起こしを効率化してスピードアップ」「文字起こしのコツを探る 音声ファイルをテキスト化するプロの手の動きを観察」を合わせてお読みいただき、文字起こしの効率化とスピードアップの参考にしていただければ望外の喜びです。

 

なお、「②」「③」は、ライブの音声をリアルタイムで文字起こしする場面では通用しません。再生速度を変更したり、音声に追いつけなくなって一時停止したりすることは、録音された音声ファイルを再生しながらの作業だからこそ可能なことです。「④」は経験を積むとできるようになります。

 

手入力によるリアルタイムでの質の高い文字起こしは、熟練者といえども一人でやりきるのは至難の業です。どうすれば対処できるのかについて興味のある方は、「リアルタイム字幕」「ステノキャプショナー」といった検索語でインターネットを検索してみてください。

入力作業における熟練者の4つのノウハウとは