2020年11月27日

文字起こしのコツ 一度に聴き取るべき音声の長さはどれくらい?

文字起こし初心者・経験の浅い新人反訳者がぶつかる壁の一つに、「(音声の)どのくらいのまとまりごとに文字化していくべきか」というものがあります。短いほうがいいのか、長いほうがいいのか。理想的な範囲はどのくらいなのでしょうか。

 

文字起こし初心者がぶつかる壁

 

目次

1. 文字起こしの上級者が一度に聞き取る音声の〈範囲〉とは

録音された音声(「素材」と呼ばれたりします)をパソコンの音声ソフトに取り込み、ワードの画面を開き、いざ文字起こし作業の始まりです。音声を再生し、キーボードを叩いて、その音声を文字に落とし込んでいきます。

さて、このとき、一体どのくらいの分量の音声を聞いてから文字化していくべきでしょうか。一旦、発言の区切りまで聞いてから一気呵成に打ち込んでいくほうがいいのか、それとも単語一つ一つを細切れに文字起こしするのがいいのか。果たしてどちらのやり方が正解なのでしょうか。

もちろん、個々の反訳者ごとに自分に適したリズムがあるでしょうが、ベテラン反訳者の多くは同じくらいの〈範囲〉で文字化を行っています。

 

 

2. 音声を細切れで聞くと反訳の入力効率は下がる

一例として、『皆さん、こんにちは。ただいまから定例の会議を始めさせていただきます。』という二つの文章から成る音声を文字化するとしましょう。

これを「皆さん」「こんにちは」「ただいまから」「定例の」「会議を」「始めさせて」「いただきます。」と7分割で入力すると、音声の「再生/停止」を7回繰り返すことになり、甚だ効率の悪い作業になります。一度の「再生/停止」に1秒かかるとしたら、1時間物の反訳では、恐らく十数分から数十分のタイムロスになってしまいます。

確かに、細かく分けて慎重に文字化を行ったほうが、聴取ミス、キーボードの打刻ミスは減ります。ですが、作業に時間がかかり過ぎると、反対に反訳者の集中力が低下し、漢字の変換間違いのような別のミスを生じかねません。

 

タイムロスにつながる効率の悪い作業とは

 

3. 音声をまとめて聴くと反訳の正確さが下がる

今度は、前述の例文を一度にまとめて聴き取り、文字化するとします。一気呵成に猛然とキーボードを叩けば(特にキータッチが得意な方は)細かく分けたときより、はるかにスピードアップできそうです。しかし、ここにもやはり落とし穴が待ち受けています。

人は相手の言葉を聞くときに、一言一句正確には聴き取っていません。漠然と相手の言わんとしていることをイメージで理解しているのです。

では、ここでクイズです。以下の「?」に入る部分の単語は何でしょう。

 

『祇園精舎の鐘の〈?〉 諸行無常の響きあり』

 

「音」と答えた方が多かったのではないでしょうか。でも、正解は「声」です。

度々耳にし、頭に残っているはずの有名な一節なのに、正確に答えられる人は意外と少ない。お寺の鐘がゴーンと鳴っているイメージで認識しているため、言葉の一つひとつまでは正確に覚えていないのです。

 

相手の言葉をイメージで理解する

 

4. まとめて聴くと反訳の正確さが下がる理由

『皆さん、こんにちは。ただいまから定例の会議を始めさせていただきます。』

これを一度にまとめて聴き、一気に文字化すると、大抵このような反訳になります。

『皆さん、こんにちは。ただいまから定例の会議を始めたいと思います

『皆さん、こんにちは。ただいまから定例会議始めます。』

意味は全く同じなのですが、「定例の会議」が「定例会議」になっていたり、語尾の「始めさせていただきます」が「始めたいと思います」「始めます」に変わっています。これでは正確な反訳とは言えません。

長い音声をまとめて聴き取ると、反訳者の頭の中で「イメージ(意味のまとまり)」に変換されてしまうため、微妙に主観の混じったアウトプットになってしまうのです。言い換えれば、反訳者自身が一種の〈フィルター〉になっているわけです。そして、当サイトのコラム「文字起こしと臨場感 AI音声認識が省みない“残り93%”への挑戦」でも触れたように、反訳原稿に反訳者の主観が入ってはいけないのです。

 

 

5. 文字起こしの熟練者が目安にする〈範囲〉は10文字分程度

慣れた反訳者は、「皆さん、こんにちは。」「ただいまから/定例の会議を」「始めさせていただきます。」の3~4分割くらいで聴き取り、文字化を行っています。文字数にすると10文字前後(あるいは10音程度)。このくらいが、音声と文字が一致する一つの目安です。それ以上短いと効率が悪く、逆に長いとミスが出てきます。

余談になりますが、世の中には文字を読むのが速い人と遅い人が存在します。その違いは、一目で認識できる文字数の差だとか。ふだん読書をしない人が、文字の一つ一つを目で追っていくのに対し、読書をしている人は、単語や文節ごとに認識するそうです。これを訓練で鍛え、丸々1段落~1ページくらいを瞬間的につかめるようになるのが、いわゆる「速読」です。

もちろん、「必ず10文字ごとに文字化しなければならない」という意味ではありません。早口の人もいれば、ゆっくりしゃべる人もいるので、あくまで一つの目安です。

初心者のうちは、細かく切って文字化していくほうが無難でしょう。経験を積めば、少しずつ文字数が増え、〈範囲〉が広がっていくはずです。そして、最も自分に合ったゾーンを見つけられるでしょう。

音声と文字が一致する自分なりの〈範囲〉を見つけることで、文字起こしの実力は間違いなくアップします。そのためにも、やはり「数をこなす」ことが重要になってきます。

音声と文字が一致する自分なりの範囲を見付ける