2020年02月25日

音声ファイルの文字起こし　自動の音声認識と手入力のタイピングはどちらが確実？

「文字起こしって単純作業じゃないの？」ーー
確かに、タイピングを考えると気が重くなりますよね。
聞いたままを文字に直すだけなら人工知能（AI）でも十分できそうです。

ですが、音声ファイルの文字起こしは単純なテキスト化作業ではありません。
AI による音声認識がいくら進化しても、専門業者による人手をかけた文字起こしはなくなりません。
文字起こしの目的を改めて考えると、その理由が見えてきます。

音声認識と手入力　音声ファイルを確実に文字起こしできるのはどちら？

1. 音声ファイル文字起こしの目的
2. 音声認識はそのままでは使えない
3. 文字起こしは活用しやすいテキストにできてこそ
4. 音声ファイル文字起こしの専門業者に依頼するメリット
5. 文字起こしの専門業者に依頼するデメリット

1. 音声ファイル文字起こしの目的

できれば、やりたくない。でも、誰かがやらねばならない、文字起こし。
その目的は、音声による記録を、読める形にして便利に活用することです。

1-1. 「聞く」のではなく「読める」記録として残すため

話し手が発する言葉は、一瞬で消えていきます。
それを録音または録画しておけば、音声や動画のファイルとして記録に残すことはできます。

ただ、そうやって記録した音声は、生の会話と同じく、あくまでも「聞く」ものです。
再生を始めたら、一時停止しない限り、話はどんどん先へ進んでしまいます。
理解が追いつかない場合、「巻き戻し→再生」の繰り返しを強いられます。
確認したい言葉がある場合、音声や動画を冒頭から再生して探さなければなりません。

また、話の内容について深く考え始めてしまうと、「うわのそら」になりがちです。
そうならないよう、再生中は音声に意識を集中し続けなければなりません。

これに対し、文字に起こして「読める」ものにしておけば、テキストとして参照できます。
テキストは録音や録画に比べると、行きつ戻りつがとても容易です。
文字列になっているので、確認したい言葉があれば瞬時に検索できます。

テキストは音のように流れて消えてしまうこともなく、いつまでも表示させておけます。
立ち止まって考えを深める精読も、短時間で要所をつかむ斜め読みも、自由自在です。
文字に起こしておけば、読む側が自身の都合や理解度に合わせて、好きなペースで利用できます。

1-2. 他の人と共有できる資料にするため

音声ファイルは、多くの場合、話し言葉を録音したものです。
話し言葉は、場を共有する人どうしが、無駄を省いて意思疎通する手段といえます。
このため、音声ファイルを後で再生したとき、第三者が内容を正確に聞き取れるとは限りません。

文字に起こして誰でも読めるテキストにしておけば、当事者以外でも理解できる資料になります。
適切な漢字を使って表記しておけば、同音異義語と取り違えてしまうおそれも防げます。

また、テキスト化しておけば、ファイルのサイズが音声や動画より格段に小さくて済みます。
端末や通信回線、保存する記憶媒体を選ばず共有が容易なことも利点といえるでしょう。

1-3. 記事にして雑誌や WEB などで公開するため

音声ファイルは、文字に起こしておくと、活用の幅が広がります。
内容を記事に仕立てれば、WEB だけでなく雑誌や本などの紙媒体にも掲載して拡散できます。

音声ファイルそのものを、要約したり再構成したりするには、手間がかかります。
テキストにしておけば、そういった編集作業も容易になるはずです。

2. 音声認識はそのままでは使えない

そうやって、音声の記録を読める形にしておくことが、いわゆる文字起こしになります。
ですが、「単に文字列に置き換える」のと「手を加えて読みやすくする」のでは違います。

単に文字列に置き換える、すなわち、話し手の音声を一言一句違わず文字に起こす。
これは「逐語（ちくご）反訳」あるいは「素起こし」などと呼ばれます。

逐語反訳であれば、音声認識で自動化するサービスが普及してきました。
話者の発する言葉をリアルタイムでテキスト化することも可能になっているほどです。
テキスト化の処理速度においては、人間はすでに AI にかなわないかも知れません。
音声認識を使いこなせれば、タイピングに要していた手間と時間を大いに省けるでしょう。

ただ、正確な文字列に変換する精度は、まだ人間の方が優れている面があります。

そもそも、自然な会話や談話というものは、逐語反訳しても読みやすくなりません。
話し言葉は、そのまま文章にすると不都合な文字列を含むからです。
ありがちな例をいくつか見ていきます。

音声認識による逐語反訳が使えない理由

2-1. 原稿に意味を持たない言葉がいっぱい入ってしまう

人は、話の途中で「あのー」「えーと」「ですね」といった言葉を案外発しているものです。
これらの言葉は、発話の間を埋めるものとして「フィラー」（filler）などと呼ばれます。

フィラーは状況に応じて何らかの機能を持つとされ、言語学など多方面で研究が進んでいます。
ただ、それ自体は意味を持つ言葉ではありません。いわば「不要語」です。

このため、私たちはふだん、フィラーを意識せずに聞き流しているはずです。
それをわざわざ文字列に直してしまうと、読み手にはわずらわしいものとなります。

2-2. 人は辞書や文法のとおりに発言するとは限らない

私たちは、必ずしもすべての言葉を、辞書の表記どおりに発しているとは限りません。

「もの」が「もん」、「どこか」が「どっか」、「～させて」が「～さして」になったりします。
「という」に関しては、大半の人が「～っていう」と発音していると思われます。

これらは、会話や談話の場面で聞く分には、特に気にさわるものではありません。

「～と違って」を「～と違くて」とするなど、文法上は誤った言い回しもよく耳にします。
それでも、話の腰を折ってまで、いちいち指摘したりはしないと思います。

ですが、これをそのまま文字列に置き換えて公式の文書記録にすると違和感が生じます。
場合によっては、話し手の品格をいたずらに損ねてしまうおそれもあるでしょう。

2-3. 真逆の意味になることもある

特定の地域や業界に特有の言い回しや隠語、同音異義語にも要注意です。

読み手は、話し手や聞き手と同じお国言葉や文脈を理解できるとは限りません。
不用意に逐語反訳してしまうと、読む側に意味を取り違えられてしまうこともあります。

一例ですが、ある地域では「か（借）りてきて」を「かってきて」と発音します。
この地域では、「か（買）ってきて」の発音は「こうてきて」になります。

2-4. 言い間違いや意図的なルール違反も

話し手が固有名詞の読みや数字の桁をうっかり誤ることも、よくあることです。

明らかな言い間違いであれば、その場に居合わせた人なら誰でも気づけるでしょう。
ただし、時と場を異にする読み手には、うのみにされてしまいかねません。

一方、話し手が日本語の通常のルールを意図的に守らないことがあります。
伝えたい内容を強く印象づけたり余韻を残したりしたいときの倒置法は、その一例です。

2-5. 音声認識はまだ発展途上

こうした「そのまま文章にすると不都合な文字列」の出現は、人により千差万別です。
その出現は、同じ人であっても、規則性に従うとは限らず、予測不能なものです。

AI には、専門用語のほかに、話者の声や話し方の癖を覚えさせることができます。
そうした事前の仕込みによって、音声認識の精度を上げていくことは可能です。
ただ、それは裏を返せば、仕込まれていないものを認識するのが苦手ということでもあります。
自然な会話におけるあらゆる不確実な要素というものを、事前に仕込んでおくことは難しそうです。

会話では、他者の発言を黙って聞くという暗黙のルールがあります。
ただし、それも往々にして守られず、また、不要な場合すらあります。
そのような状況で交わされた会話の録音には、複数の話者の声が重なって収録されています。
その中から特定の１人の発言を分離して正確に音声認識にすることも、現時点では困難なようです。

このため、音声認識で生成された文字列は、どうしても読みにくさが残ってしまいがちになります。

3. 文字起こしは活用しやすいテキストにできてこそ

文字起こしは活用しやすいテキストにできてこそ

話し言葉は多くの場合、このような乱れを含んでいます。
それを正確に逐語反訳しても、読みにくいままでは活用しにくいものとなります。

裁判記録や学術研究の資料には、逐語反訳こそが必要とされることもあるでしょう。
ですが、一般的な文字起こしの場合、読みやすくして便利に活用するには、適切に手を加えておきたいところです。

逐語反訳に手を加えていくにあたっては、幾つかの工程が考えられます。
「あのー」とか「えーと」といったフィラーを取り除くだけなら「ケバ取り」、
さらに踏み込んで、文意を損なわない範囲で手を加えることを「整文」といいます。

これらの工程を経て、逐語反訳は、読むに堪え、活用しやすいものとなっていきます。

音声をそのまま文字に置き換えるだけという、単純な作業では終わらせない。
それが専門業者の手掛ける「文字起こし」というサービスになります。

ケバ取りや整文といった手を加えると、どの程度読みやすくなるのかについては、当サイトの別コラム「ケバ取り・整文・逐語反訳　読みやすい文字起こしはどれ？」をご一読ください。実際の音声を聞きながら、ケバ取り・整文・逐語反訳の読み比べをしていただけます。

4. 音声ファイル文字起こしの専門業者に依頼するメリット

文字起こしの専門業者に頼んだ場合、次のようなメリットがあります。

4-1. 逐語反訳だけ・ケバ取りまでなど、仕上がりを指定できる

文字起こしの仕様に関して、オーダーメイドで対応してもらえます。
ニーズに応じて、仕上がりの体裁について相談するとよいでしょう。

4-2. 整文まで依頼できる

素起こしやケバ取りまでは、専門業者でなくても時間をかければ自力でできるかも知れません。
音声認識ソフトウエアの開発会社でも実用化の研究が進められています。
しかし、整文となると、まだ専門業者でなければ困難とみられます。

4-3. 言い間違いやニュアンスを汲み取って修正してくれる

専門業者は正確さと読みやすさの両立を追求し、優れた整文のノウハウを蓄積しています。
録音現場に居合わせなくても、場の雰囲気や話の文脈を音声だけからでも読み取れる熟練者を擁しています。
聞き取りにくい音声も正確にテキスト化できるのはもちろん、明らかな言い間違いや不完全な日本語も適切に修正がなされます。

4-4. 疑問点は相談しながら進められる

人工知能ではなく、実在する担当者が作業し、工程ごとに作業記録が残ります。
不明な点や疑問点についての問い合わせには責任ある回答が期待できます。

5. 文字起こしの専門業者に依頼するデメリット

人力での作業となるため、以下のデメリットが考えられます。

5-1. 音声認識と比べて料金がかかる

高いスキルを有するプロが作業するため、人件費がかかります。
ほかに、音声ファイルの管理など、安心・安全のための経費も上乗せされます。

ただし、納品された文字起こしの結果を依頼主側が改めて修正する必要はないでしょう。
すべて業者側へのお任せにできるため、依頼主側は文字起こしにかかる時間を本来業務に充当できます。
専門業者への支払う料金も、依頼主側が自前の文字起こし従事者にかかる時給換算額を下回る可能性があります。

5-2. 納期がかかる

人力での作業は、音声認識に比べて時間がかかります。
録音の内容や状態にもよりますが、音声10分あたり１時間内外かかるといわれます。
料金次第で、納品までの日数が変わり、料金を抑えたい場合は日数を要します。

5-3. 信頼できる業者を選ぶ必要がある

専門業者は個人も含め、多くは WEB サイトを開設しており、納期や料金、支払方法を確認できます。
それらとは別に、主要な専門業者について比較できるサイトや、口コミ情報を掲載しているサイトもあります。
文字起こしの出来、ご自身の依頼したい分野と業者の得意分野が一致するかや、校閲の体制、プライバシーマークの取得の有無などもチェックしておきたいところです。

スタッフを多く擁し、長年営業している専門業者であれば、広範な分野の文字起こしを手掛け、ノウハウが蓄積されています。
特に急を要したり、一度に大量の処理を求めれたりする案件にも、一定の品質で対応ができるでしょう。

音声ファイルの文字起こし 自動の音声認識と手入力のタイピングはどちらが確実？