文字起こしのコツと効率的なやり方・単語登録実例も公開!【テープ起こし・文字起こし初心者向け】
文字起こしをする際、AI音声認識による文字列の自動生成に頼れない時は、手で入力するしかありません。ですが、時間はかけたくないものです。そこで、テープ起こし・文字起こし熟練者が作業している入力画面を録画して、プロはどのように文字起こしを効率的に行っているのか? 文字起こしのやり方、コツを分析しました。
目次
テープ起こし・文字起こし熟練者の、タイピング方法
ブラインドタッチがそれほど速いわけではないが、1分間に300文字の「整文反訳」ができる
話し言葉を読みやすい形で文字に起こすのが「整文反訳」です。録音の状態が良く、複数の話者の発言が入り乱れない音声の場合、熟練者は1分間あたり300文字分程度の「整文反訳」ができます。1分間に300文字というのは、アナウンサーがニュースの原稿を読み上げる速さです。
ここでいう「300文字」とは、文字で記された文章を見ながら300文字分をタイピングできるということではありません。聞こえた通りを文字列にする「逐語反訳」として毎分300文字分打ち込める、というのとも違います。そうではなく、聞き取った話し言葉を頭の中で読みやすい形に「整文」して文字入力した成果が、1分間あたり300文字分に及ぶ、ということになります。
今回、入力画面を分析させてもらったテープ起こし・文字起こし熟練者は、タイピング競技で上位に食い込めるような速打ち名人ではありません。キーボード入力の速さは、ブラインドタッチのできる一般的な事務職の方と大差ないレベルです。それでも、アナウンサーがニュース原稿を読み上げるのと同等の速さで文字起こしをできてしまうのです。
ローマ字入力で、ミスパンチや一時停止は、結構ある
テープ起こし・文字起こし熟練者でも、文字入力には無駄やミスのあることが分かりました。
まず、入力のしかたが「カナ入力」ではなく「ローマ字入力」です。ローマ字入力の場合、カナ入力に比べるとキーを叩く回数がどうしても多くなるため、速く入力するうえで有利とはいえません。
また、ミスパンチも結構あり、バックスペース(後退)のキーを操作して誤入力を消去し、入力をやり直している様子が何度も見受けられました。さらに、入力が音声に追いつけなくなってしまい、再生を一時停止していた場面もありました。
しかし、単語登録による入力で、文字起こし・テープ起こしを省力化している
それでもこの熟練者は、今回録画して分析対象にした約51秒の間に258文字分の反訳作業をできています。再生時間60秒(すなわち1分間)あたりに換算すると300文字を超える処理能力であり、まさにアナウンサーがニュースの原稿を読み上げるのに匹敵する速さです。しかも、この熟練者は、音声の再生速度を133%にして作業しています。つまり、録音された音声を実時間よりも短い時間で文字起こしできていることになります。
キーボードを打つ速さはそこそこであるにもかかわらず、なぜそのようなことが可能になるかというと、やはり単語登録が効いているからです。「させていただきたいというふうに考えております。」という23文字のくだりでは、ローマ字入力すると41回のキー入力を要するところ、わずか数回のキー入力で済ませているなど、単語登録による入力の省力化が随所にみられました。
その結果、再生速度を133%に上げていながら、音声の流れにある程度追随できています。キー入力の回数を減らせるからこそ、音声ファイルの再生速度も高めに設定できるのでしょう。
再生速度が上がることで、「えー、」「あのー」といった、意味のある言葉どうしの間に埋め込まれる無意味な言葉(フィラー)が気にならなくなる効果もありそうです。フィラーは逐語反訳でない限り、文字に起こす必要はないので、入力しなければならない文字数を減らすことにもつながります。単語登録しておいた語句は毎回正しく変換できるので、ミスパンチで入力をやり直す手間を未然に防げるという点でも大いに有効です。
「ケバ取り」だけではなく「整文」までを一度に行っている
この熟練者は、フィラーなど不要な言葉を取り除く「ケバ取り」にとどまらず、言葉の重複や言い間違い、文法上の誤りをなくした「整文」までを、音声を聞きながら頭の中で済ませています。そのうえで文字入力できているので、文字起こしの成果物は事後の修正を必要とせず、そのままでも納品可能ものとなっています。
以下は、分析に用いた音声ファイルを聞こえた通りの文字列に直した逐語反訳(393文字)になりますが、このうち赤字の部分(136文字)について、この熟練者は入力せずに省いています。
テープ起こし・文字起こし初心者でもできる四つのノウハウ
ここまで、熟練者が入力作業をしている様子の録画を分析することで、主に以下四つのノウハウが見えてきました。豊富な語彙力のあることが前提となりますが、どれも専門業者でなければできないというものではありません。
(1)単語登録を駆使して、キー入力の回数を減らす
(2)音声の再生速度を自身の能力に見合った設定にする
(3)音声に追いつけなくなったら、ためらわず一時停止する
(4)頭の中でケバ取りや整文をしてしまう(そのような聞き方をする)
特に重要なのが(1)の単語登録といえます。なお、(2)(3)は、ライブの音声をリアルタイムで文字起こしする場面では通用しません。再生速度を変更したり、音声に追いつけなくなって一時停止したりすることは、録音された音声ファイルを再生しながらの作業だからこそ可能なことです。(4)は経験を積むとできるようになります。
テープ起こし・文字起こし熟練者は、どのように単語登録しているのか?
文字起こしの熟練者はどのように単語登録を活用しているのか? より深く観察するために、再度文字起こしをしていただきました。文字起こしに用いられた音声は、以下の原稿を朗読したものです。15の文から成る、計449文字の文章です。被験者になっていただいた熟練者は約98秒で入力を終えており、1分間あたりに換算した入力速度は約275文字でした。
これらの箇所で熟練者が駆使しているのが単語登録です。この音声の文字起こしにあたっては、少なくとも下記の55語句(初出順に列記)の入力を単語登録によって簡略化できていました。
語句に併記されているアルファベットは、これらの語句を入力する際に打鍵されているキーです。この熟練者の入力方式はローマ字入力で、単語登録する際の「読み」の設定には子音のアルファベットを多用して、自身だけが理解できる多彩な文字列にしていることがわかります。
単語登録によって、打鍵数を全体で4割近く減らせていた
この449文字の朗読をローマ字入力によって文字起こしするのに最低限必要となるキー入力の回数、すなわち打鍵数を、単語登録「あり」の場合と「なし」の場合とで比較してみました。
(注:入力は、ヘボン式のローマ字表記よりも打鍵数が少なくて済む訓令式に準じて行うものとします。また、漢字への変換や、変換の確定、ミスパンチの修正に伴うキー操作は含みません)
単語登録「なし」での入力の場合、必要な打鍵数の合計は、少なくとも933となります。これに対し、上記55語句の単語登録を有効に活用した場合、入力に要する最低限の打鍵数は585となり、37.3%も少なくて済みます。1秒間あたりの打鍵回数は約9.5回から6回弱にまで減らせる計算になりますが、これは普通にブラインドタッチのできる方なら努力次第で到達可能な入力速度といえるでしょう。
単語登録は文字起こしの効率化に欠かせないテクニック
これまで見てきましたとおり、単語登録は入力を省力化・効率化するうえで欠かせないテクニックであることを再確認できました。実際に文字起こし・テープ起こしの際に、単語登録をどのように使用しているか見てみます。いずれも最初の行が「単語登録なし」、次の行が「単語登録あり」です。
(単語登録にかかわる部分を赤字にしています)
1文目:まず初めのお話をします。
mazuhajimenoohanasiwosimasu.(打鍵数28)
mzhamenoohwosimx.(打鍵数17、削減率39.3%)
2文目:皆さんは体の具合が悪いときには病院に行くと思います。
minasannhakaradanoguaigawaruitokinihabyouinnniikutoomoimasu.(打鍵数60)
mishakaradanoguaigawaruitmnihabnniikutooiu.(打鍵数43、削減率28.3%)
3文目:そのときにお金がかかるのは当然のことであります。
sonotokiniokanegakakarunohatouzennnokotodearimasu.(打鍵数50)
sonotmniokgakakarunohatznoktds.(打鍵数31、削減率38.0%)
4文目:さらに大きな病院になりますと治療のためにたくさんのお金がかかってしまいます。
saraniookinabyouinnninarimasutotiryounotamenitakusannnookanegakakattesimaimasu.(打鍵数79)
srniinbnninamtotiryounotamenitasanookgakakafj.(打鍵数46、削減率41.8%)
5文目:言うまでもないことでありますが、病気というものはいつなるかということがわかりません。
iumademonaikotodearimasuga,byoukitoiumonohaitunarukatoiukotogawakarimasenn.(打鍵数75)
iumademonaiktdsga,byofmhaitunarukafkgawn.(打鍵数41、削減率45.3%)
6文目:いざというときに必要なお金が足りないことも考えられます、
izatoiutokinihituyounaokanegatarinaikotomokangaeraremasu,(打鍵数57)
izaftmnihhnaokgatarinaifkmogeraremx,(打鍵数36、削減率36.8%)
7文目:そのために医療が受けられない場合があるかもしれません。
sonotameniiryougaukerarenaibaaigaarukamosiremasenn.(打鍵数51)
sntameniirgaukerarenaibgaarukmss.(打鍵数33、削減率35.3%)
8文目:このようなことにならないように、我が国には医療のための保険制度というものがあります。
konoyounakotoninaranaiyouni,wagakuninihairyounotamenohokenseidotoiumonogaarimasu.(打鍵数81)
knaktninaranaiuu,wgknihairnotamenohokenseidofmgaam.(打鍵数51、削減率37.0%)
9文目:実はこの制度ができたのは大正時代のことであります。
jituhakonoseidogadekitanohataishoujidainokotodearimasu.(打鍵数55)
jituhaknseidogacytanohataishoujidainoktds.(打鍵数42、削減率23.6%)
10文目:ただしその当時は一部の人たちだけのものでありました。
tadasisonotoujihaitibunohitotatidakenomonodearimasita.(打鍵数54)
tadasisntoujihaitibunohittdakenommdsa.(打鍵数38、削減率29.6%)
11文目:しかし、現在では全ての国民が公的な保険に入ることになっています、
sikasi,genzaidehasubetenokokumingakoutekinahokennnihairukotoninatteimasu,(打鍵数73)
sks,gzdhsbbnokkmgakoutekinahokennnihruktninaim,(打鍵数47、削減率35.6%)
12文目:また保険料を納めることになっています。
matahokennryouwoosamerukotoninatteimasu.(打鍵数40)
mthkrwoosameruktninaim.(打鍵数23、削減率42.5%)
13文目:みんなで負担することによりましてこの制度が運営されているのであります、
minnnadefutannsurukotoniyorimasitekonoseidogaunneisareteirunodearimasu,(打鍵数71)
minnnadefnnsuruktniyttknseidogauneireteirunods,(打鍵数47、削減率33.8%)
14文目:そして私たちが医療サービスを受けたときには医療費の一部が支払われる仕組みになっています、
sositewatasitatigairyousabisurouketatokinihairyouhinoitibugasiharawarerusikumininatteimasu,(打鍵数92)
soswtgairsbwouketatmnihairhnoitibugasreruskmninaim,(打鍵数51、削減率44.6%)
15文目:そのため私たちが病院に払うお金は少なくて済むのであります。
sonotamewatasitatigabyouinnniharauokanehasukunakutesumunodearimasu.(打鍵数67)
sntamewtgabnniharauokhasuukutesumunods.(打鍵数39、削減率41.8%)
文字起こし・テープ起こし効率化に必須の「単語登録」、その法則性とは
「短縮」と「変則」を使い分ける
この熟練者の入力方法はローマ字入力(ヘボン式ではなく、主に訓令式)です。その法則性を分析していくと、
- 入力する語句のローマ字表記から何文字かを間引いて短縮形にしたもの
- 入力する語句のローマ字表記とは結び付かない変則的なもの
に大別されます。ただ、例外も結構、出てきます。このことから、最初から厳密な法則性を確立できていたわけではなく、試行錯誤の末、現状に辿り着いたものであることがうかがわれます。
文字起こしの単語登録に見られる法則性(1)「短縮」の例
ここで「短縮」と呼んでいるものは、ローマ字入力において、入力する語句の正式なローマ字表記から何文字かを間引くことを指します。今回の分析対象にした熟練者の場合、自立語で始まる語句にこのパターンが多く見られました。
事例を以下に記します(五十音順。*印は付属語や活用語尾を起点とする語句。以下同じ)。実際に間引かれたアルファベットは薄字にしてあります。間引かれるアルファベットは母音が比較的多いことがわかります。
純然たる間引きによる短縮形
(入力語句) (ローマ字表記) (登録された「読み」の文字列)
あります arimasu am
医療 iryou ir
医療費 iryouhi irh
運営されている unneisareteiru uneireteiru
お金 okane ok
お話 ohanasi oh
思います omoimasu oiu
かもしれません* kamosiremasenn kmss
考え kangae ge
現在 genzai gz
国民 kokuminn kkm
こと koto kt
この kono kn
このような konoyouna kna
サービス sa–bisu sb
さらに sarani srn
しかし sikasi sks
仕組み sikumi skm
支払われる siharawareru sreru
少なくて sukunakute suukute
そして sosite sos
その sono sn
たくさん takusann tasa
であります* dearimasu ds
でありました* dearimasita dsa
では deha dh
当然 touzenn tz
なっています natteimasu naim
なります narimasu nam
場合 baai b
入る hairu hru
初め hajime hame
保険料 hokenryou hkr
人たち hitotati hitt
病院 byouinn bn
病気 byouki byo
負担 futann fnn
まず mazu mz
また mata mt
我が国 wagakuni wgk
わかりません wakarimasenn wn
私たち watasitati wt
間引きに近い短縮形
(入力語句) (ローマ字表記) (登録された「読み」の文字列)
大きな ookina iin
全て subete sbb
とき toki tm
できた dekita cyta
必要 hituyou hh
もの mono mm
ます* masu mx
ように* youni uu
よりまして yorimasite ytt
文字起こしの単語登録に見られる法則性(2)「変則」の例
一方、単なる短縮形とは言えないパターンも見受けられました。登録された「読み」の文字列が、入力語句を単にローマ字表記したものとは掛け離れているものです。
頻出する言い回しに特定のアルファベットを充てる
例えば、「f」という子音のアルファベット入力で始まる文字列の変換に特徴が見られました。
(入力語句) (ローマ字表記) (登録された「読み」の文字列)
ってしまいます* ttesimaimasu fj
という* toiu f
ということ* toiukoto fk
というもの* toiumono fm
「f」=「という」とする原則を決めた後、いくつもの派生形が展開されていることがわかります。動画には出てきませんが、この熟練者は上記以外に次の語句についても「f」で入力が始まる単語登録をしていました。
(入力語句) (ローマ字表記) (登録された「読み」の文字列)
というのが* toiunoga fga
というのは* toiunoha fha
というのを* toiunowo fwo
これらは自立語では始まっていない語句である点が共通しています。
付属語を起点にする単語登録に、この熟練者は独自の法則性を持っていることがうかがわれます。もう少し詳しく見ていきます。
特定の助詞に続く言い回しをくくる
この熟練者は、「に」や「を」といった格助詞に続く言い回しの単語登録についても、単なる短縮形を超えた独自の法則性を編み出していました。
以下にその一端を紹介します。「に」に続く言い回しの入力を簡略化するために、「ni」または「i」で始まる多彩な派生形が展開されています。こうして格助詞などでくくっておくと、思い出すのも容易になりそうですね。
(入力語句) (ローマ字表記) (登録された「読み」の文字列)
において* nioite niot
におきまして* niokimasite niott
について* nituite it
につきまして* nitukimasite itt
に関して* nikansite nikt
に関しまして* nikansimasite niktt
に関する* nikansuru niks
に対して* nitaisite nit
に対しまして* nitaisimasite nitt
に対する* nitaisuru nits
に当たって* niatatte niat
に当たりまして* niatarimasite niatt
に伴い* nitomonai nim
に伴いまして* nitomonaimasite nimmm
に伴って* nitomonatte nimm
に伴う* nitomonau nimu
そして、これらの多くは、実は短縮形にもなっていました。純然たる短縮形としても成立するものを以下に再掲します。(間引かれたアルファベットを薄字にしています)
(入力語句) (ローマ字表記) (登録された「読み」の文字列)
において* nioite niot
について* nituite it
につきまして* nitukimasite itt
に関して* nikansite nikt
に関する* nikansuru niks
に対して* nitaisite nit
に対しまして* nitaisimasite itt
に対する* nitaisuru nits
に当たって* niatatte niat
に当たりまして* niatarimasite niatt
に伴い* nitomonai nim
に伴う* nitomonau nimu
文字起こし・テープ起こしに重要な単語登録の法則性の立て方は自由自在
以上はあくまで法則性の一例です。
単語登録を使いこなすことは、キー入力の回数をいかに減らせるかを究めることでもあります。使い手はご自身だけですから、ルールはいかようにも決められます。ぜひ、ご自身なりの法則性を確立し、入力を効率化につなげてください。
単語登録を使いこなそう 文字起こしを効率化してスピードアップ」を合わせてお読みいただき、文字起こしの効率化とスピードアップの参考にしていただければ望外の喜びです。