2024年07月06日
OCR計画始動
※2024年7月13日更新
これまで外国語で書かれ歴史関連の本をいろいろ買ってきましたが、手元にあっても写真を見るばかりで、内容をちゃんと読めていない本が沢山ありました。
特にベトナム語とフランス語はちんぷんかんぷんなので、全く手を付けられていません。

そこで先日、ついに重い腰を上げて、これらの本を全てOCR(光学文字認識)にかけて機械的に日本語翻訳する事にしました。
方法としては2パターンあり、一つはスキャン代行業者に本を送る方式です。
この方法は費用が安く、OCRまでやってもらう事ができますが、スキャンした本自体は裁断・廃棄する必要があるので、安価なソフトカバー本のみ送る事にしました。現在14冊のスキャンを依頼中です。
もう一つは自宅でブックスキャナーを使って手作業でスキャンする方式です。
大判・ハードカバー本は裁断したくないので、手間も費用も掛かりますが、しかなたく新たにブックスキャナー(OCR機能付き)を購入しました。

こうして今日から本のスキャン作業を開始。
僕の買ったスキャナーiOCHOW K2には自動撮影モードが付いているので、5秒に1回ページをめくっていくだけでサクサクスキャンが進むため、スキャン作業自体はすぐ終わりました。
しかし出来上がったデータを確認してみると、時折自動曲面平坦化が機能していなかったり、OCRでPDFに埋め込まれたテキストデータを正しい順序で読み取れなかったりで、そのまま機械翻訳に突っ込める状態ではありませんでした。

特に上のページのように、文章が2列になっていたり、途中で章が切り替わっていたり、図・キャプションが混ざっていると、なかなか正しい順序になってくれず、いちいち手動でテキストデータを並び替えなければなりません。
テクノロジーが進歩したとは言え、そこはまだ人間的な認知能力に追い付いていないようです。
そして、このテキストデータ並び替え・校正作業に丸一日を費やし、ようやく1冊目の翻訳がほぼ完了しました。しかし、これで終わりではありません。
実は僕、パソコン画面で長文を読むのが苦手で、どうしても紙の本で読みたい性なんです。
過去にも今回と同様にOCR・機械翻訳で洋書を翻訳した事がありますが、その時もデータをコンビニのプリンターに送り、A4用紙を数百枚印刷して自分で簡易製本しました。
(安く済ませたつもりだったけど、プリント代を考えたら、実は業者に製本まで頼んだ方が安かったかも?)

なのでこれからスキャンする約20冊も、たぶん何らかの形で製本する事になると思います。
せっかく紙媒体からデジタル化したのに、それを紙に印刷しなおすって、我ながら不合理な事をしているなと思います。
Posted by 森泉大河 at 22:55│Comments(0)
│その他
※このブログではブログの持ち主が承認した後、コメントが反映される設定です。