カテゴリ
News! (95)
銃器 (60)
映画 (21)
音楽 (17)
言論 (31)
民生 (4)
阮朝 (4)
人物 (34)
式典 (3)
BB/歩兵 (32)
ND/空挺 (51)
KB/騎兵 (8)
PB/砲兵 (1)
TT/通信 (3)
QV/輸送 (2)
HQ/海軍 (9)
KQ/空軍 (11)
QY/衛生 (2)
QC/軍警 (6)
軍犬隊 (1)
FULRO (12)
デガ (27)
モン族 (22)
ヌン族 (9)
本土軍 (2)
コマンド (11)
SDECE (3)
1914-1918 (5)
1918-1939 (10)
1939-1945 (24)
1945-1954 (93)
1954-1975 (490)
1975-1989 (21)

2024年07月06日

OCR計画始動

※2024年7月13日更新

これまで外国語で書かれ歴史関連の本をいろいろ買ってきましたが、手元にあっても写真を見るばかりで、内容をちゃんと読めていない本が沢山ありました。
特にベトナム語とフランス語はちんぷんかんぷんなので、全く手を付けられていません。

OCR計画始動

そこで先日、ついに重い腰を上げて、これらの本を全てOCR(光学文字認識)にかけて機械的に日本語翻訳する事にしました。
方法としては2パターンあり、一つはスキャン代行業者に本を送る方式です。
この方法は費用が安く、OCRまでやってもらう事ができますが、スキャンした本自体は裁断・廃棄する必要があるので、安価なソフトカバー本のみ送る事にしました。現在14冊のスキャンを依頼中です。

もう一つは自宅でブックスキャナーを使って手作業でスキャンする方式です。
大判・ハードカバー本は裁断したくないので、手間も費用も掛かりますが、しかなたく新たにブックスキャナー(OCR機能付き)を購入しました。

OCR計画始動

こうして今日から本のスキャン作業を開始。
僕の買ったスキャナーiOCHOW K2には自動撮影モードが付いているので、5秒に1回ページをめくっていくだけでサクサクスキャンが進むため、スキャン作業自体はすぐ終わりました。
しかし出来上がったデータを確認してみると、時折自動曲面平坦化が機能していなかったり、OCRでPDFに埋め込まれたテキストデータを正しい順序で読み取れなかったりで、そのまま機械翻訳に突っ込める状態ではありませんでした。

OCR計画始動

特に上のページのように、文章が2列になっていたり、途中で章が切り替わっていたり、図・キャプションが混ざっていると、なかなか正しい順序になってくれず、いちいち手動でテキストデータを並び替えなければなりません。
テクノロジーが進歩したとは言え、そこはまだ人間的な認知能力に追い付いていないようです。

そして、このテキストデータ並び替え・校正作業に丸一日を費やし、ようやく1冊目の翻訳がほぼ完了しました。しかし、これで終わりではありません。
実は僕、パソコン画面で長文を読むのが苦手で、どうしても紙の本で読みたい性なんです。
過去にも今回と同様にOCR・機械翻訳で洋書を翻訳した事がありますが、その時もデータをコンビニのプリンターに送り、A4用紙を数百枚印刷して自分で簡易製本しました。
(安く済ませたつもりだったけど、プリント代を考えたら、実は業者に製本まで頼んだ方が安かったかも?)

OCR計画始動

なのでこれからスキャンする約20冊も、たぶん何らかの形で製本する事になると思います。
せっかく紙媒体からデジタル化したのに、それを紙に印刷しなおすって、我ながら不合理な事をしているなと思います。




同じカテゴリー(その他)の記事画像
ダイエットちぅ
接待サバゲー
植物の話
最近やってること
ペルーPR動画
ĐLCHのリーフ迷彩服リプロ
同じカテゴリー(その他)の記事
 ダイエットちぅ (2023-10-14 10:02)
 接待サバゲー (2023-07-02 13:33)
 植物の話 (2022-09-01 22:37)
 最近やってること (2022-05-20 19:32)
 ペルーPR動画 (2021-08-23 21:19)
 ĐLCHのリーフ迷彩服リプロ (2020-12-20 22:07)

Posted by 森泉大河 at 22:55│Comments(0)その他
※このブログではブログの持ち主が承認した後、コメントが反映される設定です。
上の画像に書かれている文字を入力して下さい
 
<ご注意>
書き込まれた内容は公開され、ブログの持ち主だけが削除できます。