一番槍BLOG:OCR計画始動

ブログ内検索

カテゴリ

リエナクト・コスプレ (253)

コレクション (30)

自作グッズ (86)

漫画・アニメ (8)

旅行・海外 (102)

カメラ･写真 (9)

ラーメン (13)

イラスト (31)

【ベトナムの文化】 (48)

└ ベトナム語 (7)

└ 料理・食文化 (6)

└ 民生 (4)

【ベトナム史】 (25)

└ 阮朝 (4)

└ ベトナム難民 (44)

【ベトナム共和国軍】 (460)

└ 人物 (34)

└ 組織・編成 (34)

└ 被服・装備 (191)

└ 徽章・勲章 (33)

└ 式典 (3)

└ BB／歩兵 (32)

└ BĐQ／レンジャー (27)

└ ND／空挺 (51)

└ TQLC／海兵隊 (42)

└ KB／騎兵 (8)

└ PB／砲兵 (1)

└ TT／通信 (3)

└ QV／輸送 (2)

└ HQ／海軍 (9)

└ LĐNN／フロッグマン (3)

└ KQ／空軍 (11)

└ NKT／技術局 (42)

└ LLĐB／特殊部隊 (27)

└ DSCĐ／CIDG計画 (41)

└ ĐPQ-NQ／地方軍・義軍 (19)

└ PRU／省探察隊 (4)

└ CTCT／政治戦 (6)

└ SVSQ／士官候補生 (14)

└ 儀仗・首都警備 (2)

└ TTHL／訓練センター (8)

└ QY／衛生 (2)

└ QC／軍警 (6)

└ 軍犬隊 (1)

└ NQN／婦人将兵 (5)

└ CSQG／国家警察 (19)

└ NDTV／人民自衛団 (5)

【ベトナム国内勢力】 (5)

└ カオダイ教 (5)

└ ホアハオ教 (0)

└ カトリック (3)

└ 統一仏教会 (0)

└ ビンスェン団 (1)

【ベトコン】 (11)

└ ベトミン (2)

└ ベトナム労働党政権 (3)

└ 南ベトナム解放民族戦線 (4)

└ ベトナム共産党政権 (22)

【インドシナ少数民族】 (67)

└ 少数民族の歴史・文化 (14)

└ FULRO (12)

└ デガ (27)

└ モン族 (22)

└ ヌン族 (9)

└ チャム族 (3)

【ラオス】 (36)

└ ラオス王国 (20)

└ ラオス人民革命党政権 (0)

【カンボジア】 (29)

└ クメール王国 (5)

└ クメール共和国 (20)

└ 民主カンプチア (1)

【タイ】 (41)

【フランス】 (70)

└ 本土軍 (2)

└ 植民地軍 (50)

└ コマンド (11)

└ 外人部隊 (6)

└ SDECE (3)

【アメリカ】 (127)

└ MAAG／軍事支援顧問団 (2)

└ MACV／軍事支援司令部 (2)

└ SF／グリーンベレー (26)

└ SOG／特殊作戦 (24)

└ USN／アメリカ海軍 (2)

└ USMC／アメリカ海兵隊 (6)

└ APA／在日米陸軍調達局 (6)

└ CIA／中央情報局 (11)

└ NSA／国家安全保障局 (1)

└ ベテラン (2)

【中国】 (16)

【台湾】 (12)

【フィリピン】 (2)

【ドイツ】 (6)

【日本】 (34)

【朝鮮・韓国】 (1)

【時代】 (0)

└ 古代～近世 (6)

└ 19世紀-1914 (13)

└ 1914-1918 (5)

└ 1918-1939 (10)

└ 1939-1945 (24)

└ 1945-1954 (93)

└ 1954-1975 (490)

└ 1975-1989 (21)

└ 1990-2000年代 (10)

└ 2010年代・現在 (122)

2024年07月06日

OCR計画始動

※2024年7月13日更新

これまで外国語で書かれ歴史関連の本をいろいろ買ってきましたが、手元にあっても写真を見るばかりで、内容をちゃんと読めていない本が沢山ありました。

特にベトナム語とフランス語はちんぷんかんぷんなので、全く手を付けられていません。

OCR計画始動

そこで先日、ついに重い腰を上げて、これらの本を全てOCR(光学文字認識)にかけて機械的に日本語翻訳する事にしました。

方法としては2パターンあり、一つはスキャン代行業者に本を送る方式です。

この方法は費用が安く、OCRまでやってもらう事ができますが、スキャンした本自体は裁断・廃棄する必要があるので、安価なソフトカバー本のみ送る事にしました。現在14冊のスキャンを依頼中です。

もう一つは自宅でブックスキャナーを使って手作業でスキャンする方式です。

大判・ハードカバー本は裁断したくないので、手間も費用も掛かりますが、しかなたく新たにブックスキャナー(OCR機能付き)を購入しました。

OCR計画始動

こうして今日から本のスキャン作業を開始。

僕の買ったスキャナーiOCHOW K2には自動撮影モードが付いているので、5秒に1回ページをめくっていくだけでサクサクスキャンが進むため、スキャン作業自体はすぐ終わりました。

しかし出来上がったデータを確認してみると、時折自動曲面平坦化が機能していなかったり、OCRでPDFに埋め込まれたテキストデータを正しい順序で読み取れなかったりで、そのまま機械翻訳に突っ込める状態ではありませんでした。

OCR計画始動

特に上のページのように、文章が２列になっていたり、途中で章が切り替わっていたり、図・キャプションが混ざっていると、なかなか正しい順序になってくれず、いちいち手動でテキストデータを並び替えなければなりません。

テクノロジーが進歩したとは言え、そこはまだ人間的な認知能力に追い付いていないようです。

そして、このテキストデータ並び替え・校正作業に丸一日を費やし、ようやく1冊目の翻訳がほぼ完了しました。しかし、これで終わりではありません。

実は僕、パソコン画面で長文を読むのが苦手で、どうしても紙の本で読みたい性なんです。

過去にも今回と同様にOCR・機械翻訳で洋書を翻訳した事がありますが、その時もデータをコンビニのプリンターに送り、A4用紙を数百枚印刷して自分で簡易製本しました。

(安く済ませたつもりだったけど、プリント代を考えたら、実は業者に製本まで頼んだ方が安かったかも？)

OCR計画始動

なのでこれからスキャンする約20冊も、たぶん何らかの形で製本する事になると思います。

せっかく紙媒体からデジタル化したのに、それを紙に印刷しなおすって、我ながら不合理な事をしているなと思います。

同じカテゴリー（その他）の記事画像

ダイエットちぅ

接待サバゲー

植物の話

最近やってること

ペルーＰＲ動画

ĐLCHのリーフ迷彩服リプロ

同じカテゴリー（その他）の記事

ダイエットちぅ
接待サバゲー
植物の話
最近やってること
ペルーＰＲ動画
ĐLCHのリーフ迷彩服リプロ

Posted by 森泉大河 at 22:55│Comments(0) │その他

※このブログではブログの持ち主が承認した後、コメントが反映される設定です。

名前:
メール:
URL:
情報を記憶:
コメント:	上の画像に書かれている文字を入力して下さい
	＜ご注意＞書き込まれた内容は公開され、ブログの持ち主だけが削除できます。確認せずに書込

このページの上へ▲

プロフィール

森泉大河

冷戦時代の東南アジアの歴史に興味があります。特に旧ベトナム共和国に関するリサーチ、リエナクトメントをライフワークとしています。
ベトナム共和国軍伝統保存会オブザーバー会員

アクセスカウンタ

最近の記事

プノンペン陥落から50年 (4/17)

ヒラコー博 (4/12)

たぶん初のカンボジア内戦イベント (4/8)

電子版発売しました (4/1)

サワット大佐の略歴 (3/30)

ベトナム軍装ガイド販売開始 (3/25)

師団番号について (3/19)

続・右側飾緒の謎 (3/13)

ベトナム共和国軍の軍装1949-1975 Vol.1発売 (3/7)

階級の渾名 (3/4)

読者登録

メールアドレスを入力して登録する事で、このブログの新着エントリーをメールでお届けいたします。解除は→こちら

現在の読者数 10人