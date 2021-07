取引先から送られてきたFAXや、印刷文書などをテキストデータ化したいこと、ありますよね。

カメラやスキャンアプリで画像化する手もありますが、画像のままだとスマートフォン上で確認したい場合や、内容を抜粋したい場合に扱いにくいのです。

ちなみに、個人的に過去最悪レベルで困ったのは、「セキュリティの問題で、データの状態では渡せない」と言われて紙の名簿を渡され、数百件分を宛名印刷するという、悪夢のような仕事でした…。

OCR(文字認識)アプリは、こんなときに役立つもの。

今回は、筆者が知る限り、無料サービスの中で最高レベルの識字精度を誇るWebサービスをご紹介します。

『Free Online OCR』はインターフェイスが英語ですが、単ページで完結できるシンプルな使い勝手なので、英語が苦手な人でも使いやすいWebサービス。

プライバシーポリシーには以下の点が記載されているので、データ漏洩リスクに関しても信頼を置いていいと思います。

運営の本部はドイツにあり、 欧州の厳格なデータ保護法が適用 される。

OCRサービスの運営に最低限必要なデータを除いて、 アップロードされたデータは処理完了後に消去 される。

される。 PDF作成の場合、ダウンロード用のPDFデータが一時的に保存されるが、60分後には消去される。

高い文字認識精度

左:印刷された書類、右:Free Online OCRを使ってテキストデータ化したもの。 Image: 田中宏和

上の画像は、左が印刷された書類、右がFree Online OCRを使ってテキストデータ化したものです。

比較しやすいように、フォントのポイントを調整して、大体のレイアウトを合わせています。

もちろん、人間の目でも読みづらい小さい文字に関しては誤認識が多いですし、「バ」が「ノヾ」、「個」が「イ固」になっているなど、ネットスラングのような間違いも散見されますが、無料サービスとは思えない精度になっているのが分かるでしょう。

画像をアップロードしてクリックするだけでこのレベルのデータが出力されるので、間違いを修正していく作業を含めても、文字打ちするよりずっと短い時間で、ラクにテキストデータ化することができますよ。

使い方

1. Upload image or PDF file

テキストデータ化したい書類を画像データにして、ここからアップロードします。

2. Paste url to source file

Web上にアップロードされている画像をテキストデータ化したい場合、ここに画像のURLを入力。

3. Language

認識させたい言語を設定します。

4. Detect orientation and auto-rotate image if needed

書類の縦横が正しく認識されなかった場合のみ、チェックを入れます。

日本語の縦書き文章の場合でも、チェックを外したままで正しく右から読み取ります。

5. Do receipt scanning and/or table recognition

レシートや図表など、表組みされた書類として認識させたい場合にチェックを入れます。

日本語の横書き文章の場合、段組みを正しく認識してくれないことがあるので、本来の順序どおりにテキストが並ばないときは、ここにチェックを入れてみてください。

6. Auto-enlarge content (recommended for low DPI)

低解像度の画像の場合、チェックを入れると読み取りが正確になります。

基本的に、このチェックは常に入れておいていいと思います。

7. Create Searchable PDF

出力データ形式を決める項目です。

・Just extract text and show overlay (fastest option)

PDFは作らず、テキストデータのみ出力される。

・Create searchable PDF with visible text layer

抽出したテキストデータを上書き表示した状態で、元画像を背景にしたPDFが生成される。

・Create searchable PDF with invisible text layer

抽出したテキストデータは透明に隠された状態で、見た目は元画像同様のPDFが生成される。

8. Select OCR Engine to use:

OCRエンジンを選択する項目です。

・Use OCR Engine1 (Default, fast, most OCR languages)

日本語の場合、こちら。

・Use OCR Engine2 (Often better for number and special character OCR)

数字、数式などが含まれた文書は、こちらを試すことが可能。

9. Start OCR!

このボタンをクリックすれば、テキストデータ化を開始します。

無料で使えるので、まずは一度試してみてください。

手書き文字には非対応ですし、チラシなどレイアウトが複雑な印刷物に関しても精度が下がりますが、プリントアウトされた書類ならほぼ大丈夫です。

いつか役立つ日が来ると思いますので、とりあえずブックマークしておきましょう。