仕事をしていると、いろいろな場面に出くわすものですが、“文書データ送りますね” と言われて届いたデータがPDFや画像だった、というようなことありますよね?

もちろん目を通すだけでOKというものなら別に問題ないのですが、文書編集のベースに使う必要があったりすると、とりあえず “元データありませんか?” と聞きたくなるわけです。

【今日のワークハックはこんな人におすすめ!】

  • 手軽に画像データから文字起こしをしたい人
  • プリントアウトされた書類のやり取りが多い人

今日のワークハック:Googleドキュメントで画像から必要な情報を文字起こしする

画像
Screenshot: 田中宏和 via Google Docs

こんなときに便利なのがOCR(光学的文字認識)ソフト。でも実は、Googleアカウントを持っている人なら、特にパッケージソフトやWebアプリを導入する必要はないのです。

Googleドキュメントには、画像内に含まれている文字をテキストデータ化してくれる機能が搭載されています。

Googleドライブにアップロード

画像
Screenshot: 田中宏和 via Google Docs

1. まずは、該当の画像データ(PDF、JPG、PNGなど)をGoogleドライブにアップロードする(紙の文書しかない場合は、事前にスキャンしておいてください)。

2. 次に、アップロードされた画像ファイルを、「アプリで開く」から 「Googleドキュメント」を選択して開く。

以上です。あっけないほど簡単に、文字起こしが完了します。

文字起こしの精度を試してみた

とはいえOCRの精度が低いと、自分でキーボードを叩いたほうがマシだった、ということもありえます。

そこで、3パターンの画像を使って、GoogleドキュメントのOCR性能をテストしてみました。

画像
Screenshot: 田中宏和 via Google Docs

上に貼った画像は、上からそれぞれ、

  1. パッと見て画像とは思えないくらいクリアなスキャン画像
  2. 解像度が低く、少し読みづらくなっている画像
  3. 何度かコピーされたあとFAXされてきたような、かなり読みづらい画像

と、なっています。

十分に実用できるレベル

結果は、ご覧のとおり。

画像
Screenshot: 田中宏和 via Google Docs

上から2つに関しては、文字色が黒と認識されていない、フォントサイズがおかしい、一部の読点や句点を認識できていない、段落がおかしい等の問題点があるものの、テキスト自体は、ほぼ問題なく解読できています。

テキストをコピーして、編集作業で使うアプリに貼り付ければ、あとは微修正を加えるだけでOKですね。

ただし一番下の画像は、斜めに傾いているなど、人間の目でも判読が難しいレベルということもあり、誤認識が多くなっています。とはいえ、自分で手入力することを思えば、迷わず使いたくなる精度だと言っていいでしょう。

手軽に使えるTIPSなので、ぜひ試してみてください。

今日のワークハック記事をもっと読む

連載「今日のワークハック」では、仕事が速く効率的にこなせる!ツール・アプリ・OSのショートカットや使い方、アイデアをお届けします。

Googleドキュメントをもっと使いこなす|仕事をスムーズにする3つの小技 | ライフハッカー・ジャパン

Googleドキュメントをもっと使いこなす|仕事をスムーズにする3つの小技 | ライフハッカー・ジャパン

Google ドキュメントのテンプレート活用術! Gmailで使えるニュースレターを作成してみよう【今日のワークハック】 | ライフハッカー・ジャパン

Google ドキュメントのテンプレート活用術! Gmailで使えるニュースレターを作成してみよう【今日のワークハック】 | ライフハッカー・ジャパン