※当ページはアフィリエイトプログラムによる収益を得ています。

印刷物から文字情報を読み取るOCR

2019/04/04

紙媒体で受け取った資料をWordやExcelで再現し修正を加えたり、大量の書類を画像としてスキャンし電子化する作業は多くの企業で一般的に行われてます。しかし印刷された活字を識別し、文字データへ変換するOCR技術は急速に発展しており電子化や書類作成に必要な作業時間が大幅に短縮されつつあります。そこで今回は印刷物から文字情報を読み取るOCRについてご紹介します。

OCRは画像から文字起こしを自動で行う機能

OCRは印刷物や画像に変換されてしまった活字を認識し、文字データとしてテキストに文字起こしを自動的に行う技術です。特殊なフォントは認識できないなど万能とはいきませんが一般的なフォントなら高い精度でテキスト化できます。主に書物の電子化をする際に使われ、OCRで読み取った後に作業者がチェックしながら誤認識した箇所を修正していくことでテキストを完成させます。

従来のOCRは読み取る画像の準備が大変だった

OCRの欠点は読み取る画像の内容で認識率が大幅に変わることです。仮に印字が滲んでいるものや汚れがあるものは文字として認証できず、その部分が抜け落ちたテキストになってしまったり大量の点として変換されることが珍しくありません。また読み取る画像はモノクロ画像である必要があり、紙の状態に合わせてスキャナーの設定を調整する作業はパソコン操作に不慣れなユーザーには大きな障害でした。さらに英語より字の細かい日本語は解像度を上げないと認識率が落ちるため、スキャナーとパソコンの性能も要求水準が高かったこともデメリットのひとつでした。

OCRでは文章中の注釈や記号・図表の読み取りで失敗する

OCRは画像から使用されているフォントを推測するため外字扱いの特殊記号や単位表記を正しく認識することは困難です。また注釈もフォントサイズが異なれば正しく認証できないことや他の文章と混ざってテキスト化されてしまいます。表も枠内の文字はテキスト化されますが表そのものは再現できません。基本的にOCRは同じフォントサイズ・行間スペースでない箇所は全てエラーとなり手動で修正を行わなければなりません。

機械学習とAI技術の導入でOCRの利便性が向上した

上手く認証させるために多くの手順を踏む必要があったOCRですが、最近では機械学習とAI技術の導入で認識率が大幅に向上しています。手書き文字を扱えるOCRソフトウェアも増え、これまでエラーになりやすかった書類も高い精度でテキスト化できるように変わってきました。

Office365ではスマホで撮影した写真からOfficeデータを生成できる

スマホで撮影した写真からOCRでテキストに変換する機能は以前からありましたが、Office365ユーザーならスマホで撮影した図表がそのままExcelデータで再現されます。表のレイアウトはもちろん表内の文字も自動で入力された状態でExcelデータ化されるため、今までOCRが苦手だった図表が克服できたと言えます。

まとめ

OCRは決して万能ではありませんが画像から自動でテキスト化することで資料をテキスト検索可能にしたり膨大な書類を電子化したりすることに向いています。最近では個人で書籍を電子化して持ち運ぶ「自炊」と呼ばれる行為が浸透しておりOCRの需要は尽きることがありません。もし文字起こしや電子化で困っているならOCRソフトウェアを試してみることをお勧めします。