BLOG

AI 基礎

【AI×OCRによるペーパーレス社会の到来】文字認識の基礎知識とRPAで広がるビジネスの可能性

2019.04.23

業務効率化のため文字認識やOCRのシステム導入を検討したいものの、実際になにから取り掛かれば良いのか具体的にわからないという方も多いのではないでしょうか。

文字認識は便利であることはなんとなくわかっているものの、具体的な利用方法がわからないあまり、導入に進まないケースも少なくありません。

文字認識やOCRに関する基本的な事柄や活用方法を理解していないと、業務効率化に向けた具体的な対策も難しいもの。そこで今回は、文字認識やOCRの基礎知識から産業とのシナジー効果、OCRによって実現するペーパーレス化について紹介します。

文字認識(OCR)のアルゴリズムとAIがもたらす産業へのシナジー効果

OCRの基礎知識と社会・企業への浸透を促した法律的背景

OCRとは「Optical Character Recognition/Reader」の頭文字を取った言葉で、光学文字認識ともよばれます。手書きまたは印刷された文字や数字をスキャナやカメラによって読み取り、コンピュータが利用可能なデジタルデータである文字コードに変換する技術です。

すでにOCRが活用されている身近な例を挙げるとすれば、郵便物の仕分けの際に使用される郵便区分機、高速道路などで自動車のナンバーを自動的に読み取るシステムがあります。

OCRが社会の中に広く浸透することになった背景には、国税関係書類のスキャナ保存制度の見直しがおこなわれたことが関係しています。国税関係の書類や帳簿類は、原則7年間保管しておかなければならない義務があります。

しかし、紙や帳簿ファイルによって保管しておくとなると物理的なスペースが必要となるだけではなく、書類を探し出す手間や、紛失・誤廃棄のリスクが生じます。

そこで、「平成27年度税制改正の大綱」および「平成28年度税制改正の大綱」で国税関係書類に係る保存制度の見直しがおこなわれました。これは紙をスキャナなどでデータ化することで、紙の保存義務を置き換えることが出来るというものです。いつ保存したのかがわかるようにタイムスタンプを付与することなどの条件が加わったものの、従来よりも効率的な帳簿管理が可能になりました。これらの要件は電子帳簿保存法やe文書法によって制度管理されています。

書類や帳簿をスキャナを使ってデータ化することが可能になったことで、OCR化も並行して進み、特定キーワードからの検索なども出来るようになりました。データ化することによって、ユーザー権限付与による参照可能なメンバーの制限をすることもできるようになりました。さらに、保管義務である7年間を過ぎたデータは自動的に削除することもでき、書類データ管理の工数削減に。多くの企業にとってメリットのある制度改正となりました。

人間の書いた手書き文字をOCRで認識する技術はどのような仕組みでおこなわれているのでしょうか。書き手によって特徴が異なる手書き文字認識のOCRにおいて、高い読み取り精度を実現するには、AIが必要不可欠な存在です。

 

AIを搭載し、よりセマンティックに文字を認識することから可能になった手書き文字認識

AIの研究分野のなかには「自然言語処理」とよばれるものがあり、AIによる手書き文字認識は自然言語処理の応用技術のひとつです。自然言語処理を一言で表すとすれば、「人間が使用している言語をコンピュータに理解させる」ことを目的としているものです。

当然のことながら、パソコンで文字列を入力してもコンピュータ自身がその意味を理解しているのではなく、コンピュータが理解できるデータに自動的に変換したうえで処理がおこなわれています。キーボードで入力したデータはコンピュータが理解できるデータに変換されるのですが、手書きや印字された書類を読み込んでもコンピュータは文字と認識できません。そこで、自然言語処理の応用技術として手書き文字認識の研究がされるようになりました。

手書き文字認識ではAIを活用し、文字ごとに異なる特徴を自動で抽出・学習することを可能にしました。従来の文字認識では、特徴抽出を人間が手作業で行いモデルに学習させていたため、特徴が無数に存在する手書き文字を正確に認識するのには限界がありました。しかし、AIの活用によって文字の特徴抽出とモデルの学習をAI自ら行うことが可能になり、従来のOCR技術では困難だった手書き文字認識が可能となりました。

特徴抽出

AIを活用した文字認識の手法は「人工知能搭載型OCR」または「AI OCR」ともよばれています。

AIによる文字認識は学習していくことで文字認識の精度も向上していきますが、これを支えているのがニューラルネットワークを用いたディープラーニングの技術です。

 

OCR技術の識字率を大幅に向上させたAIのディープラーニング

AIを活用した文字認識システムは、高いもので99%以上の識字率を誇ります。なかでもCogent Labsの「Tegaki」OCRは、99.22%*という高い認識精度を実現。学習することで、精度がさらに向上していきます。

高い識字率を達成しているのは、AIのディープラーニング技術を活用していることが背景にあります。ディープラーニングとはディープニューラルネットワークを用いた機械学習の方法のひとつ。十分な量のデータの中から自動的に特徴の抽出を可能にした機能をディープニューラルネットワークといいます。

ニューラルネットワークとは人間の脳神経(ニューロン)の仕組みのように多層にわたって構成された回路で、人工ニューロンともよばれるもの。ニューラルネットワークはさまざまなデータのパターンを認識します。ニューロンの仕組みが多層にわたって構成されることで、より複雑な処理も可能となり、文字認識では識字率の向上にもつながります。

ディープラーニングによって文字認識の識字率が向上すると、事務作業が大幅に軽減されるメリットがあります。たとえば、申込書に記載された文字をデータとして入力するといった仕事が代表的な実例として考えられるでしょう。また、会議などでホワイトボードに書いた内容をカメラで撮影し、OCRに読み込ませることによって議事録データとして残しておくことも可能。事務作業の効率化に貢献します。

ディープラーニングに関して、詳しくはこちらをチェック:AIの深層学習「ディープラーニング」の活用法!人工知能のニューウェーブを知る

 

AI×OCRの技術で見える未来。RPAによる産業の効率化

AIによる文字認識が可能な人工知能搭載型OCRが世の中に広まってくると、事務作業が大幅に軽減されるだけではなく、産業の構造自体も大きな変革を遂げることになります。単純作業が機械に置き換われば、それまで多くのコストや時間を費やしていた作業が大幅に減り、よりクリエイティブで人間らしい業務を行うことができます。

これを実現するために重要なツールとなるのが、RPAとよばれるものです。RPAはRobotic Process Automationの頭文字をとったもので、ロボットによって業務を自動化するシステムのことを指します。RPAはAIと混同されることが多いですが、両者にはさまざまな違いがあります。また、RPAとAIは異なるカテゴリーの技術であるため、RPAとAIは対で比較できる存在とはいえません。

AIの特徴図解

RPAを導入する企業は増えていますが、人工知能搭載型OCRとの組み合せでの利用はこれからです。今後、RPAと人工知能搭載型OCRの利用が進むと、従来は人間の手によってでしか不可能であった書類ベースの事務作業などもコンピュータに任せられるようになるでしょう。

RPAはバックオフィス業務全般にかかっているコストを大幅に削減できるだけではなく、人為的なミスの削減にも貢献し、高い生産性を維持できるようになるメリットがあります。

 

【コラム】識字率の向上に寄与したディープラーニングと機械学習の違いについて

Cogent Labsの「Tegaki」は人工知能搭載型OCRとして99%以上の識字率を達成したと紹介しましたが、この背景にはAIの急速な発達、ディープラーニングの誕生があったことは言うまでもありません。従来の学習方法である「機械学習」と新たに誕生した「ディープラーニング」について、両者の違いを簡単に紹介しましょう。

判断の仕方

上記の表のように、ディープラーニングは自律学習によって学んでいくことができます。

たとえば、カタカナの「ツ」と「シ」の違いは人間にとっては簡単に見分けることができますが、これを機械学習によって正しく判断させようとすると複雑なプログラミングが必要となります。しかし、さまざまなパターンのデータをコンピュータに取り込み、ディープラーニングによって膨大な量を学習することにより、両者の違いを見分けて判断できるようになります。

手書き文字はその人の個性や癖が出やすいものです。細かな特徴を見分けなければならない手書き文字認識は、ディープラーニングによって認識精度が向上しました。

ディープラーニングはサンプルとなるデータ量に応じて精度が変わってきます。学習してきたデータが増えれば増えるほど、さらに高い精度を実現できます。これは手書き文字認識に限らず、ディープラーニングを使ったあらゆるシステムに共通して言えることです。ディープラーニングの精度を左右するのは、データであるといえます。

現在、ディープラーニングはさまざまな分野への活用研究がされており、医療分野においては血液検査からガンをはじめとした病気の発見なども可能になっています。このように、ディープラーニングは使い方によってさまざまな問題を解決できます。

手書き文字認識で実現する社会・企業の新しい労働環境や価値創出

紙媒体のデジタル化によるメリット・デメリットは?デジタル化がもたらすデータの未来

紙に手書きされた内容をスキャンし、OCRでデジタルデータ化することによってどのようなメリット・デメリットがあるのでしょうか。

  • メリット・・・手書きで残した内容を容易に検索・編集できる
  • デメリット・・・データ破損のリスクがある

OCRを行うメリットは、手書きで残した内容を容易に検索・編集できることです。

書類の場合には保管場所が不要になったり、ホワイトボードなどを写真に撮影してOCRでデジタル化した場合には、議事録をテキストデータとして残すことが出来ます。

 

OCRによるペーパーレス化の活用例

AIを活用したOCRは企業や学校に広がりを見せています。具体的にどのような用途で利用されているのか、いくつかの事例を紹介しましょう。

  • 大量の受注伝票の伝票番号をOCRで読み取り、番号別に区分けする
  • アンケート集計をOCRでおこない、統計解析ツールと連携して分析
  • 携帯電話契約時に本人確認書類をスキャナで読み込み、OCRによって住所や氏名などを自動入力
  • ホテルでの宴会オーダーの内容をOCRで読み込み、専用のシステムに投入
  • 手書きのテスト答案をコンピュータで採点

上記の事例のように業務効率化を図るためにはOCR単体だけではなく、専用のシステムや解析ツール、プリンターなどと複合的に組み合わせます。この他にも多くの活用が行われています。

 

BPOで効率化。業務のアウトソーシング

BPOサービスとよばれるアウトソーシングを活用することも有効な手段です。BPOは「Business Process Outsourcing」の略称で、自社の事務作業などを外部に委託する仕組みです。BPOを提供している企業は業務プロセスに関する専門家で、自社の事務作業の一部またはすべての業務を委託可能です。

OCRは業務効率化において大きな武器となるツールですが、OCRに投入したからといって無条件でデータ化が完了するものではなく、人間の目によって最終確認をしなければならないケースもあります。OCRのシステム導入時には適したフロー設計を行わないと、結局は人手による確認作業や修正作業に多くの時間を取られ、高コストとなってしまうこともあります。

BPOにアウトソーシングに依頼するということはコストもかかりますが、それ以上にプロによる作業で高いパフォーマンスを発揮できるため、検討してみることもおすすめです。アウトソーシングできる作業の一例として、以下のようなものがあります。

  • 紙媒体の電子データ化・・・紙に印字または記載された文字を電子データとして取り込む
  • ワークフローシステム運用・・・帳票データなどを専用のシステムに入力する
  • システムの脆弱性診断・・・ワークフローなどのシステムに脆弱性がないかを調査
  • 業務システムの診断・・・業務効率化のためにシステムの改善箇所がないか調査
  • サポート窓口・・・電話での問い合わせに対応する各種コールセンター
  • プリンティング・・・各種帳票などの印刷、発送作業
  • eラーニング・・・eラーニングで使用する教材の作成
  • クラウドサービス・・・クラウドサービスの導入、運用、他社クラウドからのデータ移行
  • 報告業務のシステム化・・・紙媒体での手書き報告書を廃止し、専用システムを導入
  • セキュリティ対策・・・標的型攻撃から守るセキュリティ対策ソフトウェアの提供

まずは自社の業務のなかで困っていることがないか、その業務は自社での内製が可能であるかも含めて確認してみましょう。

 

ビジネス向けパッケージソフトとAPI。特徴からみる選択のポイント

OCRに限ったことではありませんが、ソフトウェアには量販店などで市販されているパッケージソフトと、APIとして提供され個別開発が可能なソフトウェアという2つの提供形態があります。それぞれのケースにおいて、どのような業種や業務に向いているのかを詳しく紹介しましょう。

パッケージソフト

メリット・・・価格が安い、導入が簡単
デメリット・・・カスタマイズが難しい、バージョンアップにコストがかかる

種類分けの図表

API

メリット・・・カスタマイズがしやすく業務に対応させやすい
デメリット・・・価格が高い、導入まで時間を要する

種類分け図表

上記のように、パッケージソフトは価格が安いというメリットがありますが、あらかじめ実装された機能以外にカスタマイズが難しいというデメリットがあります。そのため、単純に紙媒体のデータを電子化することがメインであり、自社のシステムと連携させるということが難しいです。

多くの企業では専用のシステムやツールを業務に利用していることが多いと思われるため、APIとして提供されているOCRのほうが使いやすいでしょう。

 

ビジネスに手軽に導入。APIでおこなうインテグレーション

さまざまなシステムと組み合わせ、インテグレーションシステムとして利用可能なAPIのOCR。パッケージソフトに比べて導入コストは高めですが、システムとの順応性や高い識字率を誇ります。

月額料金は帳票のフィールド数とフィールドタイプによっても変わるため、一度お問い合わせください。

 

活躍の場を広げるOCR。身近になる文字認識ソフト

フリーソフトでも満足できる文字認識機能

フリーソフトが台頭し、OCRを利用したペーパーレス化は誰でも気軽に始められるようになりました。

Googleアカウントを持っていれば利用できるGoogleドキュメントはOCRにも対応しています。使い方としては以下の通りです。

  • Googleドライブに写真またはPDFをアップロード
  • アップロードした画像またはPDFデータを右クリック→アプリで開く→Googleドキュメント

GoogleドキュメントのOCRは簡単な操作ですぐに文字データに変換され、日本語にも対応。無料で利用が可能です。

フリーソフト以外のOCRソフトとしては、国内大手で唯一Panasonicがパッケージソフト「読取革命」を販売しています。パソコンにインストールしたうえで利用しますが、フリーソフトやパッケージソフトの良いところは、個人でも手軽に導入できる点にあります。持っている書類や書籍などをデータ化することによって、いつでも調べたい情報を検索し、自分オリジナルのライブラリーを構築することができます。まずは無料で利用できるフリーソフトから試してみるのも良いと思います。

OCRの便利なアプリケーション

パソコンだけではなく、スマートフォンで利用できるOCRアプリも注目を集めています。スマホには無料・有料のどちらのアプリも存在しますが、スマホのカメラを使って実際にOCR機能を体感できる無料アプリも存在します。

スマートフォンでOCRと聞くと、あまり実用性がないように思えるかもしれません。しかし、現在紙で持っている情報や手書きのノートを調べたい時にいつでも調べられるように電子データ化しておくといった使いみちも考えられます。

 

ビジネスから日常生活まで活用が広がるOCR

AIによってOCRの識字率が飛躍的に向上した裏には、ディープラーニングとよばれる学習方法がありました。現在、RPAとよばれるロボットの業務効率化がおこなわれていますが、AIとOCR技術の発展によって産業全体がますます効率化していくとも考えられています。

OCRを利用して紙媒体からデジタル化に移行する中で、これまで紙媒体にしかなかった情報もデジタルデータとしてコンピュータに取り入れられ、さまざまな知見が集まってくることでしょう。このような大きなメリットを見越し、企業や学校もOCRを続々と業務に採用しています。

もし自社でOCRを使った業務効率化が難しいのなら、アウトソーシングするのもひとつの方法です。また、実業務との連携がしやすいAPIのソフトウェア導入もおすすめ。いずれにしても、まずは無料で利用できるOCRソフトやスマートフォン用アプリを実際に利用して、体験してみることからはじめてはいかがでしょうか。

AIを活用した文書のデータ化からDXを推進!
AI OCRを超える文書読取り&自動仕分け「SmartRead(スマートリード)」はコチラ>>