質問

2016年09月13日 15時38分
  • 日本語認識でお勧めのOCRを教えてください!

情シスのオープンナレッジ『Syszo』サービス終了のお知らせ

質問

過去にも似たような投稿がありましたが、今回は日本語が得意なものということで改めて投稿いたしました。

何百枚もある契約書や請求書などの紙データの文字データ化で
お勧めのOCRや、その他のソリューションがありましたら教えてください。

金額は多少張っても問題ありません。

皆様のおすすめや、利用されたことのあるOCRのレビュー等お教えいただけましたら幸いです。

14件の回答があります

回答

契約書や請求書、手書きなのか印刷された文字なのかにもよると思いますが…

前にAcrobat Pro DCでOCR機能を用いたときは、手書きの文字が悉く日本語以外の言語に読み取られて苦い経験をした思い出があります。(ワープロで出力されたものは普通に変換されました)

2016年09月13日 18時14分

回答

どうもそういうニーズがよくわからないですね
契約書をOCRしてどうするのでしょうか? 「スキャンしてPDFで保存する」ならわかりますが、契約書をデータに変換しても”契約書としての価値はない”ので紙の契約書を捨てることはできません

請求書は書式をしっかり決めればOCRでデータ化して支払いにつなぐことはできます。でも、各社からのバラバラの請求書ではOCRにしても誤読で苦労するだけです
下手をすれば 1,000を11000と読んでしまって払い過ぎなんてことも。

昔、私もOCRで苦労しましたが、今でも文字認識で劇的に進化はしていないでしょう。それにレイアウト認識は難しいことなので各社からのバラバラの請求書をパッと読めるようには成っていないでしょう。

契約書と請求書では条件がかなり違うので別々に考えたほうがいいかもしれません。
契約書を読むなら”Scansnap(自炊(本を電子書籍に変換する)用のツール)”が使えるかもしれません(印刷物だったらよいですが、手書きは無理です)

もうすこし詳しく目的がわかればコメントできるかもしれません

2016年09月13日 18時56分

回答

既に下記はお読みですが?

現在、日本語OCRソフトを販売・開発しているのは「パナソニック ソリューションテクノロジー株式会社」「メディアドライブ」の2社だけだったはずです。より高価な法人向け製品もあったはずですので、問い合わせるとデモなどをしてくれるはずです。

比較2016' 現行の日本語OCRソフト3機種の性能とおすすめ: 家電批評モノマニア
http://syszo.com/detail.php?id=33397

それ以外では、海外OCRソフトも日本語対応が進んでいるので「Abbyy は結構いける」と聞いた事があります。
比較2016' 英語OCRソフトの変換精度とおすすめ・格安購入法:家電批評モノマニア
http://monomania.sblo.jp/article/60557041.html

製品ではありませんが、今後の方向性がわかる記事があったので紹介します。

認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた - BITA デジマラボ
https://bita.jp/dml/reactive_int

※OCR は、画像ファイルを検索する際のガイド(画像PDFへOCR結果を埋め込んで検索出来るようにする)としては十分だと思います。しかし、精度を求めようとすると、人力で入力した方が速くて正確である、のが現実です。

2016年09月13日 20時38分

回答

認識率とコスパで、富士ゼロックスのドキュワークスしかないでしょ。

回答

>契約書や請求書などの紙データの文字データ化
検索したいだけか、特定の項目を抜き出してたいのかにもよるのでは?

検索したいだけならAdobeで十分だと思います

2016年09月15日 09時16分

回答

以前、役員の方の個人的な雑誌のOCR化で相談されたことがあり、結構調べた上、さまざまな検証もしたのでシェアします。1年間ぐらいですが…
一旦PDFやスキャンする前提です。よかった順に並べます。

AdobeAcrobat…以下製品の中で一番よい。画像内の文字も一部読み取れる。
ABBYY FineReader…一括変換可能だが、少々Acrobatに劣る
etypist…安価でなかなかのパフォーマンス、しかし一部読み取れない文字あり
DocuWorks…文字は読み取れるが、文字の大きさの認識レベルが低い

その他、OCRの機器…高価。帳票など、形式が定まっているものは使えるが、そうでないものの読み取りはできないとのこと

もし帳票の形式が決まっているなら、専用の機器でも可能かと思いますが、
そうでないものは、結構微妙です。PCの文字ならまだしも手書き文字はかなり厳しいです。
AdobeAcrobatだと、エクセルを「PDFで保存」したものは、そのままの形式でExcelにできますし、Wordファイルも同様にできて、かなりびっくりした記憶があります。
私が検証したのは、雑誌に対してなので、ケースによっては、多少異なるかも知れません。

ご参考まで。

2016年09月15日 15時16分

回答

回答を下さった皆さま

ご回答ありがとうございました。
OCRといってもその元の形式や読み取りたい情報によって
利用する手段も変わってくるということを含め、勉強になりました。

ユーザー側にもう少しヒアリングしつつ、
おすすめいただいたソフトウェア等を検討してみます。

2016年09月23日 10時21分

回答

おくらばせながら
コニカミノルタのDispatcher Phoenixに注目してます。
http://www.konicaminolta.jp/business/products/software/document_management/dispatcher_phoenix/index.html

使ったことはありませんが、単なるOCRではなさそうです。

回答

ユーザのいうことをそのまま実現しようとするのは”悪いSE”です
 へたをすると何百・何千万円を無駄遣いします
”良いSE”ならユーザの求めている真意をつかんでそれを実現するでしょう
 「何百枚もある契約書や請求書などの紙データの文字データ化」とユーザは言ったかもしれませんが、それをかみ砕いて、たとえば
・契約書はスキャナーでPDFにする 検索に便利なようにいくつかのキーワードを埋め込む。
・請求書は担当が端末から入力して、その上司が承認入力する、経理担当が最終確認して、支払いシステムにデータを流し込み、全銀手順で口座に入金する。
というようにシステム案を作ります。(この例ではOCRなんて出てきません)

OCRなんて活字を読ませてもフリーのレイアウトなら10%くらいは誤読します。
バサッと読ませて”はい おしまい”などということは無理です。
手書き伝票でOCRをやりたいのなら郵便番号みたいにドロップアウト枠を設けてそこを読ませるようにしないと実用にならないでしょう。
(どなたか「そんなことはない フリーレイアウトでバサッと読ませて 99%読むシステムがある」なら是非、教えてほしいです)
(実は郵便番号読み取りはもっと進歩していて オレンジのドロップアウト枠がなくても”そのあたりに郵便番号らしいものがあれば郵便番号として読み取ってみる” ということまでやってくれます)

2016年09月24日 00時18分

回答

昨今はAI(人口知能)が盛んに話題になりますが AIを利用したOCRってないのでしょうか

GoogleさんはAIでいろいろな情報を駆使して最適のものを候補として出してくれるくらいだからできそうな気もしますが...

でも 機関銃と狙撃用ライフルの違いみたいなもので「数打てばあたるかもしれないが、一発打ちをしてもあたらない」のかもしれません

2017年08月05日 23時46分

回答

昨今はAI(人口知能)が盛んに話題になりますが AIを利用したOCRってないのでしょうか

2016年09月13日 20時38分 のコメントで紹介した下記情報が近いのでは?と思われます。

認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた - BITA デジマラボ
https://bita.jp/dml/reactive_int

2017年08月07日 20時06分

回答

おお しと さまのコメントがキター!

まぁAIを使ったOCRならはじめは認識率が低くてもだんだん高くなりそうですし、文章認識も加えるとさらによくなりそうですね。

もっとも私は ”認識率”っていうのをあまり信用しませんです。 OCRはいくつも検討しましたが”認識率99.8%”などとうたっているものほど、実際には誤読が多いなんてこともあったようななかったような。

OCRはレイアウト認識(どの場所に文字があるか)が重要ですがAIでこの点も学習されていくといいですね。

2017年08月07日 21時25分

回答

まぁAIを使ったOCRならはじめは認識率が低くてもだんだん高くなりそうですし、文章認識も加えるとさらによくなりそうですね。

ビジネス的な流れでいくと、「OCR」はおまけで「画像認識」というキーワードの中のニッチな一部なのでしょうね。

もっとも私は ”認識率”っていうのをあまり信用しませんです。 OCRはいくつも検討しましたが”認識率99.8%”などとうたっているものほど、実際には誤読が多いなんてこともあったようななかったような。

結局は100%にならない限りは無理なんでしょうね。どこかの大企業が本気でOCRに取り組んでもらわないと無理なんでしょうね。

OCRはレイアウト認識(どの場所に文字があるか)が重要ですがAIでこの点も学習されていくといいですね。

レイアウトの問題もありますね。段組とかがあったり、画像を回り込むように文字がレイアウトされているなど苦手な分野はありますね。この様な部分も含めて、AIでの学習をどこかが実施していけば、どこかでブレークスルーが来そうな気がします。

2017年08月08日 13時40分

回答

どこかの大企業が本気でOCRに取り組んでもらわないと無理なんでしょうね。

すでに大企業が本器で取り組んでいますが 数字だけでも認識率100%にはいかないです。(例 郵便番号はドロップアウト枠がついての数字だけですけど、機械の横には人間がついていて判別不可能な場合は手入力しています)

ウチもOCRはかなり使い倒しましたが、今ではバーコードかキー入力に代わりました。(バーコードはプレプリントした伝票じゃないとダメですが、時代が進んでプレプリント伝票が世間で当たり前になったから導入できました。 今では誰でもキー入力ができるので実務としてのキー入力にも支障がなくなり導入できました。いずれも20年前では無理だったと思います。)

スレッド元の「契約書や請求書」をさっと読んで文字変換するのは(実用になるかというと)無理だと思います。 もしそれを実現するなら AI3 しかないかなとも思います。

2017年08月08日 14時25分

あなたもコメントしましょう!