質問

2014年01月28日 10時27分
  • 紙媒体をデータ化する方法

情シスのオープンナレッジ『Syszo』サービス終了のお知らせ

質問

業務を効率化・正確化するため
紙媒体を一旦データ化し、自社フォーマットに反映する方法を探しております。
スキャンする方法・ツールの機能等ご紹介ください。
よろしくお願いいたします。

【具体的な業務の流れ】
・病院(不特定多数)からFaxで送られてくる領収書を、
 自社フォーマットの請求書に手打ち入力している。
・特定のあて先に複数領収書があった場合は
 月ごとにまとめた総額を請求書に入力している。

【求めるツール】
・送られたFaxに記載された情報をデータ化し、
 自社フォーマットに反映させることができる。

以上です。
よろしくお願いいたします。

3件の回答があります

回答

ウチも各社の様式で来る伝票を扱ってますが、結局はパンチャー(データエントリ者)によって手打ちをしています。 なんといっても柔軟性は人間に勝るものはありませんから...
領収書なら項目として 日付、相手、病院、金額、仔細、...くらいのものでしょう。パンチャー入力でも大した事はありません。
ウチのパンチャーは横目で世間話しながら凄まじいスピードで入力してゆきます。間違いを防ぐためにダブルパンチ(2名で同じ伝票を入力して照合し差異があったら修正する)をやっています。

OCR(光学文字読み取り)が使えるのは”こちらが指定した書式にOCR用に意識して手書きされた伝票”だけです。 不特定多数から来る種々の伝票をサッと読んで決まった項目に自動入力するのは不可能だと思います。
印刷文字や手書き(それも走り書き)が混じっているような文書はスキャナーで読んでも誤読が多くて、結局は人間が目で見て判定しなければならず、それくらいなら最初から手打ちしたほうが早いですよ。

2014年01月28日 10時55分

回答

(1)のコメントでも書かれておられますように、
ご希望を叶えるのは難しいかも知れませんね。

私は、スキャンによるデータ化を諦めた者です。

さきほどネットで調べてみると最新のOCRソフトで、0.01%の
誤認識という広告がありました。これはその会社によると業界でも
ダントツの性能だそうです。

とりあえずこれが最高性能だとして鵜呑みにすると、
10000字に1文字の誤認識、つまり間違いになりますね。
1枚の伝票が50文字くらいだと仮定すると、200枚の伝票につき
1文字の間違いになります。実際にはもう少し精度は落ちると
思いますので、数十枚に1枚、1文字間違いのある伝票が出てくる
可能性がありそうです。数十枚に1枚の入力ミスをする人は
雇えませんね。こちらも、これをうまく見つけて修正する自信が
無かったので、OCRは採用しませんでした。

その結果、手入力で対応しています。
本当は自動でデータ化して楽したいのですけれど。

2014年01月29日 08時51分

回答

最新のOCRソフトで、0.01%の誤認識という広告がありました。
・実はこのケースの場合は OCRの認識率が高いだけでは解決できません。
おそらく数種〜何十種類の伝票形式があるでしょうから、どの位置に何が(金額、費目、...)書いてあるかがわからないとデータベースへの入力になりません。 一般には伝票種類ごとにフィールド位置指定をすることで解決できますが、伝票種類をどうやって区別するかの問題があります。 これも一般には伝票IDを左上の指定位置に入れたりして判定させるのですが、今回は伝票IDは入っていませんから無理です。
・”伝票全体の配置をパターン化して種別を判定する”という技術がどこかにはありそうですが不特定多数の病院からでは種類が多すぎて、うまく機能するか疑問です。
・相手名称や病院名はゴム印のことが多いと思いますがゴム印の書体はOCRは最も苦手で90%は誤読します。むしろ画像として取り込むというのがどこかのソフトにあったように思います。
・どうしてもOCRにしたいのなら FAXの領収書書式をOCR書式に決めてもらって統一する という必要があるでしょう(FAX注文ではよくある手法です)
#実は私も社内伝票のパンチ入力やOCR伝票、FAXOCR注文のシステムではかなり苦労しましたので、その経験からの言です。

ところでいっその事、各病院からは”請求金額をデータでもらう”ということはできないでしょうか 今どき、どこの病院もパソコンがあるでしょうから「データでください」のほうが簡単かもしれませんよ。

2014年01月29日 10時16分

あなたもコメントしましょう!