質問

2008年11月06日 21時08分
  • PDFファイルのテキスト化ソフトウェアのおすすめは?

情シスのオープンナレッジ『Syszo』サービス終了のお知らせ

質問

社内ユーザよりPDFファイルをテキスト化でき、
なおかつ精度の高いソフトを教えてほしい、という
リクエストがありました。

情シスの上司からは「テキスト化」できるソフトを、と言われ
エンドユーザには「最終的にExcelファイルにしたい」と言われています。
これまでに、ソースネクスト社の「いきなりPDF」を使ってみたそうですが
精度に満足できないそうです。
(6と0がご認識されてしまうなど)
有料でもかまわないので、これは勧められる!というソフトを
ご存知でしたらお知らせください。

どんなソフトウェアがあるか、というのはインターネットで
調べることができますので、ここではぜひ使ったことのあるソフトで
これは便利!という、口コミ情報をいただきたいです。

用途としては、顧客からもらった書類を役所に提出する際に
若干の修正を加える(ほぼ数字の修正のみ)、というもの。
画像などを編集する必要はありません。

よろしくお願いします。

3件の回答があります

回答

「精度の高い」の意味がよくわからないのでなんともお答え
できませんが、Windows 上であれば Adobe Acrobat で満足
できなければあまりいいものは期待できないと思っていいの
ではないかと私は個人的に思います。UNIX 上でもいいなら
ば、DocCat というのがよさそうです。が、非常に高い!

http://www.dehenken.co.jp/products/products-01/products-dc01.html

上司の方がPDFをテキスト化して何をなさりたいのかをもう
少しヒアリングされた方が、他の方もお答えし易いかと思い
ます。例えばテキストだけでいいのか、図表も抽出したい
のか。はたまたPDF文書として見える状態をWordにそのまま
復元したいとか。

以下、テキスト抽出の際の注意点。テキスト文字はそのまま
データとしてあるのではなく、ベクトルフォント情報と文字
コードのセットで格納されている場合と、単にビットマップ
として格納されている場合とあります。前者は抽出後リッチ
テキストに変換することが可能ですが(但し使っているベク
トルフォントないし代替フォントを持っていることが前提)、
後者の場合には抽出後何になるかはわかりません。テキスト
抽出時に、OCRのような文字認識をしてくれる機能が備わって
いればビットマップも復元することができるのかもしれませ
んが、それについては情報を持ち合わせておりません。

お使いになった「いきなりPDF to Data EX」では、文字認識
機能があるようなので、0と6(もしかしたら8も)が誤認識し
ているというのは、そのPDFはビットマップになっているとい
うことでしょう。ビットマップデータの解像度が低い、或い
は文字サイズが小さい場合、残念ながら誤認識の確率が高く
なるのは不可避です。

以上、参考になれば幸いです。

回答

コメント(1)投稿者: ダージリン さんも指摘されていますが、おそらくPDFと言っても、画像データだけのPDFから、テキストを認識したい、と言う事であると考えましたが、それで合っていますか?
(テキストデータが埋め込まれているのであれば、それを利用すれば良いので)

そういう用途は、一般にOCR(Optical Character Reader)と呼ばれる技術を使用しています。

つまり、今回の質問としては、
「PDFが読み込み可能で、文字認識率が優れたOCRソフトはありませんか?」
と言う意味だと解釈しました。

その意味で、勤務先で使用しているのは、「e.Typist」と「読んde!!ココ」になります。使用した事はありませんが、「読取革命」も優秀だと聞いた事があります。

なお、現在は変わっているかもしれませんが、Acrobat日本語版の日本語OCRプログラムは、「読んde!!ココ」だと聞いた事があります。また、市販の日本語OCRプログラムのほとんどは、この3社のプログラムを使用していると聞いた事があります。逆に言えばOCRプログラムを現在も開発している会社は非常に少ないはずですし、この3社はOCRライブラリの外販を行っていますので、メリットも少ないと言う事だと思います。

なお、英語などヨーロッパ系の文字認識だけで良ければ「OmniPage」がお薦めです。

参考になれば、幸いです。

2008年11月07日 01時31分

回答

私の社内では AdbePDFを使っています。
テキスト化については注意が必要とアナウンスしていますが 理解できない人が居て「OCRしたけど文字検索で引っかからない」と文句を言う人が居ます。とてもじゃないですがOCRで漢字がうまく変換できるとは思えませんがね。それなのに「精度の高いやつ」といわれても無理ですね。

ただし
「顧客からもらった書類を役所に提出する際に若干の修正を加える」
というような用件ではOCRは向きません。
私のところではこういう場合には
富士ゼロックスのDocuworks6.2を使っています。PDFをDocuworks形式に変換しておくと「文字の差し込み」、「付箋」、「アノテーション」など自由に加工が出来ます。(人呼んで"改竄ツール"!)そのあとでPDFにすると元の文書と見分けが付きません。
(Docuworks6.2にはAdbePDFが付属しています)

2008年11月07日 14時34分

あなたもコメントしましょう!