質問
「精度の高い」の意味がよくわからないのでなんともお答え
できませんが、Windows 上であれば Adobe Acrobat で満足
できなければあまりいいものは期待できないと思っていいの
ではないかと私は個人的に思います。UNIX 上でもいいなら
ば、DocCat というのがよさそうです。が、非常に高い!
http://www.dehenken.co.jp/products/products-01/products-dc01.html
上司の方がPDFをテキスト化して何をなさりたいのかをもう
少しヒアリングされた方が、他の方もお答えし易いかと思い
ます。例えばテキストだけでいいのか、図表も抽出したい
のか。はたまたPDF文書として見える状態をWordにそのまま
復元したいとか。
以下、テキスト抽出の際の注意点。テキスト文字はそのまま
データとしてあるのではなく、ベクトルフォント情報と文字
コードのセットで格納されている場合と、単にビットマップ
として格納されている場合とあります。前者は抽出後リッチ
テキストに変換することが可能ですが(但し使っているベク
トルフォントないし代替フォントを持っていることが前提)、
後者の場合には抽出後何になるかはわかりません。テキスト
抽出時に、OCRのような文字認識をしてくれる機能が備わって
いればビットマップも復元することができるのかもしれませ
んが、それについては情報を持ち合わせておりません。
お使いになった「いきなりPDF to Data EX」では、文字認識
機能があるようなので、0と6(もしかしたら8も)が誤認識し
ているというのは、そのPDFはビットマップになっているとい
うことでしょう。ビットマップデータの解像度が低い、或い
は文字サイズが小さい場合、残念ながら誤認識の確率が高く
なるのは不可避です。
以上、参考になれば幸いです。
コメント(1)投稿者: ダージリン さんも指摘されていますが、おそらくPDFと言っても、画像データだけのPDFから、テキストを認識したい、と言う事であると考えましたが、それで合っていますか?
(テキストデータが埋め込まれているのであれば、それを利用すれば良いので)
そういう用途は、一般にOCR(Optical Character Reader)と呼ばれる技術を使用しています。
つまり、今回の質問としては、
「PDFが読み込み可能で、文字認識率が優れたOCRソフトはありませんか?」
と言う意味だと解釈しました。
その意味で、勤務先で使用しているのは、「e.Typist」と「読んde!!ココ」になります。使用した事はありませんが、「読取革命」も優秀だと聞いた事があります。
なお、現在は変わっているかもしれませんが、Acrobat日本語版の日本語OCRプログラムは、「読んde!!ココ」だと聞いた事があります。また、市販の日本語OCRプログラムのほとんどは、この3社のプログラムを使用していると聞いた事があります。逆に言えばOCRプログラムを現在も開発している会社は非常に少ないはずですし、この3社はOCRライブラリの外販を行っていますので、メリットも少ないと言う事だと思います。
なお、英語などヨーロッパ系の文字認識だけで良ければ「OmniPage」がお薦めです。
参考になれば、幸いです。
私の社内では AdbePDFを使っています。
テキスト化については注意が必要とアナウンスしていますが 理解できない人が居て「OCRしたけど文字検索で引っかからない」と文句を言う人が居ます。とてもじゃないですがOCRで漢字がうまく変換できるとは思えませんがね。それなのに「精度の高いやつ」といわれても無理ですね。
ただし
「顧客からもらった書類を役所に提出する際に若干の修正を加える」
というような用件ではOCRは向きません。
私のところではこういう場合には
富士ゼロックスのDocuworks6.2を使っています。PDFをDocuworks形式に変換しておくと「文字の差し込み」、「付箋」、「アノテーション」など自由に加工が出来ます。(人呼んで"改竄ツール"!)そのあとでPDFにすると元の文書と見分けが付きません。
(Docuworks6.2にはAdbePDFが付属しています)
質問
社内ユーザよりPDFファイルをテキスト化でき、
なおかつ精度の高いソフトを教えてほしい、という
リクエストがありました。
情シスの上司からは「テキスト化」できるソフトを、と言われ
エンドユーザには「最終的にExcelファイルにしたい」と言われています。
これまでに、ソースネクスト社の「いきなりPDF」を使ってみたそうですが
精度に満足できないそうです。
(6と0がご認識されてしまうなど)
有料でもかまわないので、これは勧められる!というソフトを
ご存知でしたらお知らせください。
どんなソフトウェアがあるか、というのはインターネットで
調べることができますので、ここではぜひ使ったことのあるソフトで
これは便利!という、口コミ情報をいただきたいです。
用途としては、顧客からもらった書類を役所に提出する際に
若干の修正を加える(ほぼ数字の修正のみ)、というもの。
画像などを編集する必要はありません。
よろしくお願いします。