[質問] PDFファイルのテキスト化ソフトウェアのおすすめは？

Myフィード
PDFファイルのテキスト化ソフトウェアのおすすめは？

質問

社内ユーザよりPDFファイルをテキスト化でき、
なおかつ精度の高いソフトを教えてほしい、という
リクエストがありました。

情シスの上司からは「テキスト化」できるソフトを、と言われ
エンドユーザには「最終的にExcelファイルにしたい」と言われています。
これまでに、ソースネクスト社の「いきなりPDF」を使ってみたそうですが
精度に満足できないそうです。
（6と0がご認識されてしまうなど）
有料でもかまわないので、これは勧められる！というソフトを
ご存知でしたらお知らせください。

どんなソフトウェアがあるか、というのはインターネットで
調べることができますので、ここではぜひ使ったことのあるソフトで
これは便利！という、口コミ情報をいただきたいです。

用途としては、顧客からもらった書類を役所に提出する際に
若干の修正を加える（ほぼ数字の修正のみ）、というもの。
画像などを編集する必要はありません。

よろしくお願いします。

2008年11月06日 21時08分

マリノス

参考になった 0

お気に入り 0

3件の回答があります

回答

「精度の高い」の意味がよくわからないのでなんともお答え
できませんが、Windows 上であれば Adobe Acrobat で満足
できなければあまりいいものは期待できないと思っていいの
ではないかと私は個人的に思います。UNIX 上でもいいなら
ば、DocCat というのがよさそうです。が、非常に高い！

http://www.dehenken.co.jp/products/products-01/products-dc01.html

上司の方がPDFをテキスト化して何をなさりたいのかをもう
少しヒアリングされた方が、他の方もお答えし易いかと思い
ます。例えばテキストだけでいいのか、図表も抽出したい
のか。はたまたPDF文書として見える状態をWordにそのまま
復元したいとか。

以下、テキスト抽出の際の注意点。テキスト文字はそのまま
データとしてあるのではなく、ベクトルフォント情報と文字
コードのセットで格納されている場合と、単にビットマップ
として格納されている場合とあります。前者は抽出後リッチ
テキストに変換することが可能ですが（但し使っているベク
トルフォントないし代替フォントを持っていることが前提）、
後者の場合には抽出後何になるかはわかりません。テキスト
抽出時に、OCRのような文字認識をしてくれる機能が備わって
いればビットマップも復元することができるのかもしれませ
んが、それについては情報を持ち合わせておりません。

お使いになった「いきなりPDF to Data EX」では、文字認識
機能があるようなので、0と6（もしかしたら8も）が誤認識し
ているというのは、そのPDFはビットマップになっているとい
うことでしょう。ビットマップデータの解像度が低い、或い
は文字サイズが小さい場合、残念ながら誤認識の確率が高く
なるのは不可避です。

以上、参考になれば幸いです。

2008年11月06日 21時37分

ダージリン

参考になった 0

回答

コメント（1）投稿者：ダージリン　さんも指摘されていますが、おそらくPDFと言っても、画像データだけのPDFから、テキストを認識したい、と言う事であると考えましたが、それで合っていますか？
（テキストデータが埋め込まれているのであれば、それを利用すれば良いので）

そういう用途は、一般にOCR(Optical Character Reader)と呼ばれる技術を使用しています。

つまり、今回の質問としては、
「PDFが読み込み可能で、文字認識率が優れたOCRソフトはありませんか？」
と言う意味だと解釈しました。

その意味で、勤務先で使用しているのは、「e.Typist」と「読んde!!ココ」になります。使用した事はありませんが、「読取革命」も優秀だと聞いた事があります。

なお、現在は変わっているかもしれませんが、Acrobat日本語版の日本語OCRプログラムは、「読んde!!ココ」だと聞いた事があります。また、市販の日本語OCRプログラムのほとんどは、この３社のプログラムを使用していると聞いた事があります。逆に言えばOCRプログラムを現在も開発している会社は非常に少ないはずですし、この３社はOCRライブラリの外販を行っていますので、メリットも少ないと言う事だと思います。

なお、英語などヨーロッパ系の文字認識だけで良ければ「OmniPage」がお薦めです。

参考になれば、幸いです。

2008年11月07日 01時31分

しと

参考になった 0

回答

私の社内では　ＡｄｂｅＰＤＦを使っています。
テキスト化については注意が必要とアナウンスしていますが　理解できない人が居て「ＯＣＲしたけど文字検索で引っかからない」と文句を言う人が居ます。とてもじゃないですがＯＣＲで漢字がうまく変換できるとは思えませんがね。それなのに「精度の高いやつ」といわれても無理ですね。

ただし
「顧客からもらった書類を役所に提出する際に若干の修正を加える」
というような用件ではＯＣＲは向きません。
私のところではこういう場合には
富士ゼロックスのＤｏｃｕｗｏｒｋｓ６．２を使っています。ＰＤＦをＤｏｃｕｗｏｒｋｓ形式に変換しておくと「文字の差し込み」、「付箋」、「アノテーション」など自由に加工が出来ます。（人呼んで"改竄ツール"！）そのあとでＰＤＦにすると元の文書と見分けが付きません。
（Ｄｏｃｕｗｏｒｋｓ６．２にはＡｄｂｅＰＤＦが付属しています）

2008年11月07日 14時34分

desato

参考になった 0

PDFファイルのテキスト化ソフトウェアのおすすめは？【解決済み】

質問

3件の回答があります

回答

回答

回答

あなたもコメントしましょう！

PDFファイルのテキスト化ソフトウェアのおすすめは？ 【解決済み】

質問

3件の回答があります

回答

回答

回答

あなたもコメントしましょう！

ログインしてコメントをしませんか？

PDFファイルのテキスト化ソフトウェアのおすすめは？【解決済み】