続、PDFからのテキスト抽出

いろいろ調べてみるとどうやらitextではテキストの抽出は無理っぽいようなことがあるサイトに書いてあった。しかし英語のサイトで自動翻訳だからちょっぴり怪しい。

しかし、他の方法を探してみると今度はPDFboxなるPDF操作のJavaAPIを発見する。
これはどうやらテキストの抽出が出来るようである。
ただ日本語が抜き出せないらしいんでやっぱり改造がいるかな・・・・

アドビのリファレンスに手を出すのも時間の問題だな orz