PDF,Wordからテキスト抽出
4pt
よいまとめ?
http://ubiquitous-learning.jp/labo/download/manual/linux/lin...
PDF
xpdfのpdftotextが定番らしい
pdftotext -v
pdftotext version 0.16.4
入ってた
今はpoppler(-utils)っていう名前らしい
http://fiasco.ddo.jp/blog/2009/02/pdf.html
http://www.altus5.co.jp/wordpress/tips/pdf-extract-text/
PDFBoxっていうApacheプロジェクト(なのでJava)もある。
http://www.clear-code.com/blog/2010/8/2.html
1年前の記事。新しい。
http://opencae.my-sv.net/pctips/?PDF+%A4%F2+HTML+%A4%CB%CA%D...
GMailに送りつける。
これは新しいんじゃないかと思うけど怒られるのでやめよう。
ps2asciiってのも使えるみたい
http://blog.goo.ne.jp/nobody123/e/ea44ba35bc3023f1a8c0e6d0a9...
$ ps2ascii -v
GPL Ghostscript 9.01 (2011-02-07)
Copyright (C) 2010 Artifex Software, Inc. All rights reserved.
入ってた
試してみる。
sudo apt-get install poppler-utils
already newer
http://www.mext.go.jp/a_menu/shotou/clarinet/003/001/013.pdf
でやると勝手に日本語だけを取ってきた(おそらく中国語を認識できてない)
※失敗するときはcmapなるものを入れるらしい
Word
abiwordってやつがいいらしいけど、CUIでインストールできる気がしない
apt-getで入れれるらしいのでcentでも大丈夫っぽい
Excel
gnumericに入っているssconvertってやつでできるっぽい。
sourceからインストール
https://github.com/Kimtaro/node-abstract-mecab/tree/master/l...
これ風にnodeでwrapper作ったら今後楽かも
また後で。
「PDF,Wordからテキスト抽出」について友人に書いてもらう。
コメントはまだありません