tnantoka
(127 keywords)

最新日記

RSS
  • 日記はまだありません

tnantokaのお気に入り

  • tamacyaのブック tamacyaのブック
  • gacky's report gacky's report
  • 西小倉事典 西小倉事典
  • 里香のブック 里香のブック

tnantokaのメンバー

  • 西小倉パンデイロ 西小倉パンデイロ
  • なおき なおき
  • gacky gacky
  • tamasally tamasally

PDF,Wordからテキスト抽出の履歴

よいまとめ?
http://ubiquitous-learning.jp/labo/download/manual/linux/lin...

PDF

xpdfのpdftotextが定番らしい

pdftotext -v
pdftotext version 0.16.4
入ってた

今はpoppler(-utils)っていう名前らしい
http://fiasco.ddo.jp/blog/2009/02/pdf.html

http://www.altus5.co.jp/wordpress/tips/pdf-extract-text/
PDFBoxっていうApacheプロジェクト(なのでJava)もある。

http://www.clear-code.com/blog/2010/8/2.html
1年前の記事。新しい。

http://opencae.my-sv.net/pctips/?PDF+%A4%F2+HTML+%A4%CB%CA%D...
GMailに送りつける。
これは新しいんじゃないかと思うけど怒られるのでやめよう。

ps2asciiってのも使えるみたい
http://blog.goo.ne.jp/nobody123/e/ea44ba35bc3023f1a8c0e6d0a9...

$ ps2ascii -v
GPL Ghostscript 9.01 (2011-02-07)
Copyright (C) 2010 Artifex Software, Inc. All rights reserved.

入ってた



試してみる。

sudo apt-get install poppler-utils
already newer

http://www.mext.go.jp/a_menu/shotou/clarinet/003/001/013.pdf
でやると勝手に日本語だけを取ってきた(おそらく中国語を認識できてない)

http://www.mext.go.jp/a_menu/shotou/clarinet/003/001/013.pdf
失敗するときはcmapなるものを入れるらしい



Word

abiwordってやつがいいらしいけど、CUIでインストールできる気がしない
apt-getで入れれるらしいのでcentでも大丈夫っぽい

Excel

gnumericに入っているssconvertってやつでできるっぽい。
sourceからインストール

https://github.com/Kimtaro/node-abstract-mecab/tree/master/l...
これ風にnodeでwrapper作ったら今後楽かも

また後で。