wget

  • wgetでPDFをまるごと取得
    	例 wget -np -r -A PDF,pdf  http://www.city.otaru.hokkaido.jp/gikai/kaigiroku/honkaigi/honkaigi.htm
    	-A EXT	EXTで指定された拡張子ファイルのみ取得
    	-R EXT	EXTで指定された拡張子のファイルは取得しない
    	-np	親ディレクトリは参照しない

pdf2txt pdftotxt pdftotext

  1. CentOSにはpdfが入っていない
    • yum install poppler-utils
  2. pdftotextの使い方
    • UTF8で出力
      	pdftotext -enc UTF-8 sample.pdf sample.euc  
    • EUCで出力
      	pdftotext -enc EUC-JP sample.pdf sample.euc  
    • シフトJISで出力
      	pdftotext -enc Shift-JIS sample.pdf sample.euc 

全てのPDFをTEXTへ変換するスクリプト

  1. Perl/linuxで複数ファイルの文字コード変換を利用する。
        use File::Find;
         @ARGV = qw(.) unless @ARGV;
         find sub { push @list, $File::Find::name, -d && '/', "\n"}, @ARGV;
         chomp @list;
         foreach(@list){
                 unless($_){next;}
                 if(/^\//){next;}
    	      unless(/pdf$|PDF$/){next;}
    	      if(/(.*)(PDF|pdf)$/){$filename=$1;}
    	      $fileTxt = $filename . "txt";
                 $exe = "pdftotext -enc UTF-8 $_ $fileTxt";
    	      print "$exe\n";
                 system("$exe");
         }