WWW::Mechanize::Cachedのメモ

前回の続き。
って言うのも、スクリプト実行中で暇なので。

って思ったら、終わった。
スクリプトの実行は、こんな感じでやったんだけど、
今、どこをgetしてるのか出力することにした。

$ perl scraping.pl > result.txt

でも、こんな感じで出力先をファイルにしたら、表示されなくて困った。
こういう場合は、sayじゃなく、warnを使えば解決。

あと、キャッシュ先がファイルだと、2回目はあっというま。
当たり前ではあるけど、これは便利。

次に、末端ページの内容を出力してみる。

say $w->content();

もともと、どういう手順で辿ってきたのか分からないので、
これだけじゃ、どの住所に対するゴミカレンダーかさっぱり。

ふーむ。。。

今度は、どこをgetしてるのか出力する代わりに、
どのリンクを辿っているのか出力してみる。

getをする前に、こういうのを入れるとaタグで括られた文字列が分かる。

ソースの上の方で。
use Encode;

$w->get( ... );の前に。
warn '# ' . $link->text();
warn '## ' . $link->text();

うーん、これ、結構な行数ありますね。

続きは、明日(6/18)のHokkaido.pm Casualで!
http://atnd.org/events/52188

おしまい。

Leave a Comment