kotaoueはそんな感じ: HTMLからフィードをぶっこ抜く using Yahoo!Pipes

今日の、Yahoo!Pipesは、フィードを出してないサイトの最新情報とかをもらっちゃおうというネタ。

今回ターゲットにしたのは、TRANSFORMERS GENERATION ONE　タカラトミー　トランスフォーマー公式サイト！！


　　　　　　 ＿＿＿_＿＿
　　　　　　／　 　 ／　＿　 ＼
　　　　　　ｌ　　　 /　∠／　 　ﾍ
　　　　　/　 　 ／　 　 　 　 　 ﾍ
　　　　/　　 ／　　　 　 　 　 　 ﾍ
　　　　ｌ＿＿ｌ＿＿＿＿＿　　　／ﾍ
　　　　VVVVVVVVVV　／＼／　 ﾍ
　　　　　vvvvvvvvv／　／,' 　 　 　 ﾍ
　　　　　＼＿＼＿　／ヽ　　　　 　 　 ﾍﾍ ,ヘ
　　　　　　　　　　| 　 　 　 ヽ 　 　 　 　／ﾍ／ﾍ
　　　　　　　　　　|　　　　　　ヽ　　 　／ 　 ﾍ／ﾍ
　　　　　　　　　　|　　　　　　　ヽ　／　 　 　 ﾍ　ヽ
　　　　　　　　　　|─────|／　　　 　 　 ﾍ　ヽ
　　　　　　 　 　 /　　　　　　　/　　　　　　　 　 ﾍ　ヽ
　 　 　 .＿＿＿|ーーーーー | 　 　 γヽ＿＿＿ﾍ　ヽ
　　　　/　 　 　 |　.-､＿,--,　|　 　 //　　　　　 / )／ヽ
　　　 / /￣/￣|　ｌΞ廿Ξｌ　.|　 　 ヽヽ￣￣/ /　/＼／
　 ＿/ /　/　　 |　 L 冖 」　　| 　 　 　 　 ＿/ /　/ヽ
　/////／ 　 　|　 　￣　　 　|　　 　 　 /////／　 ヽ
　ヽヽヽ 　 　 　 |―――――| 　 　 　 　ヽヽヽ　　　 ヽ

で出来上がったのが、トランスフォーマー公式サイト最新情報フィード

あとは、Pipes: TRANSFORMERS by TAKARA TOMYの詳細を上から順に説明してみる。
見たい人だけ勝手にソース見てね。

Fetch Pageは、Webページのデータを持ってくるモジュール。
from から Toまでの間をデータとして持ってくるので、もとのWebページのソースを見て、ほしいデータがあるところの前後のタグを適当にチョイス。
Split using delimiterで項目を分けるので、必要なデータが、<li>とかで分かれてると凄く楽。
分かれてないと時は、仕方ないので、<a>タグで分ける orz
※200KB超えるサイズと、robots.txtでインデックス制御されてるページのデータは取れない。
Renameモジュール使って、titleとlinkに情報をコピー
Regexモジュールはその名のとおり正規表現のためのモジュール。
ここで、いろいろごにょごにょして、フィードに要らない情報をこそぎ落とす。
※正規表現はPerlの文法。チェックボックスの g m c iも正規表現の修飾子
フィードの本文作るためにもう一度Rename使って、titleをdescriptionにコピー。
※今回は、手抜きして本文とタイトルの内容を一緒にしちゃう。
Filterを使って、差必要ないデータを取っ払ってやる。

これで完成！！
後は、ページのつくりによって微調整すればOKって感じだね。

まだまだPipes楽しい機能あるので、ちょいちょいいじっていきます。

P.S. 200KB超えるとかrobots.txtとかで制御されてるページは、PHPとかRubyでHTTPリクエストして、自分のWebサイトにでも一旦保存してやれば取得できるような気がするけど、著作権的にNGっぽい気がするから、やらない。


押すなよ絶対押すなよ！
　　　　_γ⌒ヽ 　
　　　　（´Д｀*）　
　　　　　Ｕ Ｕヽ 　,,,,,,,,,,,,,　ノﾉﾊヾ
　　　　　しーＪ　（´∀｀ ）（・∀・ ）　ﾝｰｯ
|～～～|￣￣|⊂| ⊂ |　と　と .）
|＿＿＿|　　　￣ し-Ｊ　　し-Ｊ

kotaoueはそんな感じ

2009年10月8日

HTMLからフィードをぶっこ抜く using Yahoo!Pipes

0 件のコメント:

自己紹介

このブログを検索

ブログアーカイブ

カテゴリ

そんなコメント

気になっている事

フォロワー

link

マイブログリスト