キュレーションサイトを作ろうかな
昼間は物流系の仕事をしていてある一定の情報を集めてあるサイトを探しているのだが、中々同様の情報を扱っているサイトは見つからない。
そこで各サイトのRSSを取得して自前でキュレーションサイトのようなものを作ってみようかと色々調べている中で使えるスクレイピングサービスを見つけたので備忘録第三弾として投稿します。
- 備忘録第一弾 [WEBサービス] RSSフィードを簡単に 取得・検出するツール
- 備忘録第二弾 [perl] 複数のRSSフィードを結合するフリーCGI
RSSを配信していないサイトの更新情報をどうやって取得するか?
これが結構難儀な問題で色々調べましたね〜。
自前でPerlで作ろうかな?とか、スクレイピングツールであるoctoparseを試してみたり、海外のサービスであるFeed43というRSSを配信していないサイトからRSSを配信するURLを作成するサービスを試したりとかですね。
だけど、それぞれ時間と労力が掛かりそうで決めかねてる時に良いのが見つかりました。
その名も「Happyou Final Scraper」
なんと国産なのですが、指定されたウェブページを解析しRSSフィードを自動的に生成するサービスで、独自のパターン認識プログラムにより、ユーザによる操作なしに高品質のRSSフィード生成を可能にしています。(公式サイトより)
使い方は簡単!!
Happyou Final ScraperのトップページにあるフォームにRSSフィードに変換したいウェブページのURLを入力して解析ボタンをクリックします。
下記画像は当サイトのURLを入力して解析ボタンをクリックした後のスクリーンショットです。
「あなたのリクエストを受け付けました。数分後に以下のURLをリロードしてください。」と出て、サイトによると思いますが大体2〜3分後で十分かなと思います。
2〜3分後、RSSアイコンのURLをクリックすると当サイトの場合は下記画像のように出て来ました。
全部で6パターンのフィードが生成され、適切なフィードを選択します。
当サイトの場合は、上から2番目のフィード(赤枠部分)が投稿した記事のフィードとなります。
1番目に生成しているフィードはコメント用のフィードですね。
6パターンのフィードそれぞれにスコアが付けられていて高い数字のが良いフィードのようで、当サイトはWordpressなので1番目と2番目のフィードはWordpressで出力しているフィードなので高精度の解析をしていますね。
適切なフィードを選択
2番目のフィードのShareボタンをクリックするとTwitter、Facebook、Google+(一般向けは終了)、RSSのボタンとURLが出てきますのでURLをコピーしてRSSリーダー等に登録することでサイトの更新情報が取得する事が出来るようになります。
注意点
長期間にわたって定期的なアクセスのないRSSフィードは自動的に削除され無効になる仕様にしているようですので、十分気をつけなければなりませんね。
その場合はもう一度トップページから生成を行ってくださいとの事です。
RSSフィードを配信していないサイトはこれで決まり
これでキュレーションサイトを作成するのにRSSを取得する準備が出来たかなと。
次は併行して探していたWordpress用のRSSプラグインかな。
いくつか目ぼしいものは見つけていて、なんとか一つに絞れそうですので近日中に別記事にて投稿します。