hagetak's blog

どうも、はげたかです。

簡単スクレイピング(ruby)

はじめに

簡単なrubyスクレイピングを書いてみる。(真似してみる) といっても、これをスクレイピングというのかわからない。 とりあえず抽出できた喜びを伝えたいので、記事にする。

スクレイピング

$ irb

re2.1.1 :001 > require 'nokogiri'
 => true 
2.1.1 :002 > require 'open-uri'
 => true 
2.1.1 :003 > doc = Nokogiri.HTML(open("http://nokogiri.org/"))

2.1.1 :004 > doc.css('a').each do |e|
2.1.1 :005 >     puts e
2.1.1 :006?> end

# この'a'の中身を抽出する

2.1.1 :004 > doc.css('a').each do |e|
2.1.1 :005 >     puts e[:href]
2.1.1 :006?> end

こんな感じ!

参考スライド