簡単スクレイピング(ruby)
はじめに
簡単なrubyスクレイピングを書いてみる。(真似してみる) といっても、これをスクレイピングというのかわからない。 とりあえず抽出できた喜びを伝えたいので、記事にする。
スクレイピング
$ irb
re2.1.1 :001 > require 'nokogiri' => true 2.1.1 :002 > require 'open-uri' => true 2.1.1 :003 > doc = Nokogiri.HTML(open("http://nokogiri.org/")) 2.1.1 :004 > doc.css('a').each do |e| 2.1.1 :005 > puts e 2.1.1 :006?> end # この'a'の中身を抽出する 2.1.1 :004 > doc.css('a').each do |e| 2.1.1 :005 > puts e[:href] 2.1.1 :006?> end
こんな感じ!
参考スライド