|
setup diary |
require 'net/http' Net::HTTP::new('www.google.co.jp').start{|h| puts h.get('/index.html')['set-cookie'] }として、googleにアクセスすると、
PREF=ID=***:TM=***:LM=***:S=***; expires=Tue, 30-Aug-2011 07:13:47 GMT; path=/; domain=.google.co.jpとなった。***は数字とアルファベットの列だが。このようなcookieを渡されているということだ。PREFに=以下の値を与えているのだが、値に=が含まれても良いようだ。 ここで、困っているのが、有効期限のexpiresにカンマが含まれていることだ。cookieが一つだけのときは問題無いのだが、二つ以上の場合は、上のような書式をカンマでつなぐ。これを分解するときには、カンマでsplitすれば良いはずなのだが、それだとexpiresのカンマでも区切られてしまう。expires=のすぐ後にないカンマで区切れば良いかも知れないが、書式が完全では無いcookieを返すサイトもあるだろうし、いろいろと面倒だ。 例えば、
a=aaa; expires=Tue, 30-Aug-2011 07:13:47 GMT; path=/; domain=.google.co.jp a=aaa; expires=30-Aug-2011 07:13:47 GMT, b=bbb; expires=30-Aug-2011 07:13:47 GMTというcookieを解釈する場合、上は一つの値で、下は二つの値が記述してあるが、expiresのすぐあとのカンマを無視するようにした場合、下でも一つの値しか規程していないように解釈してしまう。 rubyには、CGI::Cookie.parse(string)というmethodがあるので、これを使ってみたが、大した処理をしてくれるわけではないようで、ときどき誤った解釈をする。できれば簡単な正規表現で処理したいのだが、真面目に考えると、結構面倒なスクリプトを書かなければいけない気がする。