篇幅有限
完整内容及源码关注公众号:ReverseCode,发送 冲
题目
http://match.yuanrenxue.com/match/3
抓取下列5页商标的数据,并将出现频率最高的申请号填入答案中
抓包
分析
http://match.yuanrenxue.com/match/3 请求原始网页后请求一堆js/css,并没有携带cookie和特殊的返回
http://match.yuanrenxue.com/logo 每次请求页数的时候都会先请求logo并set了一个cookie,说明cookie是从服务器返回的
http://match.yuanrenxue.com/api/match/3 请求返回页面json数据,携带logo返回的cookie
没有带cookie不能访问http://match.yuanrenxue.com/api/match/3
使用请求头加引号.py
将fiddler的请求头包上
请求头加引号.py
python
1 | import re |
加上cookie使用python请求抓取返回一堆js代码,因为cookie是由服务器生成的,所以这一段返回的js没有意义
python
1 | headers = { |
爬虫
规律:请求完logo后再请求api则正常返回,同理请求第二页
python
1 | session = requests.session() |