点及财经,股票期货专业投机者。

前言
好久没有跟大家分享爬虫了,本期准备带大家爬取生意社上面的期货基差数据。

这个网站反爬并不严重,大部分是靠ip访问频率来限制,但封了之后过段时间又能访问了,并没有禁止你本机的ip永久不能访问。

作者本期就爬取郑州 商品交易所的PTA,2011年至今的基差数据。下面我们开始吧!需要读者
安装以下包:

Python金融爬虫之生意社期货“基差”数据实战!
爬取数据的第一步是分析所爬取数据的url构造,观察其有什么规律,然后再通过requests库去发送get请求,并通过正则、xpath等等进行数据的提取。
1.设置随机请求头。
如下图所示:

其中:
(1)header["User_Agent"],设置的随机请求头,每次调用都随机抽取不同"User_Agent"来进行访问,可以避免网站请求头反爬。
2.根据请求网址结构,构造日期列表。
当我们点击下图中的搜索按钮后,网址栏的url上面就出现了搜索的具体日期,所以作者可以根据url特征构造日期加上,就可以请求任意日期的基差网页。
如下图所示:

如下图所示:

run:

构造后的url。
如下图示:

3.爬取数据。
这里需要配置微信群机器人,复制其地址放到webhook_url变量中,才能过爬取结果发送到群里。

启动爬虫:

run:
(1)基差数据推送。

(2)抓取的数据。

最后
本期就主要给大家分享了一个简单的爬虫案例,爬取过程中可能会出现ip访问频繁的问题,建议读者在请求里增加代理,这样就不会被封ip。
如果需要源码,关注我获得领取方式。
评论留言