第一只爬虫

诞生

最近做一个猪八戒网相关的项目,想分析一下上面的服务商,因此想到了抓取一些数据作为输入。 第一次写爬虫程序,花了两天时间调试,昨天晚上终于跑起来了。过程中遇到了反爬虫程序(猪八戒云盾),以为跑不下去了,谁知道按照scrapy的官方指导,配置禁用cookie与延迟3秒下载,就过去了。 从昨晚到现在,还正常工作着呢,到现在才爬来8K+的页面,估计还得爬到今晚。 昨晚很担心会被反爬虫程序禁用访问,做梦还梦到程序终止了,今早起来看还正常运行,看来猪八戒云盾效果一般。

效果

可以爬服务商基本信息以及交易历史数据(全部是官方公开的哦),代码托管在bitbucket