Scrapy框架开发爬虫流程

2018-03-04

准备好chrome,便于查看Xpath地址

配置好Pycharm,将Scrapy内置其中

开发前期工作

利用Scrapy内置shell命令抓取整个网站镜像
1
scrapy shell http://nc.ganji.com/fang5/
利用view(response)查看抓取下的网站是否与原网站相符

进入chrome的开发者工具中

找到想要抓取的item右键选择检查,可以看到该item的html信息
在其html信息位置再次点击右键,选择Copy Xpath
回到终端,利用response.xpath().extract()检查抓取到的内容是否符合要求
1
2
3
> response.xpath("//*[@id='puid-2894654515']/dl/dd[5]/div[1]/span[1]").extract()
> #注意chrome复制来的可能是`[@id="puid-2894654515"]`,要将双引号改为单引号
>
之后按情况稍微修改一下Xpath地址,使其更符合抓取要求

创建Scrapy爬虫

利用代码
1
2
>scrapy start project xxx
>
创建一个名为xxx的Scrapy爬虫项目