- 准备好
chrome
,便于查看Xpath
地址- 配置好
Pycharm
,将Scrapy
内置其中
开发前期工作
利用
Scrapy
内置shell
命令抓取整个网站镜像
1 scrapy shell http://nc.ganji.com/fang5/利用
view(response)
查看抓取下的网站是否与原网站相符- 进入chrome的
开发者工具
中- 找到想要抓取的item右键选择
检查
,可以看到该item的html信息
在其html信息位置再次点击右键,选择Copy Xpath
回到终端,利用
response.xpath().extract()
检查抓取到的内容是否符合要求
1
2
3 > response.xpath("//*[@id='puid-2894654515']/dl/dd[5]/div[1]/span[1]").extract()
> #注意chrome复制来的可能是`[@id="puid-2894654515"]`,要将双引号改为单引号
>之后按情况稍微修改一下Xpath地址,使其更符合抓取要求
创建Scrapy爬虫
- 利用代码
1
2 >scrapy start project xxx
>创建一个名为
xxx
的Scrapy爬虫项目