scrapy项目基本配置及常用命令
一、基本配置(全部在settings.py文件中配置)
1、是否遵守机器人协议
ROBOTSTXT_OBEY = False2、配置编码
# 设置编码 FEED_EXPORT_ENCODING = 'utf-8'3、设置下载延时(类似前面的休眠多少时间再爬取)
DOWNLOAD_DELAY = 34、设置请求头(不设置是默认的
python的请求头)# 模拟浏览器请求 DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36' }
二、常见的命令
1、创建项目
scrapy statrproject 项目名称2、创建一个普通爬虫
scrapy genapider 爬虫名称 网址3、创建一个高级爬虫(下面章节会介绍)
scrapy genspider -t crawl 爬虫名字 允许访问的网址4、查看可用的爬虫模板
scrapy genspider -l Available templates: basic crawl csvfeed xmlfeed5、启动爬虫
scrapy crawl quotes # 直接运行 scrapy crawl quotes -o quotes.json # 生成json文件存到本地 scrapy crawl quotes -o quotes.json --nolog # 启动爬虫不带日志6、检查爬虫
scrapy check 爬虫名7、查看本工程下有多少爬虫
scrapy list
三、关于scrapy shell的使用
1、关于
scrapy shell的介绍我们想要在爬虫中使用
xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy提供了一个shell,用来方便的测试规则。2、打开
scrapy shell窗口打开
cmd终端,进入到Scrapy项目所在的目录,然后进入到scrapy框架所在的虚拟环境中,输入命令scrapy shell [链接]。就会进入到scrapy的shell环境中。在这个环境中,你可以跟在爬虫的parse方法中一样使用了。