scrapy项目基本配置及常用命令

一、基本配置(全部在`settings.py`文件中配置)

1、是否遵守机器人协议
```
ROBOTSTXT_OBEY = False
```

2、配置编码

# 设置编码
FEED_EXPORT_ENCODING = 'utf-8'

3、设置下载延时(类似前面的休眠多少时间再爬取)
```
DOWNLOAD_DELAY = 3
```

4、设置请求头(不设置是默认的python的请求头)

# 模拟浏览器请求
DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}

二、常见的命令

1、创建项目
```
scrapy statrproject 项目名称
```
2、创建一个普通爬虫
```
scrapy genapider 爬虫名称 网址
```

3、创建一个高级爬虫(下面章节会介绍)

scrapy genspider -t crawl 爬虫名字 允许访问的网址

4、查看可用的爬虫模板

scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

5、启动爬虫

scrapy crawl quotes # 直接运行
scrapy crawl quotes -o quotes.json # 生成json文件存到本地
scrapy crawl quotes -o quotes.json --nolog # 启动爬虫不带日志

6、检查爬虫
```
scrapy check 爬虫名
```
7、查看本工程下有多少爬虫
```
scrapy list
```

三、关于`scrapy shell`的使用

1、关于scrapy shell的介绍

我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确，是一个比较麻烦的事情。因此Scrapy提供了一个shell，用来方便的测试规则。
2、打开scrapy shell窗口

打开cmd终端，进入到Scrapy项目所在的目录，然后进入到scrapy框架所在的虚拟环境中，输入命令scrapy shell [链接]。就会进入到scrapy的shell环境中。在这个环境中，你可以跟在爬虫的parse方法中一样使用了。

4.scrapy项目基本配置及常用命令

scrapy项目基本配置及常用命令

一、基本配置(全部在`settings.py`文件中配置)

二、常见的命令

三、关于`scrapy shell`的使用

results matching ""

No results matching ""

scrapy项目基本配置及常用命令

一、基本配置(全部在settings.py文件中配置)

二、常见的命令

三、关于scrapy shell的使用

results matching ""

No results matching ""

一、基本配置(全部在`settings.py`文件中配置)

三、关于`scrapy shell`的使用