scrapy项目基本配置及常用命令

一、基本配置(全部在settings.py文件中配置)

  • 1、是否遵守机器人协议

    ROBOTSTXT_OBEY = False
    
  • 2、配置编码

    # 设置编码
    FEED_EXPORT_ENCODING = 'utf-8'
    
  • 3、设置下载延时(类似前面的休眠多少时间再爬取)

    DOWNLOAD_DELAY = 3
    
  • 4、设置请求头(不设置是默认的python的请求头)

    # 模拟浏览器请求
    DEFAULT_REQUEST_HEADERS = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
    }
    

二、常见的命令

  • 1、创建项目

    scrapy statrproject 项目名称
    
  • 2、创建一个普通爬虫

    scrapy genapider 爬虫名称 网址
    
  • 3、创建一个高级爬虫(下面章节会介绍)

    scrapy genspider -t crawl 爬虫名字 允许访问的网址
    
  • 4、查看可用的爬虫模板

    scrapy genspider -l
    Available templates:
      basic
      crawl
      csvfeed
      xmlfeed
    
  • 5、启动爬虫

    scrapy crawl quotes # 直接运行
    scrapy crawl quotes -o quotes.json # 生成json文件存到本地
    scrapy crawl quotes -o quotes.json --nolog # 启动爬虫不带日志
    
  • 6、检查爬虫

    scrapy check 爬虫名
    
  • 7、查看本工程下有多少爬虫

    scrapy list
    

三、关于scrapy shell的使用

  • 1、关于scrapy shell的介绍

    我们想要在爬虫中使用xpathbeautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy提供了一个shell,用来方便的测试规则。

  • 2、打开scrapy shell窗口

    打开cmd终端,进入到Scrapy项目所在的目录,然后进入到scrapy框架所在的虚拟环境中,输入命令scrapy shell [链接]。就会进入到scrapy的shell环境中。在这个环境中,你可以跟在爬虫的parse方法中一样使用了。

results matching ""

    No results matching ""