我的CSDN博客
scrapy-book
基本介绍
第一章:urllib模块的使用
1.常用方法的介绍
2.request常用方法
3.关于cookie的认识
第二章:requests请求库的使用
1.基本的使用
2.requests的高级使用
3.模拟用户登录
第三章:解析库的使用
1.xpath语法的介绍
2.lxml库的使用
3.xpath和lxml结合起来使用
4.使用xpath和lxml爬取伯乐在线
5.Beautiful Soup的使用
6.css选择器
7.使用bs4爬取获取贵州农产品
8.正则的使用
第四章:数据存储
1.关于文件的写入
2.python操作csv文件
3.数据存储到mysql数据库中
4.数据存储到mongodb数据库中
5.完整的下载数据存储的代码
6.使用urllib模块方式下载图片
7.使用写文件的方式下载图片
第五章:多线程爬虫
1.关于多线程的回顾
2.多线程下载农产品产品存储到本地
3.使用多线程下载图片
第六章:动态网站的抓取
1.动态网站的爬取的策略
2.使用json方法爬取动态网站
3.关于Selenium的基本介绍及环境的安装
4.selenium的查找元素
5.selenium获取节点信息
6.selenium节点操作及操作表单
7.selenium的等待认识
8.selenium的cookie、设置代理、异常
9.关于无界面浏览器的使用
10.抓取拉钩网关于python的招聘
第七章:验证码的识别
第八章:scrapy框架的基本使用
1.scrapy的安装
2.scrapy的介绍
3.twisted的认识
4.scrapy项目基本配置及常用命令
5.scrapy自定义命令
6.选择器的使用
7.Item和ItemLoader的使用
8.spider的理解
9.pipelines的使用
10.在scrapy框架中数据存储
11.分页功能抓取数据
12.craw母模板爬虫
13.关于Requests与Response的认识
14.使用scrapy进行模拟登录(一)
15.使用scrapy进行模拟登录(二)
16.使用scrapy下载图片
第九章:scrapy框架的高级使用
1.spider middleware(spider中间件)的认识
2.downloader middleware(下载中间件)的认识
3.自己编写下载中间件
4.关于scrapy中url去除原理一
5.关于scrapy中url去除原理二
6.突破反爬虫策略
7.搭建本地代理IP池
8.设置动态请求头
9.scrapy框架使用selenium抓取数据
10.scrapy框架使用无界面浏览器抓取数据
第十章:scrapy-redis构建分布式爬虫
1.redis的认识
2.scrapy-redis分布式爬虫
3.使用scrapyd部署项目
Powered by
GitBook
1.关于多线程的回顾
关于多线程的回顾
在爬虫领域中不是非必须使用多线程,只是当我们爬取的数据量比较大的时候,使用多线程这样会大大的节省抓取数据的时间
一、创建多线程的方式
参考
二、队列的操作
参考
三、关于使用队列创建一个生产者与消费者
参考
results matching "
"
No results matching "
"