学python,玩爬虫的人,肯定绕不开一个流行的爬虫框架——Scrapy。
Scrapy其发音为(/ˈskreɪpaɪ/),是一个开源、协作的框架,用于网络抓取和结构化数据提取,广泛应用与数据发掘、信息处理、历史存档、监测和自动化等领域。
虽然Scrapy最初设计用于网络抓取,但也可以用于获取API的数据或通用的网络爬虫。
Scrapy是基于twisted框架开发的,twisted是一个流行的事件驱动的python网络框架,因此Scrapy使用了异步的代码来实现并发。
按照官方的文档是先走一遍Scrapy最简单的代码,但是现在还没安装Scrapy所以无法运行,因此先不着急开启爬虫,我们先将理论,了解下Scrapy的工作原理。
参考资料
- 官方的Scrapy2.11版本文档
- 路飞学城《Python爬虫项目实战》