scrapy简单介绍 - ShichaoMa/structure_spider GitHub Wiki

scrapy 是一个流行的python爬虫框架，本二次开发框架基于scrapy开发完成，实现通用部分，仅需要少量配置性代码即可完成一个网站的特定抓取工作

scrapy 运行简单分为四个步骤

任务分配

任务分配是由scheduler完成的，主要的工作函数为enqueue_request和next_request，enqueue_request可以将下载和解析过程中返回的抓取任务请求在放回到队列中。本框架中，返回的抓取任务主要分为三种，第一种是下载出错或者解析出错，被要求重试或重定向时将原任务返回给队列；第二种是解析过程中发现符合要求的链接，比如刚开抓取分类链接，分类链接下面包含很多项目链接，那每个项目链接都是一个符合要求的链接；第三种是抓取项目链接中，有需要增发请求来达到抓取效果的链接，也会被返回。next_request会从任务队列返回一个任务请求，用以下载。任务队列采用redis实现，以优先级排序，优先级大者优先进行抓取。

下载

scrapy下载使用的twisted异步架构，可以在settings配置并发数量及超时时间，下载前，请求会依次通过下载中间件的process_request。用来对请求进行处理，比如增加user-agent等其它请求头，增加代理配置等等，下载结束后，如果下载没有出错，那么响应会依次倒序通过process_response,对响应进行处理，最后会调用callback函数，在本框架中，分类请求的callback函数为parse函数，子项目请求的callback函数为parse_item函数。如果下载出错，则会依次倒序通过process_exception，最后调用request errorback函数（settings中需要配置HTTPERROR_ALLOW_ALL=True）。

解析

通过回调函数parse和parse_item，我们可以从响应体中获取重要信息。比如本框架通过parse函数获取下一页链接及子项目链接，然后生成新的请求，返回给任务队列；通过parse_item函数抓取我们配置好的字段，比一件商品的标题，品牌，价格，尺寸，图片等等，将这些信息保存到一个自定义的Item类实例（结果集）中，然后返回该实例。

持久化结果集

scrapy通过pipline来处理结果集。item实例依次通过每个pipline的process_item函数，可以通过dict(item)将数据集转换为字典类型，然后将其保存到文件，excel, mysql, mongodb, hbase等数据库中。

具体开发流程请参照官方文档Scrapy 1.2 documentation