Scrapy selectors - littleboy12580/learning_python GitHub Wiki

概念

Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分；XPath 是一门用来在XML文件中选择节点的语言，也可以用在HTML上。 CSS 是一门将HTML文档样式化的语言。选择器由它定义，并与特定的HTML元素的样式相关连
现有的一些库也可以实现从HTML源码中提取数据，例如BeautifulSoup

使用选择器

Scrapy selector是以文字(text) 或 TextResponse 构造的 Selector 实例。其根据输入的类型自动选择最优的分析方法;

关于内置选择器，使用XPath比较好，XPath介绍可以看Xpath介绍
HTML解析器可以使用BeautifulSoup
RSS解析器可以使用FeedParser