Scrapy selectors - littleboy12580/learning_python GitHub Wiki
概念
Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分;XPath 是一门用来在XML文件中选择节点的语言,也可以用在HTML上。 CSS 是一门将HTML文档样式化的语言。选择器由它定义,并与特定的HTML元素的样式相关连
现有的一些库也可以实现从HTML源码中提取数据,例如BeautifulSoup
使用选择器
Scrapy selector是以 文字(text) 或 TextResponse 构造的 Selector 实例。 其根据输入的类型自动选择最优的分析方法;
-
关于内置选择器,使用XPath比较好,XPath介绍可以看Xpath介绍
-
HTML解析器可以使用BeautifulSoup
-
RSS解析器可以使用FeedParser