Scrapy selectors - littleboy12580/learning_python GitHub Wiki

概念

Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分;XPath 是一门用来在XML文件中选择节点的语言,也可以用在HTML上。 CSS 是一门将HTML文档样式化的语言。选择器由它定义,并与特定的HTML元素的样式相关连
现有的一些库也可以实现从HTML源码中提取数据,例如BeautifulSoup

使用选择器

Scrapy selector是以 文字(text) 或 TextResponse 构造的 Selector 实例。 其根据输入的类型自动选择最优的分析方法;

  • 关于内置选择器,使用XPath比较好,XPath介绍可以看Xpath介绍

  • HTML解析器可以使用BeautifulSoup

  • RSS解析器可以使用FeedParser