Skip to content

GeneralNewsExtractor Q&A

kingname edited this page Sep 11, 2019 · 3 revisions

Question & Answer

GeneralNewsExtractor(以下简称GNE)是爬虫吗?

GNE不是爬虫,它的项目名称General News Extractor表示通用新闻抽取器。它的输入是HTML,输出是一个包含新闻标题,新闻正文,作者,发布时间的字典。你需要自行设法获取目标网页的HTML。

GNE支持翻页吗?

GNE不支持翻页。因为GNE不会提供网页请求的功能,所以你需要自行获取每一页的HTML,并分别传递给GNE。

GNE支持哪些版本的Python?

不小于Python 3.6.0

我用requests/Scrapy获取的HTML传入GNE,为什么不能提取正文?

GNE是基于HTML来提取正文的,所以传入的HTML一定要是经过JavaScript渲染以后的HTML。而requests和Scrapy获取的只是JavaScript渲染之前的源代码,所以无法正确提取。

另外,有一些网页,例如今日头条,它的新闻正文实际上是以JSON格式直接写在网页源代码的,当页面在浏览器上面打开的时候,JavaScript把源代码里面的正文解析为HTML。这种情况下,你在Chrome上面就看不到Ajax请求。

所以建议你使用Puppeteer/Pyppeteer/Selenium之类的工具获取经过渲染的HTML再传入GNE。

GNE 支持非新闻类网站吗(例如博客、论坛……)

不支持。