基于Nodejs 爬虫介绍 - litonghui/TechBlog GitHub Wiki
Nodejs 后台运行语言 JavaScript 运行在chrome中,对网页做灵活的处理,通过爬虫拿到html 网页,JavaScript 将返回的数据存储为一个DOM,通过对节点数据解析,对网页中的关键信息分析抓取。选择nodejs做爬虫,非常方便。
爬虫两个概念:
- 爬虫,获取网页内容的程序,是搜索引擎的重要组成部分。
- robots.txt 存放于根目录下,是一种协议,用来规定爬虫权限,对于禁止的内容不能爬虫,否则会受到法律制裁。因此爬虫时候先要拿到robots.txt 并分析哪些允许爬虫,哪些禁止。
Nodejs 爬虫配置 npm install --save-dev XXXX
- express
- request 网络请求爬虫内容
- cheerio HTML 转换为DOM
- iconv-lite 加载HTML