基于Nodejs 爬虫介绍 - litonghui/TechBlog GitHub Wiki

Nodejs 后台运行语言 JavaScript 运行在chrome中，对网页做灵活的处理，通过爬虫拿到html 网页，JavaScript 将返回的数据存储为一个DOM，通过对节点数据解析，对网页中的关键信息分析抓取。选择nodejs做爬虫，非常方便。

爬虫两个概念：

爬虫，获取网页内容的程序，是搜索引擎的重要组成部分。
robots.txt 存放于根目录下，是一种协议，用来规定爬虫权限，对于禁止的内容不能爬虫，否则会受到法律制裁。因此爬虫时候先要拿到robots.txt 并分析哪些允许爬虫，哪些禁止。

Nodejs 爬虫配置 npm install --save-dev XXXX

express
request 网络请求爬虫内容
cheerio HTML 转换为DOM
iconv-lite 加载HTML

实战演练：参考源码

未完待续