Ajax解决 - diyhome/GetKindleBook GitHub Wiki

解决Ajax网页的内容的获取问题

爬虫写多了自然遇到了些Ajax有关的网页(毕竟这技术现在很好用->_->

Mind

一般而言Ajax网页的小说站不会搞得太复杂(尤其是笔趣阁一类的网站

  • 所以打开浏览器Chrome,F12进入开发者模式,在Network那一栏里面观察,一般而言数据结构是XHR
  • 查看请求的目标URL然后这个URL就是这个网页实际在的一个位置,而且这个实际的URL和在章节页面获取的URL有一定的联系

特别注意: 有些网站的反爬措施实在是,Emm,清新脱俗,你懂吗?
把原始小说内容的一些常用字(例如,)甚至是标点符号换成一组无意义的汉字组合,这~~~
解决方法就是在获取原始URL的时候注意下response里面的内容以及网页关于这部分的ajax源码,会告诉你怎么替换的

你要问我为什么知道的这么清楚?诶,一言难尽!曾经,那个下午的阳光是那么的好,而我...