Ajax解决 - diyhome/GetKindleBook GitHub Wiki
解决Ajax网页的内容的获取问题
爬虫写多了自然遇到了些Ajax有关的网页(毕竟这技术现在很好用->_->
Mind
一般而言Ajax网页的小说站不会搞得太复杂(尤其是笔趣阁一类的网站
- 所以打开浏览器
Chrome
,F12
进入开发者模式,在Network
那一栏里面观察,一般而言数据结构是XHR
- 查看请求的目标
URL
然后这个URL
就是这个网页实际在的一个位置,而且这个实际的URL
和在章节页面获取的URL
有一定的联系
特别注意: 有些网站的反爬措施实在是,Emm,清新脱俗,你懂吗?
把原始小说内容的一些常用字(例如的
,吗
)甚至是标点符号换成一组无意义的汉字组合,这~~~
解决方法就是在获取原始URL
的时候注意下response
里面的内容以及网页关于这部分的ajax
源码,会告诉你怎么替换的
你要问我为什么知道的这么清楚?诶,一言难尽!曾经,那个下午的阳光是那么的好,而我...