python html - renfengmei/doc GitHub Wiki
pyQuery是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方便。使用前需要安装,easy_install pyquery即可,或者Ubuntu下
sudo apt-get install python-pyquery 以下例子:
from pyquery import PyQuery as pyq doc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm') cts=doc('.market-cat') for i in cts: print '====',pyq(i).find('h4').text() ,'====' for j in pyq(i).find('.sub'): print pyq(j).text() , print '/n'
有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的BeautifulSoup来解析html文档,它具有很好的容错能力
import urllib import urllib2 url ="http://www.XXXX.com/" header ={'User-Agent':'mozilla/5.0 (windows; U; windows NT 5.1; zh-cn)'} req=urllib2.Request(url,None,header) response = urllib2.urlopen(req) page = responese.read() soup = BeautifulSop('',join(page)) buycount = soup.findAll(attrs={'class':re.compile("totla$")}) for i in buycount;