python html - renfengmei/doc GitHub Wiki

pyQuery

pyQuery是jQuery在python中的实现，能够以jQuery的语法来操作解析HTML文档，十分方便。使用前需要安装，easy_install pyquery即可，或者Ubuntu下

sudo apt-get install python-pyquery 以下例子：

from pyquery import PyQuery as pyq
doc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')
cts=doc('.market-cat')
 
for i in cts:
	print '====',pyq(i).find('h4').text() ,'===='
	for j in pyq(i).find('.sub'):
		print pyq(j).text() ,
	print '/n'

BeautifulSoup

有个头痛的问题是，大部分的网页都没有完全遵照标准来写，各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题，我们可以选择著名的BeautifulSoup来解析html文档，它具有很好的容错能力

import urllib
import urllib2
url ="http://www.XXXX.com/"
header ={'User-Agent':'mozilla/5.0 (windows; U; windows NT 5.1; zh-cn)'}
req=urllib2.Request(url,None,header)
response = urllib2.urlopen(req)
page = responese.read()
soup = BeautifulSop('',join(page))
buycount = soup.findAll(attrs={'class':re.compile("totla$")})
for i in buycount;

⚠️ GitHub.com Fallback ⚠️