python资源集 - zixcon/python GitHub Wiki

下载

you-get 给网址就下视频啊,神器 subliminal Library and command line tool to search and download subtitles. coursera Script for downloading Coursera.org videos and naming them wget 递归的方式下载抓取所有页面,避免cookie追踪 Gooey 命令转GUI

爬虫相关

yagmail 发送邮件 requests http请求 BeautifulSoup 解析HTML lxml 用lxml提供的xpath解析器来解析HTML,XML。 xhtml2pdf HTML/CSS to PDF converter. Tenacity 重试库(装饰器装饰捕获代码异常。这种方式可以让代码变得更加简洁) Arrow 时间,替换 Python 2 和 3 的 datetime 类型 Blaze 提供了一个统一的接口,让用户无需学习所有数据库技术。 Scrapy 屏幕抓取及 web 爬虫框架

专业库

Hug 简化 Python API 的开发过程,仅限于 Python3 ,提供创建 HTTP REST API 的最简单的方式 Bokeh 提供数据可视化的 Python 库,其中最流行的就是 matplotlib 和 seaborn。做交互可视化,且面向现代的网页浏览展示。 pyrasite-shell 除bug神器,通常的情景是:服务器不响应了->日志信息不够->找出服务器pid->用pyrasite-shell连上去->打印stack/打印变量/干掉卡住的线程->Profit! psutil 用来获取操作系统监控以及进程管理的(不使用psutil的话,只能直接去/proc目录下读取想用的文件进行计算,或者执行iostat、vmstat、df等linux命令获取命令输出)
Graphlab 解决数据太大memory不够的各种问题,可视化 hosts
sh fuzzywuzzy 字符串模糊匹配的库 progressbar
uuid
asyncio 异步(http://python.jobbole.com/87310/)

其他

selenium 模拟登陆,模拟点击,模拟翻页,提取数据更轻松。运行慢,得开多线程

来源:https://www.zhihu.com/question/24590883