用几种不得方式抓取B站视频信息 - shuzi323/bilibili_asyncio_bs4 GitHub Wiki
Welcome to the bilibili_asyncio_bs4 wiki!
分别用单线程同步、进程池、协程的方法抓取B站前100视频信息。
消耗时间分别为36.35s、8.91s、3.41s,
其中async
方法抓取前1000个视频信息耗时36.57s
async
在网络爬虫中对电脑利用率比较高,耗时短。
但要注意限制爬虫速度,否则会给服务器增加压力。
另一个api
接口如:https://api.bilibili.com/x/web-interface/archive/stat?aid=18737169&jsonp=jsonp
# -*- coding: utf-8 -*-
import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132'}
post_param = {'aid':'18737169','jsonp':'jsonp'}
jsData = requests.get("https://api.bilibili.com/x/web-interface/archive/stat", headers=headers, params=post_param).text
print(jsData)