introduce - monstercodings/websiphon GitHub Wiki
框架简介
-
设计理念
本框架为简化各类网络爬虫开发工作而设计,使用框架可实现快速开发定制爬虫。
框架实现了线程管理,使用者无需关心线程生命周期,从而屏蔽大部分线程概念,让使用者可专注于业务实现。 -
基础核心
框架基于插件、事件两大核心概念驱动:
事件
——即触发回调,框架内置一系列默认事件,可自由选择需要监听的事件以及同/异步监听方式。
插件
——框架内最核心的组件,框架内的大部分组件都是基于插件开发的,所以在有特殊化定制需求的时候,可以灵活的替换各类自定义组件。 -
使用方法
框架内置一套默认爬取流程,一般情况下使用默认流程即可,若有特殊需求使用另行开发的一套插件替换默认流程即可。
爬虫使用方式目前有两种:
1. 开发为可使用java -jar形式直接启动的爬虫。推荐使用
2. 使用本框架搭建好爬虫平台,该平台可提供各种资源通道,之后开发非独立运行模式的爬虫,所需资源均从平台获取。