Darwin大数据应用支撑平台介绍 - 9zdata-darwin/Darwin GitHub Wiki
Darwin是基于Hadoop的企业级应用支撑平台,通过组件化、可视化的方式,帮助用户快速实现大数据的汇,存、查、交换,分析挖掘和管理。
Darwin的目标是:“让企业更容易地用好大数据,让人人都可以玩转大数据”
Darwin通过Web界面配置,0代码开发,即可完成对数据的全生命周期处理
Darwin在大数据体系中,定位为大数据应用支撑平台,如下图第二层所示:
>Darwin基于Spark内存计算技术,为企业大数据提供数据的采集,清洗,分析挖掘,数据服务和可视化服务,为企业数据全生命周期提供完整的功能。
同时,产品通过自定义组件方式,允许开发人员自行设计和开发Spark程序,加入到Darwin的组件中,可以与系统内置组件协同工作,并由Darwin提供统一的调度、监控管理。
- 支持实时、非实时模式,无需开发,通过界面配置方式将外部系统的各种数据汇集入平台;
- 实时包括Tcp/Udp,Syslog,SNMP,Flume,SparkStreaming等数据源的接入;
- 非实时包括FTP,FTP增量获取,RDB数据,SCP,Spider互联网数据爬取等方式;
- 对于特殊的数据源,系统支持采用自定义脚本方式将数据接入。
- 基于Spark内存计算技术,但无需开发Spark程序,即可完成对HDFS文件的清洗转换操作;
- 通过界面配置方式,将数据进行数据切分、多条件组合的行列筛选、列函数转换、字典映射、多份数据的数据关联(类似DB的JOIN连表)和数据合并,编码转换等操作,并支持结果的输出路由;
- 列转换函数集合,包括字符串处理类、表达式运算类、时间处理类、URL处理类、GEO类和自定义类;
- 对于系统尚未支持的列处理,可以通过自定义函数实现。
- 宽表制作,通过类似SQL的JOIN功能,可以将多个大文件进行JOIN,构造宽表
无需开发程序,支持文本、数据库、算法等方式的数据分析挖掘;
- 通过界面配置方式对数据多维统计分析,采用Spark技术实现了类似传统数据库的行列过滤,Distinct,GroupBy/Count/SUM/MAX/MIN/AVG等聚合函数,Having过滤等;
- Hbase数据库的标准SQL分析:支持标准SQL对Hbase数据进行增删改查操作,底层采用Hbase存储,支持水平无限扩展,可以作为交互式分析工具,支持传统BI进行数据仓库类分析;
- 组件化ML分析:组件化方式支持常用的分类、聚类、分词、文本挖掘、推荐算法等机器学习算法。
- 支持与SAS对接
数据交换功能,可以实现不同业务场景下对多源、异构的数据内容的异步或同步的转换、交换、共享需求。
- 异构交换支持的存储包括:HDFS、Hbase数据库、检索引擎、SparkSQL表、外部关系型数据库(MYSQL/Oracle)以及远程FTP和其它集群的Hdfs;
- 数据交换支持按自定义周期或一次性、条件触发等方式;
- 系统支提供了交换过程的完整性、可靠性、安全性保障。
平台将数据提炼出业务需要的内容后,可直接对外提供如下的数据服务:
- BigDB服务:高并发高可扩展的数据库服务,对外提供JDBC接口,标准SQL;
- 全文检索BigSearch服务:毫秒级对数据任意维度的全文检索服务,支持Term检索和统计聚合类检索,对外提供Rest服务;
- 数据存储服务:支持海量数据的存储服务,采用Kerberos权限控制,保证数据访问安全。
- 支持对平台上的文件、大数据库、检索数据,进行实时按需的展示。
- 目前提供趋势图、饼图、柱状体、分页表、地图、词云图等多种动态展现方式;
- 且支持根据条件的数据展示可视化支持多个图表、面板之间的条件触发;
- 支持实时数据的自动刷新展示。
