Darwin大数据应用支撑平台介绍 - 9zdata-darwin/Darwin GitHub Wiki

欢迎关注Darwin

Darwin是基于Hadoop的企业级应用支撑平台，通过组件化、可视化的方式，帮助用户快速实现大数据的汇，存、查、交换，分析挖掘和管理。

Darwin的目标是：“让企业更容易地用好大数据，让人人都可以玩转大数据”
Darwin通过Web界面配置，0代码开发，即可完成对数据的全生命周期处理

Darwin在大数据体系中的定位

Darwin在大数据体系中，定位为大数据应用支撑平台，如下图第二层所示：

>Darwin基于Spark内存计算技术，为企业大数据提供数据的采集，清洗，分析挖掘，数据服务和可视化服务，为企业数据全生命周期提供完整的功能。
同时，产品通过自定义组件方式，允许开发人员自行设计和开发Spark程序，加入到Darwin的组件中，可以与系统内置组件协同工作，并由Darwin提供统一的调度、监控管理。

Darwin功能介绍

1.数据汇集

支持实时、非实时模式，无需开发，通过界面配置方式将外部系统的各种数据汇集入平台；
实时包括Tcp/Udp,Syslog,SNMP,Flume,SparkStreaming等数据源的接入；
非实时包括FTP,FTP增量获取,RDB数据,SCP,Spider互联网数据爬取等方式；
对于特殊的数据源，系统支持采用自定义脚本方式将数据接入。

2.数据清洗

基于Spark内存计算技术，但无需开发Spark程序,即可完成对HDFS文件的清洗转换操作；
通过界面配置方式，将数据进行数据切分、多条件组合的行列筛选、列函数转换、字典映射、多份数据的数据关联(类似DB的JOIN连表)和数据合并,编码转换等操作，并支持结果的输出路由；
列转换函数集合，包括字符串处理类、表达式运算类、时间处理类、URL处理类、GEO类和自定义类；
对于系统尚未支持的列处理，可以通过自定义函数实现。
宽表制作，通过类似SQL的JOIN功能，可以将多个大文件进行JOIN，构造宽表

3.分析挖掘

无需开发程序，支持文本、数据库、算法等方式的数据分析挖掘；

通过界面配置方式对数据多维统计分析，采用Spark技术实现了类似传统数据库的行列过滤,Distinct,GroupBy/Count/SUM/MAX/MIN/AVG等聚合函数,Having过滤等；
Hbase数据库的标准SQL分析：支持标准SQL对Hbase数据进行增删改查操作，底层采用Hbase存储，支持水平无限扩展，可以作为交互式分析工具，支持传统BI进行数据仓库类分析；
组件化ML分析：组件化方式支持常用的分类、聚类、分词、文本挖掘、推荐算法等机器学习算法。
支持与SAS对接

4.异构交换

数据交换功能，可以实现不同业务场景下对多源、异构的数据内容的异步或同步的转换、交换、共享需求。

异构交换支持的存储包括：HDFS、Hbase数据库、检索引擎、SparkSQL表、外部关系型数据库（MYSQL/Oracle）以及远程FTP和其它集群的Hdfs；
数据交换支持按自定义周期或一次性、条件触发等方式；
系统支提供了交换过程的完整性、可靠性、安全性保障。

5.数据服务

平台将数据提炼出业务需要的内容后，可直接对外提供如下的数据服务：

BigDB服务：高并发高可扩展的数据库服务，对外提供JDBC接口，标准SQL；
全文检索BigSearch服务：毫秒级对数据任意维度的全文检索服务，支持Term检索和统计聚合类检索，对外提供Rest服务；
数据存储服务：支持海量数据的存储服务，采用Kerberos权限控制，保证数据访问安全。

6.可视化

支持对平台上的文件、大数据库、检索数据，进行实时按需的展示。
目前提供趋势图、饼图、柱状体、分页表、地图、词云图等多种动态展现方式；
且支持根据条件的数据展示可视化支持多个图表、面板之间的条件触发；
支持实时数据的自动刷新展示。

常见问题

Darwin 由北京久其智通数据科技有限公司出品

关于久其智通数据

北京久其智通数据科技有限公司由大数据公司智通胜创和上市公司久其软件(sz.002279)合资成立，致力于研发和推广优质易用的大数据应用支撑平台。
公司坐落于北京中关村软件园区，是目前国内极少的将大数据技术产品化的高科技企业。核心团队来自于著名互联网企业，有非常丰富的大数据经验。

公司为客户重点提供如下大数据服务：
1 提供基于界面拖拽，无需代码开发的大数据应用支撑产品（Darwin）和服务
2 提供基于Darwin产品的数据全生命周期服务，包括数据汇集，分析处理，交换，检索和可视化
3 提供基于Darwin产品的定制组件开发服务
4 提供Darwin产品私有云PoC服务
5 提供主流Hadoop平台的安装部署服务
6 提供主流Hadoop平台运维服务
7 提供大数据业务场景的SaaS服务
我们的口号是：“让大数据快速落地”！
关于久其软件

北京久其软件股份有限公司（Beijing Join-Cheer Software Co.,Ltd.）是中国领先的管理软件供应商，主要从事报表管理软件、大数据、集团管控、电子政务和移动互联领域软件的研发与推广，长期致力于为政府部门和企业集团提供咨询及信息化管理解决方案。久其于2009年8月11日在深圳证券交易所上市（股票名称：久其软件；股票代码：002279）