大数据产品规划 - xd21303/Notebook GitHub Wiki

如何做好一个大数据产品?

用户需求分析

用户为什么要使用大数据系统?用户希望解决什么问题?
用户需要满足几个条件才能做好大数据。有一句话叫“三分建设,七分应用,十分管理,十二分的数据质量”。
  1. 管理:
    首先,企业用户的领导必须充分认识到大数据的作用和意义,从上到下在公司灌输大数据的理念,使中层和基层人员都能充分认识到大数据的意义。并且在公司管理各个环节都充分把关,严格控制不规范的行为,大家都按照公司制度执行,拿数据说话。
  2. 应用:
    业务人员需要去思考目前业务中存在那些问题?大数据是不是能解决这个问题?如果能,那就上,不要为了上大数据而上,归根结底是为了解决问题。
  3. 数据:
    数据质量是核心。没有好的数据,计算出的结果肯定也是错的,没有意义。必须严格把控数据质量,从数据源头抓起。数据准备的工作要占到整个工作的60%-80%。
  4. 建设
    最后才是建设,选用最合适的技术来建设。

公安大数据思考:

  1. 管理、应用、数据都在用户一方。管理我们无法改变,但可以通过跟高层领导的沟通,通过介绍技术,讲道理,举例子,使领导重视起来,并愿意在大数据方向投入。应用,必须对公安的业务特别了解,站在用户的角度去思考问题,业务知识的积累需要一定的时间。但是短时间内,可只专注于一个方向并深入,比如预测犯罪,通过历史犯罪记录的数据,统计分析出规律,这个规律可能是常人无法发现的,可能通过机器学习发现特殊的规律。光这个一方方向就要花费大量的资源,不可能做到面面俱到。数据的准确性尤其重要,管理上要加强数据录入时的准确性,在做数据清理时,要发现错误的数据,进行排查。数据质量决定最后的成败。在数据的获取方面,管理上的壁垒也要打开。
  2. 建设方面。自己建设还是使用其他人的成果?自己有没有这个能力建设?若要自己建设,需要一个专业的团队。是一个系统的工程,首先是系统架构,架构师需要搭建整个系统的架构,是自己研发还是采用开源框架,或是其他公司的产品?机器学习平台这块,有TensorFlow、Theano、Caffee等。大数据技术有开源的APACHE hadoop,也有商业公司的Cloudera的CDH。要不要云计算?云计算有开源的open stack,也有商业公司的AWS、Azure、阿里云等。本地部署的话,基础设施需要搭建。最终结果呈现的方式是什么?是在大屏幕上?PC上?手机上?需要开发相应的软件。

如果一个项目做好了,效果不错,就可以推广到其他地方,算法是可以借鉴的。建立相应的团队。