如何搭建企业大数据分析平台

来源:中琛源 浏览次数: 更新时间:2022-01-19 09:06:56

  大数据分析处理平台整合目前主流的各有侧重点、各有侧重的大数据处理分析框架和工具,实现对数据的挖掘与分析,大数据分析平台所涉及的组件众多,如何将其有机结合起来,对大量数据进行挖掘是一个复杂的过程。在构建平台之前,明确业务需求以及用户需求,通过大数据分析平台,想要获得有价值的信息,需要访问数据,明确基于场景业务需求的基本功能,确定大数据处理工具和框架。


  具体的整体架构可以由以下几个部分组成:


  1、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,数据可以通过网页和应用程序收集。例如,许多银行现在都有自己的App。这便能够更深层次的分析用户行为数据,可以切分出来很多维度,做很细的分析。但对涉及离线的行业来说,数据采集需要借助各种业务系统来完成。


  2、数据集成:实际上是指ETL,是指用户从数据源中提取所需数据,最终根据预定义的数据仓库模型将数据加载到数据仓库。


  3、数据存储:指的是建立数据仓库,简单地可分为业务数据层(DW)、指标层、维度层(DWA)。


  4、数据共享层:在数据仓库和业务系统之间提供数据共享服务。Web Service和Web API,表示一种数据之间的连接方式,以及一些其它的连接方式,这些方法可以根据自己的情况决定。


  5、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。列存储使磁盘中的每个Page只存储单列值,而不存储整行值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效的利用。


  分布式计算可以将需要大量计算能力解决的问题分为许多小部分,然后将这些部分同时交给许多计算机,然后将这些计算结果结合起来,以获得最终结果。综合这两种技术,就能够大幅度提高分析环节的效率。


  6、数据显示:结果以何种形式呈现,实际上是数据可视化。在此推荐使用敏捷BI,与传统BI不同,它可以通过简单的拖拉方式生成报告,而且学习成本更低。


  7、数据访问:相对简单,这取决于你如何查看这些数据。图中的示例是由于B/S架构,通过浏览器访问最终的可视化结果。


  中琛魔方大数据平台表示大数据平台的搭建并不是一蹴而就的,需要循序渐进不断快速迭代。同时也要有长远眼光,尽量避免推到重构。此外一定要注意时间控制和里程碑建立。

上一篇:大数据挖掘包含哪些基本方面
来源:中琛源
更新时间:2022-01-18 09:27:50
下一篇:大数据可视化平台带来的价值
来源:中琛源
更新时间:2022-01-20 09:47:30