如何对大数据进行分析

来源:中琛源 浏览次数: 更新时间:2020-06-30 09:56:29

  现实生活中现在所有事情都受到监视及测试,从而创建了许多数据流,其数据量通常比公司处理的速度还快。因此问题就来了,按照定义,在大数据很大的情况下,数据收集中的细微差异或错误会导致重大问题。

如何对大数据进行分析


  如何分析大数据?从以下六个方面考虑


  1.可视化分析


  不管是数据分析专家还是普通用户,数据可视化都是数据分析工具的基本要求。可视化可以直观地显示数据,让数据自己说话,让用户看到结果。


  2.数据挖掘算法


  可视化适用于人,而数据挖掘适用于机器。聚类,细分,离群值分析和其他算法使我们能够深入挖掘数据并挖掘价值。这些算法不仅需要处理大数据的量,还需要处理大数据的速度。


  3.预测分析能力


  数据挖掘使分析师可以更好地理解数据,而预测分析则可以使分析师基于视觉分析和数据挖掘的结果做出一些预测性判断。


  4.语义引擎


  我们知道,非结构化数据的多样性给数据分析带来了新的挑战。我们需要一系列工具来解析,提取和分析数据。需要将语义引擎设计为可以从“文档”中智能地提取信息。


  5.数据质量和主数据管理


  数据质量和数据管理是管理方面的最佳实践。通过标准化流程和工具处理数据可以确保预先定义的高质量分析结果。


  如果大数据确实是下一个重要的技术创新,那么我们将更好地关注大数据可以为我们带来的好处,而不仅仅是挑战。


  6.数据存储,数据仓库


  数据仓库是一个关系数据库,旨在促进以特定模式存储的数据的多维分析和多角度显示。在商业智能系统的设计中,数据仓库的建设是商业智能系统的关键和基础。它承担着集成业务系统数据的任务,为业务智能系统提供数据提取,转换和加载(ETL)。查询和访问数据以提供用于在线数据分析和数据挖掘的数据平台。


  如何进行数据处理和分析?


  步骤1:收集资料


  对于企业来说,无论是新实施的系统还是旧的系统,要实施大数据分析平台,首先都需要了解需要收集哪些数据。考虑到数据收集的难度和成本,大数据分析平台并不收集企业的所有数据,而是直接或间接相关的数据。企业应该知道哪些数据可用于战略决策或某些详细的决策,并且分析后的数据的结果是有价值的,这也是考验一个数据分析师的能力。例如,一家企业只想了解生产线设备的运行状态。此时,仅需要收集影响生产线设备性能的关键参数。再例如,在产品售后服务中,公司需要了解产品使用状态,购买组别和其他信息,这些数据对于支持新产品开发和市场预测非常重要。因此,建议公司在执行大数据分析计划时对项目目标进行准确的分析,这更容易实现业务目标。


  大数据收集过程的困难主要是由于并发数量高,因为可能有成千上万的用户同时访问和操作,例如12306网和淘宝网,他们的并发访问量在2007年达到了数百人。因此您需要在集合端部署大量数据库以提供支持。而如何在这些数据库之间执行负载平衡和分片也需要深入思考。


  步骤2:导入和预处理数据


  收集过程只是构建大数据平台的第一步。在确定需要收集哪些数据之后,下一步需要统一处理不同来源的数据。例如,在智能工厂中,可能存在视频监控数据,设备操作数据,材料消耗数据等。这些数据可以是结构化的或非结构化的。目前,企业需要使用ETL工具从分布式和异构数据源(例如关系数据和平面数据文件)中提取数据到临时中间层进行清理,转换和集成,并将这些数据从前端导入到集中式大型分布式数据库或分布式存储集群最终被加载到数据仓库或数据集市中,并成为在线分析处理和数据挖掘的基础。对于数据源的导入和预处理,最大的挑战主要是导入的数据量,每秒的导入量通常达到100万亿甚至千兆位。


  步骤3:统计分析


  统计和分析主要使用分布式数据库或分布式计算集群对存储在其中的海量数据进行常规分析和分类,以满足最常见的分析需求。在这方面,一些实时需求将使用EMC的GreenPlum,Oracle的Exadata和基于MySQL的列式存储Infobright等,而一些批处理或基于半结构化数据的需求则可以使用hadoop。数据的统计分析方法很多,例如假设检验,显着意义检验,差异分析,相关分析,T检验,方差分析,卡方分析,偏相关分析,距离分析,回归分析,简单回归分析,多元回归分析,逐步回归,回归预测和残差分析,岭回归,逻辑回归分析,曲线估计,因子分析,聚类分析,主成分分析,因子分析,快速聚类和聚类方法,判别分析,对应分析,多元对应分析(最佳规模分析),自举技术等。在统计和分析部分,主要特征和挑战是分析中涉及的大量数据,这将大大占用系统资源,尤其是I/O。


  步骤4:价值挖掘


  与以前的统计和分析过程不同,数据挖掘通常没有任何预设的主题,主要是基于对现有数据的各种算法的计算,从而达到预测的效果,以实现一些高级的数据分析需求目的。典型的算法包括用于聚类的Kmeans,用于统计学习的SVM和用于分类的NaiveBayes。使用的主要工具是Mahout for Hadoop。该过程的特点和挑战主要在于用于挖掘的算法非常复杂,并且计算中涉及的数据量和计算量非常大。常用的数据挖掘算法主要是单线程的。


  中琛魔方大数据平台表示大数据分析技术的发展需要我们对于非结构化数据进行分析,如果能够将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。

上一篇:如何有效的运用大数据
来源:中琛源
更新时间:2020-06-30 09:46:22
下一篇:大数据可视化为何如此重要
来源:中琛源
更新时间:2020-07-01 09:19:00