大数据的技术架构通常可以分为数据收集层、数据存储层、数据处理层、数据治理与建模层和数据应用层。从实际的业务需求来看,企业需要选择合适的技术框架来搭建合适的大数据架构体系。
●数据收集层:主要负责收集各种数据源的数据,采用大数据技术,实现对数据的ETL操作。
●数据存储层:主要负责对收集完后的大量数据进行存储,可分为持久化和非持久化。持久化存储是把数据放在磁盘里,能够保证断电或关机后数据不丢失;非持久化存储是把数据放在内存里,读写速度快,但在关机或断电后数据会丢失。
●数据处理层:数据处理又分为离线处理和在线处理,在线处理对实时响应的要求非常高,而离线处理则没有这种要求,如批量地压缩文档。
●数据治理与建模层:主要负责数据的清洗、格式和内容的处理转换等。因为数据类型多样,单位价值稀疏的特点,所以需要对数据进行治理和融合建模,最终为业务应用提供优质的底层数据。
●数据应用层:是大数据技术和应用的目标,通常包括信息检索、关联分析等功能。
中琛魔方大数据平台表示基于分布式技术构建的大数据平台能够有效降低数据存储成本,提升数据分析处理效率,并具备海量数据、高并发场景的支撑能力,可大幅缩短数据查询响应时间,满足企业各上层应用的数据需求。