笔记-信息化与系统集成技术-大数据关键技术
大数据关键技术
(1)大数据存储管理技术
大数据存储技术首先需要解决的是数据海量化和快速增长需求。存储的硬件架构和文件系统的性价比要大大高于传统技术,存储容量计划应可以无限制扩展,且要求有很强的容错能力和并发读写能力。目前,谷歌文件系统(GFS)和Hadoop的分布式文件系统HDFS奠定了大数据存储技术的基础。
大数据存储技术第二个要解决的是处理格式多样化的数据,这要求大数据存储管理系统能够对各种非结构化数揖;进行高效管理,代表产品如:谷歌BigTable和HadoopHbase等*非关系型数据库(NoSQL)*。
(2)大数据并行分析技术
大数据的分析挖掘是数据密集型计算,需要巨大的计算能力,对计算单元和存储单元的数据吞吐率要求极高,并要求计算系统有非常好的扩展性和性价比。谷歌的MapReduce是主要的大数据分布式并行计算技术之一,而开源的分布式并行计算技术Apache HadoopMapReduce,已经成为应用最广泛的大数据计算软件平台。
(3)大数据分析技术
大数据分析技术的发展需要在两个方面取得突破,一是对规模非常庞大的结构化数据和半结构化数据进行高效的深度分析:二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,获取隐性的知识。大数据分析的技术路线主要是通过建立人工智能系统,使用大量样本数据进行训练,让机器模仿人工,获得从数据中提取知识的能力。2006年,科学家根据人脑认知过程的分层特性,提出增加人工神经网络层数和神经元节点数量,加大机器学习的规模.构建深度神经网络,可以提高训练效果,使得神经网络技术成为机器学习分析技术的热点,并在语音识别和图像识别方面取得了很好的效果。
--------------本文结束 感谢您的阅读--------------