笔记-信息技术知识-2.5 新一代信息技术
2.5 新一代信息技术
2.5.1 大数据
1. 大数据概念及关键技术
(1)大数据的概念
早在20世纪的1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将“大数据”热情地赞颂为“第三次浪潮的华彩乐章”。2008年9月《科学》(Science)杂志发表了一篇文章“BigData:ScienceinthePetabyteEra”。“大数据”这个词开始被广泛传播。目前国内外的专家学者对大数据只是在数据规模上达成共识:“超大规模”表示的是GB级别的数据,“海量”表示的是TB级的数据,而“大数据”则是PB级别及其以上的数据。
2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了大数据(BigData)概念。
大数据的来源包括网站浏览轨迹、各种文档和媒体、社交媒体信息、物联网传感信息、各种程序和App的日志文件等。大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合,其具有4V特性:**体量大(Volume)、多样性(Variety)、价值密度低(Value)、快速化(Velocity)**的显著特征。
重点内容
- 体量大(Volume)
体量大指数据量巨大,而且非结构化数据的超大规模和增长快速,非结构化数据占总数据量的80%~90%,其增长比结构化数据快10倍到50倍。大数据处理的数据量是传统数据仓库的10倍到50倍。 - 多样性(Variety)
多样性指数据类型包括结构化数据、半结构化数据和非结构化数据,具有很多不同形式(文本、图像、视频、机器数据),这些数据无模式或者模式不明显,并且属于不连贯的语法或句义。 - 价值密度低(Value)
价值密度低指类似沙里淘金,从海量的数据里面获得对自己有用的数据,要处理大量的不相关信息。大数据同时也意味深度复杂分析,比如机器学习和人工智能,甚至可以对未来趋势与模式的进行预测分析。 - 快速化(Velocity)
大数据处理的数据通常指实时获取需要的信息,进行实时分析而非批量式分析,数据处理通常立竿见影而非事后见效。
(2)大数据关键技术
大数据所涉及的技术很多,主要包括数据采集、数据存储、数据管理、数据分析与挖掘4个环节。在数据采集阶段主要使用的技术是数据抽取工具ETL。在数据存储环节主要有结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库,通过数据查询语言(SQL)来访问;非结构化(如图片、视频、doc文件等)和半结构化数据一般通过分布式文件系统的NoSQL(Not Only SQL)进行存储。大数据管理主要使用了分布式并行处理技术,比较常用的有MapReduce,借助MapReduce编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。数据分析与挖掘是根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示,与ETL一样,数据分析和挖掘是以前数据仓库的范畴,只是在大数据中得以更好的利用。
HDFS
Hadoop 分布式文件系统(HDFS)是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于论文。Bigtable
一个结构化数据的分布式存储系统”,HBase在 Hadoop 之上提供了类似于 Bigtable 的能力。利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hbase是基于列的而不是基于行的模式。MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念 “Map(映射)”和“Reduce(归约)”,以及它们的主要思想,都是从函数式编程语言里借来的。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。Chukwa
Chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。
2. 大数据应用
大数据受到越来越多行业巨头们的关注,使得大数据渗透到更广阔的领域,除了电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。各行业在大数据应用上的契合度如图2.6所示。
(1)互联网和电子商务行业
应用最多的是用户行为分析,主要研究对象用户在互联网、移动互联网上的访问日志、用户主体信息和外景环境信息,从而挖掘潜在客户,进行精准广告或营销。例如某电商通过用户对产品浏览信息的分析,得到大约10%的用户会在浏览该产品一周后下单,从而在该城市的物流中心进行备货,大大提高发货速度,降低仓库成本。用户日志一般包括下列几类数据:
- 网站日志:用户在访问某个目标网站时,网站记录的用户相关行为信息;
- 搜索引擎日志:记录用户在该搜索引擎上的相关行为信息;
- 用户浏览日志:通过特定的工具和途径记录用户所浏览过的所有页面的相关信息,如浏览器日志、代理日志等;
- 用户主体数据:如用户群的年龄、受教育程度、兴趣爱好等;
- 外界环境数据:如移动互联网流量、手机上网用户增长、自费套餐等。
(2)电信/金融
通过对用户的通信、流量、消费等信息进行分析,判断用户的消费习惯和信用能力,可以给用户设计更贴合的产品,提升产品竞争力。
(3)政府
首先政府通过对大数据的挖掘和实时分析,可有效提高政府决策的科学性和时效性,并且能帮助政府有效削减预算开支。其次借助大数据可以使政府变得更加开放、透明和智慧。大数据可以使政府更清楚地了解公民的意愿和想法,可以提升公民的价值,还可以通过引导社会的舆论,为社会公众提供更好的服务,树立更好的政府形象。
(4)医疗
例如,某互联网公司“流感趋势”项目深受相关研究人员的欢迎,它依据网民搜索内容分析全球范围内流感等病疫传播状况,与美国疾病控制和预防中心提供的报告进行比对,事实证明两者有很大关联。社交网络为许多患者提供临床症状交流和诊治经验分享的平台,医生借此可获得在医院通常得不到的临床效果统计数据。
(5)制造
从前的制造业通常以产品为导向,以降低生产成本来决定制造业的生存和发展。而如今如果继续以这种理念来维持企业的发展,必将导致制造业的暗淡。越来越多的制造业早已明白,个性化定制将是发展的趋势,所以制造业需要处理好大数据,通过对海量数据的获取,挖掘和分析,把握客户的需求,从而交付客户喜欢的产品。
2.5.2 云计算
1. 云计算概念及关键技术
(1)云计算概念
云计算是指基于互联网的超级计算模式,通过互联网来提供大型计算能力和动态易扩展的虚拟化资源。云是网络、互联网的一种比喻说法。云计算是一种大集中的服务模式:服务器端可以通过网格计算,将大量低端计算机和存储资源整合在一起,提供高性能的计算能力、存储服务、应用和安全管理等;客户端可以根据需要,动态申请计算、存储和应用服务,在降低硬件、开发和运维成本的同时,大大拓展了客户端的处理能力。用一句话概括云计算就是通过网络提供可动态伸缩的廉价计算能力,其通常具有下列特点:
(2)云计算架构
从对外提供的服务能力来看,云计算的架构可以分为3个层次:**基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)**。
- 基础设施即服务(IaaS)
英文为 Infrastructure as a Service ,指消费者通过Internet可以从云计算中心获得完善的计算机基础设施服务,例如虚拟主机、存储服务等。如果把云计算比作一台计算机,IaaS就相当于计算机的主机等硬件。 - 平台即服务(PaaS)
英文为 Platform as a Service ,指为云计算上各种应用软件提供服务的平台应用,其作用类似于个人计算机的操作系统,也包括一些增强应用开发的“开发包”。 - 软件即服务(SaaS)
英文为 Software as a Service ,是一种通过Internet提供软件的模式,用户无须购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。类似于个人计算机中各种各样的应用软件。
从云计算的核心,及大型数据中心的内部结构来看,其结构包括资源池、云操作系统和云平台接口,如图2.7所示。
资源池:指集群管理的各种基础硬件资源,如CPU、存储和网络带宽等。
云操作系统:通过虚拟化技术对资源池中的各种资源进行统一调度管理。
云平台接口:用户应用调用云计算资源的接口。
(3)云计算关键技术
云计算关键技术包括网格计算和虚拟化两种。
网格计算是一种计算能力提升的方式,其原理是依据并行计算理论,通过任务分解,将子任务分布式提交到其他服务器上运行,以获得更强大计算能力。网格计算的基础技术就是 Web Services
。云计算的平台技术,主要依赖于 SOA
,而我们知道 SOA
的主要实现技术体系也就是 Web Services
,因此云计算和网格计算的核心技术基础是相似的,但也有所不同,如表2.1所示。
虚拟化,即基础设施的虚拟化,核心是传统已经成熟的集群计算和分区计算的结合。集群计算将多台服务器虚拟为一台服务器的技术,目的是提高计算能力和提升设备的容错、实现负载均衡。集群计算已广泛应用于操作系统、数据库和中间件等系统软件平台。而分区计算是大型主机和UNIX小型机上一种成熟的技术,是将一台服务器虚拟为多台服务器,每个虚拟单元叫分区并且之间是相互隔离的,目的是提高资源利用率。
虚拟化目前还包括**网络虚拟化(VPN)和存储虚拟化(SAN/NAS)**等技术,与服务器虚拟化一起,构建为一个完整的计算资源虚拟化环境,在虚拟化管理系统的控制下,实现动态的可配置的智能系统。
2. 云计算应用
从服务层次来看,如前所述,云计算的应用可分为基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)3个层次。
从应用范围来看,云计算又可分为公有云、私有云和混合云。
- 公有云,通常指第三方提供商用户能够使用的云,公有云一般可通过Internet使用,可能是免费或成本低廉的。
- 私有云,是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制。该公司拥有基础设施,并可以控制在此基础设施上部署应用程序的方式。
- 混合云,就是将公有、私有两种模式结合起来,根据需要提供统一服务的模式。
从行业来看,在国内云计算应用较多的行业包括金融、政府、电子商务、游戏、音视频网站、移动应用、门户和社区等。随着数据安全性增强、网络带宽增长和云计算应用模式的成熟,云计算将在更多行业和领域得到应用。
2.5.3 物联网
1. 物联网概念及关键技术
(1)物联网概念
物联网(IoT:Internet of Things)即“物物相联之网”,指通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把物与物、人与物进行智能化连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种新兴网络。从计算机的协同处理来划分,可分为独立计算、互联网和物联网时代,如图2.8所示。
物联网不是一种物理上独立存在的完整网络,而是架构在现有互联网或下一代公网或专网基础上的联网应用和通信能力,是具有整合感知识别、传输互联和计算处理等能力的智能型应用。
物联网概念的3个方面:
- 物:客观世界的物品,主要包括人、商品、地理环境等。
- 联:通过互联网、通信网、电视网以及传感网等实现网络互联。
- 网:首先,应和通信介质无关,有线无线都可。其次,应和通信拓扑结构无关,总线、星型均可。最后,只要能达到数据传输的目的即可。
(2)物联网架构
物联网从架构上面可以分为感知层、网络层和应用层,如图2.9所示。
感知层
负责信息采集和物物之间的信息传输,信息采集的技术包括传感器、条码和二维码、RFID射频技术、音视频等多媒体信息,信息传输包括远近距离数据传输技术、自组织组网技术、协同信息处理技术、信息采集中间件技术等传感器网络。是实现物联网全面感知的核心能力,是物联网中包括关键技术、标准化方面、产业化方面亟待突破的部分,关键在于具备更精确、更全面的感知能力,并解决低功耗、小型化和低成本的问题。
网络层
是利用无线和有线网络对采集的数据进行编码、认证和传输,广泛覆盖的移动通信网络是实现物联网的基础设施,是物联网三层中标准化程度最高、产业化能力最强、最成熟的部分,关键在于为物联网应用特征进行优化和改进,形成协同感知的网络。
应用层
提供丰富的基于物联网的应用,是物联网发展的根本目标,将物联网技术与行业信息化需求相结合,实现广泛智能化应用的解决方案集,关键在于行业融合、信息资源的开发利用、低成本高质量的解决方案、信息安全的保障以及有效的商业模式的开发。
各个层次所用的公共技术包括编码技术、标识技术、解析技术、安全技术和中间件技术。
(3)物联网关键技术
感知层作为物联网架构的基础层面,主要是达到信息采集并将采集到的数据上传的目的,感知层主要包括:自动识别技术产品和传感器(条码、RFID、传感器等),无线传输技术(WLAN、Blue tooth、ZigBee、UWB),自组织组网技术和中间件技术,如图2.10所示。
2. 物联网应用
物联网的产业链(如图2.11所示)包括传感器和芯片、设备、网络运营及服务、软件与应用开发和系统集成。作为物联网“金字塔”的塔座,传感器将是整个链条需求总量最大和最基础的环节。将整体产业链按价值分类,硬件厂商的价值较小,占产业价值大头的公司通常都集多种角色为一体,以系统集成商的角色出现。
(1)智能微尘
智能微尘(smartdust)(2001,美国国防部计划)是指具有电脑功能的一种超微型传感器,它可以探测周围诸多环境参数,能够收集大量数据,进行适当计算处理,然后利用双向无线通信装置将这些信息在相距1000英尺的微尘器件间往来传送。智能微尘的应用范围很广,除了主要应用于军事领域外,还可用于健康监控、环境监控、医疗等许多方面。
(2)智能电网
物联网技术在传感技术、电网通信整合、安全技术和先进控制方法等关键技术领域助力美国新一代智能电网的建设,使配电系统进入计算机智能化控制的时代,以美国的可再生能源为基础,实现美国发电、输电、配电和用电体系的优化管理。
(3)智慧物流
大型零售企业沃尔玛,拥有全美最大的送货车队,车辆全部安装了综合了GPS卫星定位、移动通信网络等功能的车载终端,调度中心可实时掌握车辆及货物的情况高效利用物流资源设施,使沃尔玛的配送成本仅占销售额的2%,远低于同行高达10%甚至20%的物流成本。提高物流效率,实现物流的全供应链流程管理支持。
(4)智能家居
提供基于网络的通信,进行家居和建筑的自动化控制和外部共享信息,应用包括家庭安防类、信息服务类和家电设备管理等应用。
(5)智能交通
瑞典在解决交通拥挤问题时,通过使用RFID技术、激光扫描、自动拍照和自由车流路边系统,自动检测标识车辆,向工作进出市中心的车辆收取费用。提供汽车信息服务,支持交通管理,车辆控制和安全系统,公共交通管理,商用车运营管理,交通应急管理以及出行和交通需求管理等领域。
(6)智慧农业
荷兰阿姆斯特丹对城市建筑有另一个层面的应用,即利用城市内废弃建筑的多层结构提高种植面积,并利用物联网的感知与智能技术就地改造建筑内的LED照明设备与供水排水管道,形成自动根据天气条件补充光照与水分的城市农业。整合新型传感器技术,全流程的牧业管理和支持精细农业,应用涉及食品安全溯源,环境检测等应用。
(7)环境保护
环境监测、河流区域监控、森林防火、动物监测等应用。
(8)医疗健康
基于RFID技术的医疗健康服务管理,应用涉及医疗健康服务管理,药品和医疗器械管理以及生物制品管理等应用。
(9)城市管理:应用物联网支撑城市综合管理,实现智慧城市。
(10)金融服务保险业:依靠物联网支撑金融和保险行业体系,实现便捷和健壮的服务,应用涉及安全监控,手机钱包等。
(11)公共安全:主要应用于机场防入侵,安全防范,城市轨道防控,城市公共安全等方面。
2.5.4 移动互联网
1. 移动互联网概念及关键技术
1)移动互联网概念
移动互联网一般是指用户用手机等无线终端,通过3G(WCDMA、CDMA2000或者TD-SCDMA)或者WLAN等速率较高的移动网络接入互联网,可以在移动状态下(如在地铁、公交车上等)使用互联网的网络资源。
从技术层面的定义:以宽带IP为技术核心,可以同时提供语音、数据、多媒体等业务的开放式基础电信网络。从终端的定义:用户使用手机、上网本、笔记本电脑、平板电脑、智能本等移动终端,通过移动网络获取移动通信网络服务和互联网服务。
移动互联网=移动通信网络+互联网内容和应用,不仅是互联网的延伸,而且是互联网的发展方向。
移动终端在处理能力、显示效果、开放性等方面则无法和PC相提并论,但在个性化、永远在线、位置性等方面强于PC。移动终端具有的小巧轻便、随身携带的两个特点决定了移动互联网不仅具有传统互联网应用的简单复制和移植,还应具有下列新特征:
- 接入移动性:移动终端的便携性使得用户可以在任意场合接入网络,移动互联网的使用场景是动态变化的。
- 时间碎片性:用户使用移动互联网的时间往往是上下班途中、工作之余、出差等候间隙等碎片时间,数据传输具有不连续性和突发性。
- 生活相关性:移动终端被用户随身携带,具有唯一号码与移动位置关联的特性,使得移动应用可以进入人们的日常生活,满足衣食住行、吃喝玩乐等需求。
- 终端多样性:目前各手机厂商分足鼎立,拥有各自不同的操作系统和类型多样的底层硬件终端,尚未形成统一的标准化接口协议。
2)移动互联网关键技术
移动互联网的关键技术包括架构技术SOA、页面展示技术Web2.0和HTML5、以及主流开发平台Android、iOS和WindowsPhone。
(1)SOA
SOA(Service-Oriented Architecture,面向服务的架构)是一种粗粒度、松耦合服务架构,服务之间通过简单、精确定义接口进行通信,不涉及底层编程接口和通信模型。SOA可以看作是B/S模型、XML(标准通用标记语言的子集)/WebService技术之后的自然延伸。
Web Service是现在实现SOA的主要技术,是一个平台独立的,低耦合的,自包含的、基于可编程的web应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。WebService技术,能使得运行在不同机器上的不同应用无须借助附加的、专门的第三方软件或硬件,就可相互交换数据或集成。依据Web Service规范实施的应用之间,无论它们所使用的语言、平台或内部协议是什么,都可以相互交换数据。
SOA支持将业务转换为一组相互链接的服务或可重复业务任务,可以对这些服务进行重新组合,以完成特定的业务任务,从而使业务能够快速适应不断变化的客观条件和需求。
(2)Web 2.0
Web 2.0严格来说不是一种技术,而是提倡众人参与的互联网思维模式,是相对于Web1.0的新的时代。Web2.0指的是一个利用Web的平台,由用户主导而生成的内容互联网产品模式,为了区别传统由网站雇员主导生成的内容而定义为第二代互联网,即Web2.0,是一个新的时代。表2.2显示Web2.0与Web1.0的区别。
(3)HTML 5
HTML5在原有HTML基础之上扩展了API,使WEB应用成为RIA(RichInternet Applications),具有高度互动性、丰富用户体验以及功能强大的客户端。HTML5的第一份正式草案已于2008年1月22日公布。HTML5的设计目的是为了在移动设备上支持多媒体,推动浏览器厂商,使Web开发能够跨平台跨设备支持。HTML5仍处于完善之中。然而,大部分现代浏览器已经具备了某些HTML5支持。
HTML5相对于HTML4是一个划时代的改变,新增了很多特性,其中重要的特性包括:
- 支持WebGL、拖曳、离线应用和桌面提醒,大大增强了浏览器的用户使用体验。
- 支持地理位置定位,更适合移动应用的开发。
- 支持浏览器页面端的本地储存与本地数据库,加快了页面的反应。
- 使用语义化标签,标签结构更清晰,且利于SEO。
- 摆脱对Flash等插件的依赖,使用浏览器的原生接口。
- 使用CSS3,减少页面对图片的使用。
- 兼容手机、平板电脑等不同尺寸、不同浏览器的浏览。
HTML5手机应用的最大优势就是可以在网页上直接调试和修改。原有应用的开发人员可能需要花费非常大的力气才能达到HTML5的效果,不断地重复编码、调试和运行。因此现在有许多手机杂志客户端是基于HTML5标准,开发人员就可以轻松进行调
试修改。
(4)Android
Android一词的本义指“机器人”,是一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑。很多移动重点厂商在标准
Android基础上封装成自有的操作系统。
在移动终端开发方面,Android的市场占有率一枝独秀,据IDC2014年底预计,2015年Android市场份额将达到45.4%,成为全球最大智能手机操作系统。2015年WindowsPhone市场份额将从今年的5.5%增至20.9%,成为继Android之后的第2大系统。
相对其他移动终端操作系统,Android的特点是入门容易,因为Android的中间层多以Java实现,并且采用特殊的Dalvik“暂存器型态”Java虚拟机,变量皆存放于暂存器中,虚拟机的指令相对减少,开发相对简单,而且开发社群活跃,开发资料丰富。
(5)iOS
iOS是一个非开源的操作系统,其SDK本身是可以免费下载的,但为了发布软件,开发人员必须加入某品牌开发者计划,其中有一步需要付款以获得某品牌的批准。加入了之后,开发人员们将会得到一个牌照,他们可以用这个牌照将他们编写的软件发布到某品牌的网上软件商店。
iOS的开发语言是Objective-C、C和C++,加上其对开发人员和程序的认证,开发资源相对较少,所以其开发难度要大于Android。
(6)WindowsPhone
简称WP,是一款手机操作系统,WindowsPhone的开发技术有C、C++、C#等。WindowsPhone的基本控件来自控件Silverlight的.NETFramework类库,而.NET开发具备快捷、高效、低成本的特点。
2. 移动互联网应用
(1)娱乐类:工作之余的休闲及娱乐需求,包括游戏、音乐、旅游、运动、时尚信息等。
(2)交流类:社交需求与情感交流,包括交友、与亲人之间的感情交流。
(3)学习类:提升自身素质需求,包括外语、专业课程、技能培训等。
(4)生活类:包括购物需求(日用品等)和生活需求(健康、热点新闻、理财、饮食等)。
(5)商务类:工作方面的需求,包括求职、行业信息等。
(6)工具类:为了满足以上需求而进行手机优化、搜索等。