——烽火大数据平台DataInsight
1、引言
大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。
我国目前正在大力开展智慧城市的建设,智慧城市本身能产生大量的数据。百度大概每天要处理60亿条搜索需求,几十个PB的数据;中国联通用户上网记录一秒就能收集到83万条,一个月就能收集到1万亿条;国家电网公司信息中心现在存储的数据量已经达到2PB。大数据的挖掘对我国智慧城市的经济发展和社会管理是无形的生产资料,大数据价值的合理共享和利用会创造巨大的社会财富。
大数据是新一代自然资源,并且是不断增长的新型资源。而若要将大数据资源转化为脚踏实地的大数据价值,则需要我们彻底的改变传统的数据处理方法和思维模式。数据规模越大,处理的难度也越大,传统处理数据的“IOE”组合,已经越来越不能满足用户的需求,而且昂贵的价格也让一些企业对大数据望而却步。
开源的Hadoop目前已经成为大数据处理事实上的标准,但对于企业用户,开源系统有着很多不确定性,并且有许多地方不能满足企业应用的需求。烽火在对Hadoop生态系统深入研究的基础上,推出了DataInsight平台。
2、DataInsight平台简介
DataInsight平台是烽火科技推出的基于云计算技术,面向大数据存储和计算的数据处理平台,主要针对行业与企业客户,为企业提供一站式、弹性的、高性能、高可用、高性价比的大数据处理平台。
DataInsight平台可以支持结构化、半结构化和非结构化等各种数据源,并为其提供统一的数据存储和数据计算平台。
DataInsight可以应用在电信行业、互联网以及智慧城市等各种行业中,DataInsight为各种应用提供基础的存储和计算平台。
图1 DataInsight平台
DataInsight平台的基本特点:
- 大数据的存储,存储容量可至万亿行、PB级
- 大数据即时查询、存取,百亿条记录可秒级响应
- 大数据的分析、挖掘,通过数据挖掘算法的实现来获取快、精、准的响应
3、DataInsight架构
DataInsight平台采用三层体系架构,并提供可视化管理平台,利用双引擎技术将数据实时查询计算和统计分析完美结合。
图2 DataInsight平台架构
存储层
DataInsight平台的存储层是基于HBase的NoSql 数据库和Hadoop的HDFS分布式文件系统的。其采用了自主的高效存储方法,提高了存储效率和IO,同时增强了数据安全性。
计算层
DataInsight平台的计算层采用自主研发的智能SQL引擎,包括实时分析引擎和批量分析引擎,将查询任务智能分解,并路由到合适的引擎进行处理,实现智能分析。
接口层
DataInsight平台的接口层提供符合SQL92标准语法和数据类型,完整的JDBC驱动,以及可编程数据操作接口,实现用户数据无缝迁移。
管理平台
DataInsight平台的管理平台融合数据管理和集群维护两大功能,平台信息通过可视化图表和界面呈献给用户,增强了系统易用性,降低了维护成本。
4、DataInsight平台的优势
针对运营商、智慧城市、金融证券等数据密集型行业和企业对大数据平台的需求,DataInsight平台相对于业界其他大数据平台的主要优势表现在以下三个方面:
高性能
易用性高:使用简单,不改变业务的使用习惯。
入库性能高:文件批量 ETL性能高;并发请求处理能力高。
实时查询性能高:通过高效存储方法、二级索引技术、智能SQL引擎技术,使PB级数据查询能够秒级返回。
统计分析性能高:统计分析性能远远高于基于Hadoop技术的Hive。
低成本
投资成本低:平台基于X86服务器进行部署,是传统IOE方案投资成本的1/N。
数据迁移成本低:支持SQL92标准语法和数据类型,支持完整功能的JDBC驱动;可实现将Excel、CSV等数据导入到平台中,进行统一处理和分析。
后期维护成本低:Scale-Out扩展方式,实现设备的随时增加,从而使得性能能随之增加;通过节点HA和数据冗余,在出现如磁盘故障、网络故障、服务器故障等情况时保证大数据平台的稳定性和连续性,保证集群业务的整体可靠性;管理平台集部署、管理、监控、维护于一体,降低维护成本和管理难度。
高安全
访问安全:平台具有完备的数据访问控制机制。
数据安全:数据存储层的加密机制,保证数据密文存储,能做到对敏感数据的安全管控。
5、自主核心技术
开源大数据软件的一个明显特性是存在诸多的Bug,性能未经调优,功能不够完善。DataInsight在深入理解开源技术的基础上,针对运营商、智慧城市、金融证券等数据密集型行业和企业等现有业务的特点增加了烽火自己的核心技术。主要的几项核心技术为:
高效并行处理架构
基于MPP并行和优化的MapReduce技术。DataInsight平台对查询任务实现分解,从而提升了数据查询和分析的实时性。
高效存储方式
通过基于HBase的自主研发的高效存储技术,并结合高效的压缩算法,DataInsight平台大幅的节省了存储空间,提升了磁盘I/O和数据读写的实时性。
二级索引
DataInsight平台通过实现HBase的分布式二级索引技术,可以有效的避免查询过程中的全表扫描,从而提升实时查询性能。
智能SQL引擎
根据不同的应用场景,DataInsight平台能够自动选择合适的处理引擎来对数据进行处理,从而提升系统查询性能。
6、性能指标
我们通过对DataInsight大数据平台进行全面的测试,以及将测试结果与其他大数据平台测试结果进行比较,总结出DataInsight平台的主要指标,如图3:
图3 DataInsight平台主要指标
7、比较
DataInsight对Hadoop生态系统从功能和性能上都进行了大量的扩展和优化。图4展示了DataInsight与Hadoop生态系统的主要功能比较:
图4 DataInsight平台与Hadoop生态系统主要功能对比
DataInsight 不仅在功能上有了大幅改善,在性能上相比于Hive更是有数倍到数百倍的提高,图5是在数据规模在100亿行(800GB)时的测试结果,测试结果显示无论是导入性能、实时查询性能、还是统计分析性能,DataInsight都有很大的提高。
图5 DataInsight与Hive主要性能比较
8、应用领域
大数据产业应该更关注行业领域,行业用户的数据质量高、规模大,挖掘价值高,行业才是中国大数据产业应用和发展的主体。DataInsight平台能为电信运营商、智慧城市、金融证券、交通、卫生等不同行业不断增长的数据处理需求提供稳定高效的技术支持,可帮助用户快速实现对大数据的应用与开发,并以此为起点,增强产业链的应用,共同挖掘并充分释放中国大数据的潜能。DataInsight平台可应用在很多行业:
电信行业:经营分析、智能管道分析、CDR系统建设、用户分析;
智慧城市:智慧医疗、智慧交通、数字城市管理、数据交换;
金融证券:交易历史统计、异常行为检测、商业决策支持;
国防公安:舆情分析、网络安全;
物联网应用:实时统计分析、数据挖掘。
……
9、结束语
大数据时代挑战与机遇并存,正确处理好大数据,绝对是符合行业、企业利益的。Gartner最近对720家企业的调查结果显示,约三分之二的企业计划在今年执行大数据项目。
基于DataInsight的烽火大数据解决方案,能够从高性能、成本低、安全性三个方面更好的满足电信行业、智慧城市、金融证券等数据密集型行业和企业对大数据平台的需求,从而能在大数据时代更好、更快的提高行业和企业的竞争力。