大数据技术百花齐放,不同场景有不同凯发在线的解决方案,多种异构大数据技术并存的混合架构将成为大型组织机构大数据平台的常态,数据湖架构能够有效融合异构技术及异构数据,可以说,数据湖架构会是未来大数据平台建设的一大趋势。——品高数据湖产品总监 李伟文
大数据时代,数据碰撞比传统的数据分析激发更大价值。联系客服小表妹(vx:pingaoyunzzm)了解更多。
而数据碰撞的前提是实现企业内各业务线条之间、跨企业组织之间以及跨行业的数据汇聚、共享和开放。如何有效打破数据孤岛,实现统一的数据汇聚和共享,成为企业所面临的一大关键性问题。
近日,gartner联合品高云发布的《基于数据湖架构的大数据平台》(点击查看详情)实践报告给出了这样的凯发在线的解决方案:数据湖。
gartner认为,通过整合结构化和非结构化数据,数据湖可以把不同数据来源、不同种类的数据汇聚在一起,让用户不必为海量不同的数据构建不同数据库、数据仓库。
品高云数据湖架构示意图
国内首个私有云数据湖
根据《基于数据湖架构的大数据平台》实践报告描述,在亚马逊、微软等纷纷推出基于公有云的数据湖凯发在线的解决方案的当下,品高云是国内首个把数据湖概念引入私有云平台的厂商,其推出的数据湖管理平台bingoinsight可以帮助政府和企业在跨部门、跨组织以及跨行业的数据共享提供基础数据支撑环境。
目前bingoinsight已经在公安、电信等多个行业落地。在某市公安局,品高云数据湖为it部门构建了数据共享和开放的基础设施,帮助其实现数据的统一共享与汇聚,把数据开放给各个部门。
李伟文认为,数据湖技术优势在于存储和计算引擎的分离。相比传统大数据平台的计算和存储是相互耦合的,在大型组织的复杂架构下,数据湖能更好地实现数据整合和异构技术的融合。
数据湖让企业的各个部门可以根据具体的应用场景选择不同的上层计算引擎,却不影响存储以及数据的隔离和共享。存储和计算能够独立扩展,当存储不够的时候单独扩展存储引擎,当计算不够的时候就扩展计算引擎,非常灵活。
品高云数据湖产品功能
以某省公安厅为例,该公安厅的各部门应用均采用了不同的计算引擎,由于技术路线不一,导致数据整合非常困难。在引入品高云数据湖架构之后,某省公安厅很好地解决了异构计算引擎融合的难题,加快了数据资源的汇聚、统一、开放。
当下大数据的发展日新月异,数据湖还可以避免用户在数据迁移方面的苦恼,有利于后续计算技术的更新换代。比如,传统数据仓库向hadoop迁移的过程非常麻烦,现在基于数据湖架构,只需要变更上层的计算引擎,而不用迁移数据。对于后续引入新的计算技术也更方便。
解决数据共享
数据湖大有可为
过去几年来,国家层面高度重视大数据建设,推进政府和公共部门数据资源统一汇聚和集中向社会开放,成为重要的国家战略。数据湖能够融合海量数据资源,创建应用体系,在政府、公安、集团性企业、教育等领域将有很大的发展空间。
目前政府以及集团性企业对于上下级单位、跨部门数据共享的问题,存在强烈的需求。除了可以解决组织内部的数据共享和开放之外,数据湖还可以应用在跨组织、跨行业的数据共享。”李伟文指出。
“此外,政府拥有很多面向公众的数据开放平台,目前基本上停留在静态的数据共享,数据无法及时更新。如果通过数据湖共享平台对社会开放公共数据资源,就可以实现实时数据的便捷化共享,解决数据动态更新的难题。”
在教育行业,通过把数据湖开放给科研机构、高校,能够有效促进基于数据的产学研合作。
“高校拥有技术和算法,企业拥有数据。把企业脱敏后的数据存储至数据湖,由高校进行科研探索,研究成果可以回馈给企业,形成一个基于数据的产学研的闭环。”
品高云数据湖应用场景一览
云计算与数据湖的深度融合
在谈及数据湖与品高云的关系,李伟文认为,数据湖与品高云平台的深度融合,让用户直接利用云的运维来管控整个大数据集群,享受私有云的弹性、安全、多租户隔离等优势,使得用户能够更加专注于业务层面。
“在完成了某个大数据任务后,用户通过云平台直接回收这部分计算资源,大大提升资源的有效利用率。同时,品高云数据湖支持多租户模式,各个部门、各个应用的数据之间可以进行逻辑隔离,保障了数据拥有者的使用权和管理权。并基于完善的授权体系,实现租户之间的数据调用。”
专业的顾问咨询及服务能力一直是品高云的硬实力。“十几年服务于企业用户的经验,使得品高云对于业务的理解都更为深入,能够根据不同的用户实际情况,提供从规划、建设到业务管理的咨询服务,并基于平台进行二次开发来满足个性化需求,让数据湖平台的建设能够更加贴近企业客户的需要。”
以基础性的数据治理为例,很多企业在构建大数据平台的过程中,往往意识不到数据治理的重要性。
“数据的标准化、数据质量以及元数据的管理等等这些脏活、累活往往是缺失的,这样的大数据平台虽然短期内会有一些成果,但是数据不统一、难以提升的数据质量等基础性的数据问题会限制平台的可持续发展,不利于平台的长期运营。”
而数据治理是一个涉及到技术、流程、组织、规范等的系统化工程,除了平台的搭建之外,更需要从数据治理体系的顶层设计进行考量。品高云数据湖在产品体系中提供专门针对数据治理组件的同时,技术团队会为用户提供咨询和规划服务,帮助用户构建一套适合企业自身的数据治理体系,持续运行,提升、挖掘数据的应用价值。
展望未来,李伟文认为,在数据汇聚层面,会有越来越多的企业往跨组织边界的方向拓展,在内部的数据已经汇聚比较完善的情况下,通过往外延伸,与外部数据融合实现创新,来推动商业模式和业务创新。同时,机器学习、区块链等新兴技术也有望在大数据领域大施拳脚。
“虽然目前更多地停留在概念炒作阶段,但随着技术的成熟,相信利用机器学习进行数据预测的落地案例会越来越多,品高云目前正在构建机器学习的相关平台和模型。另外,对于跨组织的数据共享来说,信任是一大问题,这块我们也在基于区块链技术进行积极探索。”