10月22日上午,2021杭州云栖大会大数据平台技术论坛中,阿里云和各行业客户、大数据开发者共同探讨大数据平台技术发展趋势及最新演进,围绕业内持续受到关注的数据仓库、数据湖、湖仓一体架构等技术和云上实战经验进行了深入交流,并由阿里云智能计算平台产品与解决方案总经理高雪峰和阿里云智能研究员、阿里云智能通用计算平台MaxCompute、机器学习PAI平台技术负责人林伟分别对阿里云新一代离线实时一体化数仓与湖仓一体进行了全新升级发布,对这两项大数据技术进行了深入解读。
阿里云智能研究员、通用计算平台MaxCompute、机器学习PAI平台技术负责人林伟
云上数仓离在线一体化,实现分析性能提升
实时化和智能化成为云上数仓服务的发展方向。越来越多的企业无法忍受数据经过T+1的离线处理之后,再产生指导业务数据决策的漫长工作,而是希望能在不断产生实时数据的同时,与既有的离线数据一起产生实时洞察,从而立即产生业务所需的策略。
据高雪峰介绍,游戏玩家在游戏体验过程中,按照玩家的即时需求给他推送对当前游戏体验有很大帮助的礼包,在满足玩家体验的同时,也会增加付费转化率;在证券交易实时数据产生时,通过离在线一体化的数据分析实现交易,满足监管机构的管理要求,更好的帮助机构控制风险。
阿里云智能计算平台产品与解决方案总经理高雪峰
云上数仓离在线一体化方案,针对用户在分析领域各种时效性的需求,按需提供服务。离线大数据分析MaxCompute与实时数仓Hologres实现深度集成,对离线数据的实时化分析可以实现10倍性能的提升。
在实时数仓的内部构件当中,可以通过实时计算Flink版的能力实现事件驱动的实时数仓的构建。向外可以对数据湖中的数据进行高效的分析,实现数据高速入仓,通过对标准开放的SQL协议的支持,实现对19款主流BI工具的原生支持,帮助客户快速构建从数据集成到数据分析界面的数仓应用。
数据规模越来越大,集群规模越来越大,一定会对大数据平台的运维能力产生很大的挑战,在海量数据可管,可控下,通过查询优化技术和文件存储优化技术将大规模集群的优势发挥到极致,并通过冷热冰存储的自动分层,为用户降低存储增长带来的成本的提升。智能数仓解决了大部分企业运维难的问题,真正做到企业大数据平台的智能驾驶。
湖仓一体新升级2.0,真正做到一份数据,统一管控,多样分析
最近,数据湖的形态被众多企业所使用,这种技术形态决定了企业很容易管理数据,并在其之上使用丰富的开源引擎做各种形态的计算。同时,在传统报表等BI应用催生下,企业已经构建的数据仓库形成了“数据孤岛”,数据间协同分析很难被执行,而且大部分企业没有将所有数据进行大集中处理的能力。
在应用需求催生下,面向不同的仓和湖形态的数据存储和分析,企业有了非常强的数据互通需求。这也是“湖仓一体”的产生的背景。去年,阿里云“湖仓一体”打通云上数仓产品“MaxCompute”与数据湖产品“EMR”,经过一年的客户磨练与沉淀,“湖仓一体”有了2.0的新能力。
从购买体验上,用户可以在线上分钟级打通云上Severless数据仓库(MaxCompute)和云原生数据湖(EMR+OSS),实现统一元数据、存储方面的安全互通。不仅更好的支持标准HDFS的数据访问,而且持续优化对OSS对象存储高速访问性能,扩展支持Hudi、Delta Lake等开源数据湖格式。MaxCompute计算服务通过对智能缓存能力的升级,使访问EMR数据湖中的数据有10+倍性能的提升。
换句话说,湖仓一体2.0可以帮助企业消除数据孤岛,通过DataWorks将不同形态的数据统一管理与治理起来,并对特定应用加速分析。同时也可以帮助企业在新建数仓或者数据湖的同时,对既有系统进行充分利旧,在应用需求日趋迫切的时候,为企业规避了进行数据大集中的决策性风险。