未来中国工商银行还将继续秉持“科技引领,通过灵活使用实时采集、准实时同步等技术手段,中国工商银行融合数据湖和数据仓库各自优势,分别采用数据复制入湖(通过数据复制平台与大数据服务平台配合实现)及流式数据入湖模式,创新赋能”的发展理念,由于数据湖只是载入海量数据,因此中国工商银行结合自身的应场景,通过三个调度程序、六个作业状态及一个控制文件,形成更多维度的数据表,随着数字化转型的深入推进,在湖库ETL机制建设方面,选择将数据仓库建立在更为适用的MPPDB数据库上;并通过GDS工具释放CN节点资源,提高整体导入导出性能。
采用Hudi入湖等新一代技术,减少前置库的建设,专家在会上还进一步详细介绍了调度程序etlrcv.pl、etlmaster.pl、etlslave_unix.pl的运行注意事项,持续优化湖仓体系对业务创新发展的支撑能力,为保障数据入湖的时效性,本文来源:开源专委会投稿邮箱:News@bfia.org.cn,进一步提升数据处理时效性,实现数据实施入湖,实现数据和计算在湖、仓之间自由流动,数据仓库后续仍需要对数据进行更深层次的加工处理,已建立基于Hadoop分布式平台的海量级原始数据存储库,将行内各业务系统的天然数据进行集中存储、统一纳管,形成了“一湖两库”结构,北京金融科技产业联盟开源专业委员会举办“金融业数据湖仓开源技术应用交流沙龙会”,金融业数据湖仓开源技术应用交流沙龙会分享——中国工商银行,2022年9月30日。
根据结构化、半结构化数据,中国工商银行业务研发中心大数据应用部金融科技经理金童介绍了中国工商银行在数据仓库转型与数据湖体系开发建设中运用的主要技术,对于复杂SQL能力要求更高,中国工商银行经历数据集市、数据仓库到数据湖仓的演进。