基于Hudi的湖仓一体技术在Shopee的实践

课程 ID: 16126

描述:
案例背景: LakeHouse作为未来一个重要的发展方向,提供了流批一体和湖仓结合的新场景。目前的许多业务中会遇到的数据及时性、准确性、存储的成本问题都可以通过Lakehouse方案解决。当下几个LakeHouse的开源方案都在不断迭代开发中,业界的应用也都是在摸索中前行,在实际的使用中难免会遇到一些不够完善的地方和未支持的特性。Shopee内部在使用过程中基于开源的Hudi定制了自己的版本,以实现企业级的应用和一些内部业务需求的新特性。 解决思路: 采用Hudi实现数据实时入湖 1、使用Hudi的Mor表解决实时数据导入的写放大问题 2、实现自定义payload解决在MOR表上的多流partial update需求 3、在MOR表上实现无锁机制解决多writer写冲突问题 成果: 通过引入Hudi的Data lake方案, 使得Shopee内部业务线的Data process实现了流批一体、增量处理的特性,简化了数据处理流程并提升了性能。