Hudi Payload操作说明中包含哪些关键的解密步骤？

1、Payload机制：Hudi Payload是一种可扩展的数据处理机制，允许用户通过不同的Payload类实现定制化的数据写入方式，这种机制在写入和读取Hudi表时对数据进行去重、过滤、合并等操作。

2、为何需要Payload：传统的整行插入和覆盖方式无法满足所有场景需求，特别是在需要对写入数据进行特定处理（如去重、部分字段更新）时，Hudi的Payload机制提供了更灵活的解决方案。

（图片来源网络，侵删）

3、Payload的作用机制：

在写入Hudi表时，需要指定一个参数hoodie.datasource.write.precombine.field，即Precombine Key，Payload根据这个字段处理数据，将每条数据构建成一个Payload对象，数据间的比较变成Payload之间的比较。

所有Payload都实现了HoodieRecordPayload接口，该接口包含两个重要方法：preCombine和combineAndGetUpdateValue。

4、常用Payload类及其区别：

Payload类	更新逻辑与适用场景
OverwriteWithLatestAvroPayload	永远用新数据更新老数据全部字段，适合每次更新数据都是完整的场景
OverwriteNonDefaultsWithLatestAvroPayload	将新数据中的非空字段更新到老数据中，适合每次更新数据只有部分字段的场景
DefaultHoodieRecordPayload	根据preCombine key比较是否要更新数据，适合实时入湖且入湖顺序乱序的场景

5、测试示例：