SampleRecord 2025.5.31.15¶
捆绑包¶
org.apache.nifi | nifi-standard-nar
描述¶
根据指定的抽样策略(例如蓄水池抽样算法),对 FlowFile 的记录进行抽样。生成的 FlowFile 可能包含以下三种记录形式:固定记录数(适用于基于蓄水池的算法);总记录数的子集(适用于概率抽样算法);确定数量的记录(适用于间隔抽样算法)。
输入要求¶
REQUIRED
支持敏感的动态属性¶
false
属性¶
属性 |
描述 |
---|---|
record-reader |
指定用于解析传入数据和确定数据架构的控制器服务 |
record-writer |
指定用于将结果写入到 FlowFile 的控制器服务 |
sample-record-interval |
指定在将记录写入传出 FlowFile 之前要跳过的记录数。只有在“抽样策略”设置为“间隔抽样”时,才使用此属性。值为零 (0) 将导致传出 FlowFile 中不包含任何记录,值为一 (1) 将导致包含所有记录,值为二 (2) 将导致包含一半的记录,依此类推。 |
sample-record-probability |
指定传出 FlowFile 中包含记录的概率(以 0-100 的百分比表示)。仅当“抽样策略”设置为“概率抽样”时,才使用此属性。值为零 (0) 将导致传出 FlowFile 中不包含任何记录,值为 100 将导致传出 FlowFile 中包含所有记录。 |
sample-record-random-seed |
指定一个特定的数字,用作随机数生成器的种子(供概率策略使用)。设置此属性将确保选择相同的记录,即使使用概率策略也如此。 |
sample-record-range |
指定样本中要包含的记录范围,从 1 到记录总数。一个示例是“3,6-8,20-”,它包括第 3 条记录、第 6 条、第 7 条和第 8 条记录,以及从第 20 条记录开始的所有记录。以逗号分隔不重叠的间隔,间隔可以介于两个数字之间(即 6-8),也可以在给定数字之间(即 -5),也可以从一个数字到最后一条记录的数字(即 20-)。如果未设置此属性,则将包括所有记录。 |
sample-record-reservoir |
指定要写入传出 FlowFile 的记录数。仅当 Sampling Strategy 设置为基于蓄水池的策略(例如蓄水池抽样算法)时,才使用此属性。 |
sample-record-sampling-strategy |
指定使用哪种方法对传入 FlowFile 的记录进行抽样 |
关系¶
名称 |
描述 |
---|---|
failure |
如果由于任何原因(例如,记录无效)导致 FlowFile 处理失败,则原始 FlowFile 将路由到此关系 |
original |
如果抽样成功,则原始 FlowFile 将路由到此关系 |
success |
如果抽样成功完成,则 FlowFile 将路由到此关系 |
写入属性¶
名称 |
描述 |
---|---|
mime.type |
记录写入器指定的 MIME 类型 |
record.count |
生成的 FlowFile 中的记录数 |