SampleRecord 2025.5.31.15

捆绑包

org.apache.nifi | nifi-standard-nar

描述

根据指定的抽样策略(例如蓄水池抽样算法),对 FlowFile 的记录进行抽样。生成的 FlowFile 可能包含以下三种记录形式:固定记录数(适用于基于蓄水池的算法);总记录数的子集(适用于概率抽样算法);确定数量的记录(适用于间隔抽样算法)。

标签

interval、range、record、reservoir、sample

输入要求

REQUIRED

支持敏感的动态属性

false

属性

属性

描述

record-reader

指定用于解析传入数据和确定数据架构的控制器服务

record-writer

指定用于将结果写入到 FlowFile 的控制器服务

sample-record-interval

指定在将记录写入传出 FlowFile 之前要跳过的记录数。只有在“抽样策略”设置为“间隔抽样”时,才使用此属性。值为零 (0) 将导致传出 FlowFile 中不包含任何记录,值为一 (1) 将导致包含所有记录,值为二 (2) 将导致包含一半的记录,依此类推。

sample-record-probability

指定传出 FlowFile 中包含记录的概率(以 0-100 的百分比表示)。仅当“抽样策略”设置为“概率抽样”时,才使用此属性。值为零 (0) 将导致传出 FlowFile 中不包含任何记录,值为 100 将导致传出 FlowFile 中包含所有记录。

sample-record-random-seed

指定一个特定的数字,用作随机数生成器的种子(供概率策略使用)。设置此属性将确保选择相同的记录,即使使用概率策略也如此。

sample-record-range

指定样本中要包含的记录范围,从 1 到记录总数。一个示例是“3,6-8,20-”,它包括第 3 条记录、第 6 条、第 7 条和第 8 条记录,以及从第 20 条记录开始的所有记录。以逗号分隔不重叠的间隔,间隔可以介于两个数字之间(即 6-8),也可以在给定数字之间(即 -5),也可以从一个数字到最后一条记录的数字(即 20-)。如果未设置此属性,则将包括所有记录。

sample-record-reservoir

指定要写入传出 FlowFile 的记录数。仅当 Sampling Strategy 设置为基于蓄水池的策略(例如蓄水池抽样算法)时,才使用此属性。

sample-record-sampling-strategy

指定使用哪种方法对传入 FlowFile 的记录进行抽样

关系

名称

描述

failure

如果由于任何原因(例如,记录无效)导致 FlowFile 处理失败,则原始 FlowFile 将路由到此关系

original

如果抽样成功,则原始 FlowFile 将路由到此关系

success

如果抽样成功完成,则 FlowFile 将路由到此关系

写入属性

名称

描述

mime.type

记录写入器指定的 MIME 类型

record.count

生成的 FlowFile 中的记录数

语言: 中文