ChunkRecordText 2025.5.31.15

捆绑包

com.snowflake.openflow.runtime | runtime-chunking-nar

描述

将文本进行分块处理,支持按分隔符和最大字符长度递归拆分。输入文本应采用以记录为导向的 FlowFile,与配置的记录阅读器格式相匹配。

标签

chunk、openflow、text

输入要求

REQUIRED

支持敏感的动态属性

false

属性

属性

描述

块计数字段名称

记录中的字段名称,用于写入从原始记录创建的块总数。

分块分隔符

指定以逗号分隔的字符序列列表。元字符 n、r 和 会自动解除转义。分隔符将按顺序递归应用于文本分块。

块索引字段名称

记录中用于写入块索引的字段名称。

分块重叠

每个分块与前后分块之间重叠的最大字符数。

分块策略

对文本进行分块的策略。“递归分隔符”将根据递归字符拆分算法,将文本分成块。在此算法中,输入文本由第一个分隔符拆分,然后合并为不超过“最大分块长度”的块。任何超过“最大分块长度”的拆分都将使用下一个分隔符递归拆分。“最大分块长度”将通过创建大小为“最大分块长度”的块来分块文本。

语言

用于解析句子的语言。

最大分块长度

输出分块中包含的最大字符数。数值设置过高可能会导致内存不足错误。

记录读取器

用于读取 FlowFile 的记录读取器。

记录写入器

用于写入结果的记录写入器。

句子相似阈值

用于确定两个句子是否足够相似以归为同一分块。值为 1.0 表示句子相同。值为 0.0 表示句子完全不同。

文本记录路径

记录中文本字段的记录路径。

清除空格

清除输出文本块周围的空格。

关系

名称

描述

original

输入 FlowFile 将路由到 original 关系。

success

文本块会路由到 success 关系。

写入属性

名称

描述

chunk.strategy

用于分块文本的策略。可为“Max Chunk Length”、“Recursive Delimiters”、“Sentence”、“Semantic”。

chunk.semantic.threshold

用于确定两个句子是否足够相似以归为同一分块。仅在使用“Semantic”分块策略时添加该属性。

chunk.language

用于解析句子的语言。仅在使用“Semantic”或“Semantic”分块策略时添加该属性。

chunk.delimiters

以逗号分隔的分隔符列表,用于对文本进行分块。仅当使用“Recursive Delimiters”分块策略时添加此属性。

chunk.max.chars

每个分块中包含的最大字符数。

语言: 中文