CountText 2025.5.31.15

捆绑包

org.apache.nifi | nifi-standard-nar

描述

计算传入文本的各种指标。所请求的结果将被记录为属性。生成的 FlowFile 的内容不会被修改。

标签

character、count、line、text、word

输入要求

REQUIRED

支持敏感的动态属性

false

属性

属性

描述

ajust-immediately

如果为 true,则计数器将立即更新,无论 ProcessSession 是提交还是回滚;否则,计数器只有在提交 ProcessSession 时才会增加。

character-encoding

指定要使用的字符编码。

split-words-on-symbols

如果启用,字数统计会将由常用逻辑分隔符 [ _ - . ] 分隔的字符串识别为独立单词(例如,split-words-on-symbols = 4 个单词)。

text-character-count

如果启用,将统计传入文本中包含的字符数(包括空格和符号,但不包括换行符和回车符)。

text-line-count

如果启用,将统计传入文本中包含的行数。

text-line-nonempty-count

如果启用,将统计传入文本中包含非空格字符的行数。

text-word-count

如果启用,将统计传入文本中包含的字词(以空格为界的字母数字字符组)的数量。除非“Split Words on Symbols”为 true,否则常见的逻辑分隔符 [_-.] 不会作为字词的边界。

关系

名称

描述

failure

如果由于某种原因无法统计 FlowFile 的文本内容,则会将原始文件路由到此目标,并且不会将任何内容路由到其他地方

success

FlowFile 包含原始内容,并添加了一个或多个包含相应计数的属性

写入属性

名称

描述

text.line.count

FlowFile 内容中存在的文本行数

text.line.nonempty.count

原始 FlowFile 中存在的文本行数(至少包含一个非空格字符)

text.word.count

原始 FlowFile 中存在的字词数

text.character.count

原始 FlowFile 中存在的字符数(基于指定的字符编码计算)

另请参阅

语言: 中文