ListAzureDataLakeStorage 2025.5.31.15¶
捆绑包¶
org.apache.nifi | nifi-azure-nar
描述¶
列出 Azure Data Lake Storage Gen 2 文件系统中的目录
输入要求¶
FORBIDDEN
支持敏感的动态属性¶
false
属性¶
属性 |
描述 |
---|---|
最长文件存在时间 |
文件提取的最大允许时间范围;(按照最后修改日期)晚于该时间的任何文件都将被忽略 |
最大文件大小 |
可提取的最大文件大小 |
最短文件存在时间 |
文件提取的最小允许时间范围;(按照最后修改日期)早于该时间的任何文件都将被忽略 |
最小文件大小 |
可提取的最小文件大小 |
adls-credentials-service |
用于获取 Azure 凭据的控制器服务。 |
directory-name |
Azure Storage Directory 的名称。目录名称不能包含前导的“/”。根目录可以由空字符串值指定。对于 PutAzureDataLakeStorage 处理器,如果该目录不存在,则将创建该目录。 |
et-initial-listing-target |
指定应如何处理初始列表。由“跟踪实体”策略使用。 |
et-state-cache |
列出的实体存储在指定的缓存存储器中,这样该处理器在 NiFi 重启后或主节点发生更改时可以恢复列出。“跟踪实体”策略要求在最后一个“跟踪时间窗口”内提供所有列出的实体的跟踪信息。为了支持大量实体,该策略使用 DistributedMapCache 而非托管状态。缓存键格式为“ListedEntities::{processorId}(::{nodeId})”。如果它跟踪每个节点列出的实体,则会添加可选的“::{nodeId}”部分以单独管理状态。例如,集群范围缓存键 =“ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”,每节点缓存键 =“ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3”存储的缓存内容是 Gzipped JSON 字符串。目标列表配置更改时,缓存键将被删除。由“跟踪实体”策略使用。 |
et-time-window |
指定该处理器应跟踪已列出的实体多长时间。“跟踪实体”策略可以选择时间戳在指定时间窗口内的任何实体。例如,如果设置为“30 分钟”,则在该处理器运行时,任何具有最近 30 分钟时间戳的实体都将成为列表目标。如果满足以下条件之一,则列出实体被视为“新的/已更新的”,并发出 FlowFile:1. 不存在于已列出的实体中;2. 具有比缓存实体更新的时间戳;3. 与缓存实体的大小不同。如果缓存实体的时间戳早于指定的时间窗口,则该实体将从缓存的已列出实体中移除。由“跟踪实体”策略使用。 |
file-filter |
只有名称与给定正则表达式匹配的文件才会被列出 |
filesystem-name |
Azure Storage File System(也称为 Container)的名称。假定它已经存在。 |
include-temporary-files |
列出已配置目录路径的内容时是否包含临时文件。 |
listing-strategy |
指定如何确定新的/更新的实体。有关详细信息,请参阅每种策略的描述。 |
path-filter |
当“递归子目录”为 True 时,只会扫描路径与给定正则表达式匹配的子目录 |
proxy-configuration-service |
指定代理配置控制器服务来代理网络请求。在 SOCKS 的情况下,无法保证处理器会使用所选 SOCKS 版本。 |
record-writer |
指定用于创建列表的记录写入器。如果未指定,则将为列出的每个实体创建一个 FlowFile。如果指定了记录写入器,则所有实体都将写入单个 FlowFile,而不是向单个 FlowFiles 添加属性。 |
recurse-subdirectories |
指示是否列出目录子目录中的文件 |
状态管理¶
范围 |
描述 |
---|---|
CLUSTER |
执行文件列表后,将存储最新文件的时间戳。这允许处理器在下次运行时,仅列出在此日期之后添加或修改的文件。状态存储在整个集群中,因此该处理器只能在主节点上运行,如果选择了新的主节点,则新节点可以从前一个节点中断的地方继续,而无需复制数据。 |
关系¶
名称 |
描述 |
---|---|
success |
所有收到的 FlowFiles 都将路由至“success” |
写入属性¶
名称 |
描述 |
---|---|
azure.filesystem |
Azure File System 名称 |
azure.filePath |
Azure File 的完整路径 |
azure.directory |
Azure Directory 的名称 |
azure.filename |
Azure File 名称 |
azure.length |
Azure File 长度 |
azure.lastModified |
Azure File 的最后修改时间 |
azure.etag |
Azure File 的 ETag |