ListAzureDataLakeStorage 2025.10.2.19

捆绑包

org.apache.nifi | nifi-azure-nar

描述

列出 Azure Data Lake Storage Gen 2 文件系统中的目录

标签

adlsgen2、azure、cloud、datalake、microsoft、storage

输入要求

FORBIDDEN

支持敏感的动态属性

false

属性

属性

描述

ADLS Credentials

用于获取 Azure 凭据的控制器服务。

Directory Name

Azure Storage Directory 的名称。目录名称不能包含前导的“/”。根目录可以由空字符串值指定。对于 PutAzureDataLakeStorage 处理器,如果该目录不存在,则将创建该目录。

File Filter

只有名称与给定正则表达式匹配的文件才会被列出

Filesystem Name

Azure Storage File System(也称为 Container)的名称。假定它已经存在。

Include Temporary Files

列出已配置目录路径的内容时是否包含临时文件。

最长文件存在时间

文件提取的最大允许时间范围;(按照最后修改日期)晚于该时间的任何文件都将被忽略

最大文件大小

可提取的最大文件大小

最短文件存在时间

文件提取的最小允许时间范围;(按照最后修改日期)早于该时间的任何文件都将被忽略

最小文件大小

可提取的最小文件大小

Path Filter

当“递归子目录”为 True 时,只会扫描路径与给定正则表达式匹配的子目录

Recurse Subdirectories

指示是否列出目录子目录中的文件

et-initial-listing-target

Specify how initial listing should be handled. Used by 'Tracking Entities'strategy.

et-state-cache

Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. 'Tracking Entities'strategy require tracking information of all listed entities within the last 'Tracking Time Window'. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is 'ListedEntities::{processorId}(::{nodeId})'. If it tracks per node listed entities, then the optional '::{nodeId}' part is added to manage state separately. E.g. cluster wide cache key ='ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b', per node cache key ='ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3' The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by 'Tracking Entities'strategy.

et-time-window

Specify how long this processor should track already-listed entities. 'Tracking Entities'strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to '30 minutes', any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered 'new/updated' and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity 's timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by'Tracking Entities'strategy.

listing-strategy

指定如何确定新的/更新的实体。有关详细信息,请参阅每种策略的描述。

proxy-configuration-service

指定代理配置控制器服务来代理网络请求。在 SOCKS 的情况下,无法保证处理器会使用所选 SOCKS 版本。

record-writer

指定用于创建列表的记录写入器。如果未指定,则将为列出的每个实体创建一个 FlowFile。如果指定了记录写入器,则所有实体都将写入单个 FlowFile,而不是向单个 FlowFiles 添加属性。

状态管理

范围

描述

CLUSTER

执行文件列表后,将存储最新文件的时间戳。这允许处理器在下次运行时,仅列出在此日期之后添加或修改的文件。状态存储在整个集群中,因此该处理器只能在主节点上运行,如果选择了新的主节点,则新节点可以从前一个节点中断的地方继续,而无需复制数据。

关系

名称

描述

success

所有收到的 FlowFiles 都将路由至“success”

写入属性

名称

描述

azure.filesystem

Azure File System 名称

azure.filePath

Azure File 的完整路径

azure.directory

Azure Directory 的名称

azure.filename

Azure File 名称

azure.length

Azure File 长度

azure.lastModified

Azure File 的最后修改时间

azure.etag

Azure File 的 ETag

另请参阅

语言: 中文