ExcelReader

描述

解析 Microsoft Excel 文档,将每张表中的每一行作为单独的记录返回。该阅读器允许根据所有必需的表格推断出架构,或提供明确的架构来解读这些值。有关更多文档,请参阅“控制器服务的用法”。该阅读器能够处理受密码和不受密码保护的 .xlsx(XSSF 2007 OOXML 文件格式)和较旧的 .xls(HSSF '97(-2007) 文件格式)Excel 文档。

标签

cell、excel、parse、reader、record、row、spreadsheet、values、xls、xlsx

属性

下表列出了各项属性,其中带星号 (*) 的为必需属性。其他属性视为可选属性。该表还指出了所有默认值以及属性是否支持 NiFi 表达式语言。

显示名称

API 名称

默认值

允许值

描述

日期格式

日期格式

指定读取/写入“Date”字段时使用的格式。如果未指定,则将假定“Date”字段为自纪元(1970 年 1 月 1 日午夜 GMT)以来的毫秒数。如果指定,则该值必须与 Java java.time.format.DateTimeFormatter 格式相匹配(例如,MM/dd/yyyy 表示两位数的月份,然后是两位数的日期、四位数的年份,全部由“/”字符分隔,如 01/01/2017)。

输入文件类型 *

输入文件类型

XLSX

  • XLS

  • XLSX

指定 Excel 输入文件的类型。

密码 *

密码

受密码保护的 Excel 电子表格的密码

保护类型 *

保护类型

UNPROTECTED

  • 不受保护

  • 受密码保护

指定 Excel 电子表格是否受密码保护。

必需工作表

必需工作表

以逗号分隔的 Excel 文档工作表名称列表,应从 Excel 文档中提取其行。如果将此属性留空,则将从 Excel 文档中提取所有工作表中的所有行。名称列表区分大小写。任何未在此值中指定的工作表都将被忽略。如果找不到指定的工作表,则会引发异常。

起始行 *

起始行

1

要开始处理的第一行的行号(从 1 开始)。使用此属性可以跳过工作表顶部不属于数据集的数据行。使用“使用起始行”策略时,这应该是列标题行。

时间格式

时间格式

指定读取/写入“Time”字段时使用的格式。如果未指定,则将假定“Time”字段为自纪元(1970 年 1 月 1 日午夜 GMT)以来的毫秒数。如果指定,则该值必须与 Java java.time.format.DateTimeFormatter 格式相匹配(例如,HH:mm:ss 表示 24 小时格式的两位小时数、两位分钟数和两位秒数,全部由“:”字符分隔,如 18:04:15)。

时间戳格式

时间戳格式

指定读取/写入“Timestamp”字段时使用的格式。如果未指定,则将假定“Timestamp”字段为自纪元(1970 年 1 月 1 日午夜 GMT)以来的毫秒数。如果指定,则该值必须与 Java java.time.format.DateTimeFormatter 格式相匹配(例如,MM/dd/yyyy HH:mm:ss 表示两位数的月份,然后是两位数的日期、四位数的年份,全部由“/”字符分隔;然后依次是 24 小时格式的两位小时数、两位分钟数和两位秒数,全部由“:”字符分隔,如 01/01/2017 18:04:15)。

架构访问策略 *

schema-access-strategy

使用起始行

  • 使用“架构名称”属性

  • 使用“架构文本”属性

  • 架构参考读取器

  • 使用起始行

  • 推断架构

指定如何获取用于解读数据的架构。

架构分支

schema-branch

指定在“架构注册表”属性中查找架构时使用的分支名称。如果所选架构注册表不支持分支,则该值将被忽略。

架构名称

schema-name

${schema.name}

指定要在架构注册表属性中查找的架构的名称。

架构参考读取器 *

schema-reference-reader

服务实现,负责读取 FlowFile 属性或内容以确定架构参考标识符

架构注册表

schema-registry

指定用于架构注册表的控制器服务

架构文本

schema-text

${avro.schema}

Avro 格式架构的文本

架构版本

schema-version

指定要在架构注册表中查找的架构版本。如果未指定,则将检索架构的最新版本。

状态管理

此组件不存储状态。

受限

此组件不受限制。

系统资源注意事项

此组件未指定系统资源注意事项。

语言: 中文