关于 Openflow

Snowflake Openflow 是一项集成服务,可将任何数据源和任何目的地与数百个支持结构化和非结构化文本、图像、音频、视频和传感器数据的处理器连接起来。Openflow 基于 Apache NiFi (https://nifi.apache.org/) 构建,可让您在自己的云中运行完全托管的服务,实现完全控制。

备注

Openflow 平台目前可供部署在客户自有的 AWS VPC 中。

本主题介绍了 Openflow 的主要功能、其优点、架构和工作流程以及用例。

主要功能和优点

  • 开放且可扩展:Openflow 是一个由 Apache NiFi 驱动的可扩展托管服务,支持从任意数据源到任意目的地的处理器构建与扩展。

  • 统一的数据集成平台:Openflow 使数据工程师能够通过完全托管的服务处理复杂的双向数据提取和加载,该服务可以在您自己的 VPC 内部部署。

  • 企业级特性:Openflow 为数据集成提供开箱即用的安全性、合规性、可观察性和可维护性 hook。

  • 支持各种类型数据的高速引入:无论是批处理还是流式模式,Openflow 都能在统一的平台上高速引入并传输到 Snowflake,几乎无限扩展。

  • 持续引入多模态数据,助力 AI 处理:支持近乎实时的非结构化数据引入,因此您可以与来自 Sharepoint、Google Drive 等来源的数据进行即时聊天。

架构

下图说明了 Openflow 的架构:

Openflow 架构

部署代理负责在您的 VPC 中安装并引导 Openflow 的部署基础架构,并定期从 Snowflake 的系统镜像注册中心同步容器镜像。

Openflow 组件:

  • 部署:部署是数据流执行的环境,由多个运行时组成。您可以为不同的项目、团队,或为 SDLC 设置多个运行时,但它们都隶属于同一个部署。

  • 运行时:运行时承载数据管道,并提供安全性、简洁性和可扩展性。您可以在 VPC 中部署 Openflow 运行时。您可以将 Openflow 连接器部署到运行时,也可以使用 Openflow 处理器和控制器服务从头开始构建新的管道。

  • 控制平面:控制平面是架构中的一个层级,它包含用于管理和观察的所有组件,包括 Openflow 服务和 API,以及用户通过 Openflow UI 或通过与 Openflow APIs 的直接交互与之进行交互。

工作流程

用户角色

任务

AWS 云工程师/管理员

在他们的 AWS 云账户中创建一组部署。

Openflow UI 用于管理部署以及运行时的创建和维护。Openflow UI 允许用户在所有部署中对运行时进行创建、调整大小、升级和删除。

Snowflake 登录名用于向 Openflow 进行身份验证,角色和权限用于对 Openflow 部署和运行时的访问权限进行控制。

数据工程师(管道构建者,负责数据引入)

使用运行时画布从头开始构建流程,或配置已部署的连接器。

从头开始创建新流程,或按原样使用现有连接器,也可以以其为起点进行自定义。在 Snowflake 账户(或其他目标系统)的 Bronze 层中填充数据。

连接器是一种简便的集成方式,可用于解决特定的数据集成场景。即使是不具备技术背景的用户,也可以直接部署连接器,无需依赖数据工程师的协助。

数据工程师(管道操作员)

配置流参数并运行流程

数据工程师(负责向 Silver 层和 Gold 层转换)

负责将数据从管道填充的 Bronze 层转换为用于分析的 Silver 层和 Gold 层。

企业用户

使用 Gold 层对象进行分析

用例

如果您希望以最少的管理工作,从任意源提取数据并将其传输到任意目的地,同时借助 Snowflake 内建的数据安全与治理能力,那么 Openflow 是您的理想选择。

Openflow 的一些用例如下所示:

  • 从非结构化数据源(例如 Google Drive 和 Box)中引入数据,将数据准备好,供 Snowflake Cortex 中的 AI 助手使用,或用于自定义处理任务。

  • 将数据库表的变更数据捕获 (CDC) 复制到 Snowflake 中,以实现全面的集中报告。

  • 将来自 Apache Kafka 等流媒体服务的实时事件引入 Snowflake,实现近实时分析。

  • 将来自 LinkedIn Ads 等 SaaS 平台的数据引入到 Snowflake,用于报告、分析和见解。

  • 使用 Openflow 创建数据流 使用 Snowflake 以及 NiFi 处理器控制器

安全

Openflow 使用行业领先的安全功能,有助于确保您可以为您的账户和用户以及您在 Snowflake 中存储的所有数据配置最高级别的安全性。一些关键方面包括:

  • 身份验证

    • 运行时使用 OAuth2 对 Snowflake 进行身份验证

  • 授权

    • Openflow 支持 RBAC 的细粒度角色

    • ACCOUNTADMIN 可授予能够创建部署和运行时的权限

  • 传输中加密

    • Openflow 连接器支持 TLS 协议,可通过标准 Snowflake 客户端进行数据引入

    • Openflow 部署和 Openflow 控制平面之间的所有通信均使用 TLS 协议进行加密

  • 密钥管理 (BYOC)

    • 与 AWS 密钥管理器或 Hashicorp Vault 集成。有关更多信息,请参阅 配置文件中的加密密码 (https://nifi.apache.org/docs/nifi-docs/html/administration-guide.html#encrypt-config_tool)。

  • 专用链接支持

    • Openflow 连接器兼容使用入站 AWS PrivateLink 向 Snowflake 读取和写入数据

  • Tri-Secret Secure 支持

    • Openflow 连接器与 Tri-Secret Secure 兼容,可用于向 Snowflake 写入数据。

区域可用性

Openflow 适用于 AWS 商业区域 中的所有账户。Openflow 在政府区域不可用。

Openflow 不适用于试用账户。

限制

  • 正如 Snowflake Openflow BYOC 条款 中所述,保护 Openflow BYOC 是一种责任共担模式。

  • Openflow 授权使用直接授予用户的角色及其关联权限。目前,Openflow 不支持在用户的角色层次结构中,当角色附加于另一个角色时的授权。

后续步骤

设置 Openflow

语言: 中文