Document AI 的成本治理

本主题提供 Document AI 成本治理的最佳实践。

了解 Document AI 的成本

Document AI 产生成本的方式如下:

AI 服务计算:

Document AI 可以使用 <model_build_name>!PREDICT 方法从文档中提取信息,这会产生计算成本。

虚拟仓库计算:

要在工作表中运行查询(包括使用 <model_build_name>!PREDICT 方法),请选择仓库。此外,Document AI 还会产生与检索工作表中数据有关的其他操作的成本。有关为 Document AI 选择仓库大小的信息,请参阅 确定 Document AI 的最佳仓库规模

存储:

要测试 Document AI 模型,您需要将文档上传到 Snowsight 中的 Document AI 用户界面,在其中查看结果,并可以选择通过训练对模型进行微调。这些操作可能会产生存储成本,因为结果存储在您账户内的 Snowflake 类对象中。要使用 SQL 提取信息,您需要将文档上传到内部或外部暂存区,这也可能会产生存储成本。有关查看已产生的存储成本的信息,请参阅 探索存储成本

有关 Snowflake 总体成本的更多信息,请参阅 了解总体费用

AI 服务计算成本

Document AI 使用 Snowflake 管理的计算资源,Snowflake 会根据每个 Document AI 工作负载的需要自动扩缩这些计算资源。使用 Snowflake 管理的计算结构,消耗量基于实际使用这些资源所花费的时间。相比之下,用户管理的虚拟仓库在运行时会消耗 Credit,无论它们是否正在执行任何工作,因此它们可能处于空闲状态或过度使用状态。

Document AI 的 Credit 消耗根据完成作业所使用的计算资源总量计算。使用的计算资源量通过计算类型和花费的时间来衡量,并且以每秒为单位计算工作负载使用的所有资源,四舍五入到最接近的整数秒。

有关 Snowflake 计算成本的详细信息,请参阅 了解计算成本

有关 Credit 消耗的详细信息,请参阅 `Snowflake 服务消耗表 `_。

估计 Credit 消耗

Document AI 的 Credit 消耗取决于以下方面:

  • 页数(用于由页面组成的文档格式)

  • 文档数量

  • 页面密度

    处理几乎空白的文档(例如发票)所需的时间比处理文本密集型文档(例如研究论文)所需的时间更少,这会减少 Credit 消耗。

  • 要提取的数据值的数量

    提取更多的数据值需要更多时间,这会增加 Credit 消耗。

下表描述了基于不同类型的工作负载的 1,000 页 Credit 消耗 估计值

文档数量

每个文档的页数

页面密度

10 个值的估计 Credit 范围

20 个值的估计 Credit 范围

40 个值的估计 Credit 范围

10

100

低,例如发票或幻灯片

3 到 5 个

4 到 6 个

6 到 8 个

100

10

低,例如发票或幻灯片

5 到 7 个

7 到 10 个

10 到 12 个

1,000

1

低,例如发票或幻灯片

10 到 12 个

11 到 13 个

12 到 14 个

10

100

中等,例如商业通信或财务报表

4 到 6 个

7 到 9 个

12 到 14 个

100

10

中等,例如商业通信或财务报表

7 到 9 个

10 到 12 个

16 到 18 个

1,000

1

中等,例如商业通信或财务报表

10 到 12 个

12 到 14 个

15 到 17 个

10

100

高,例如研究论文或法律文件

5 到 7 个

9 到 11 个

16 到 18 个

100

10

高,例如研究论文或法律文件

8 到 10 个

12 到 14 个

21 到 23 个

1,000

1

高,例如研究论文或法律文件

11 到 13 个

13 到 15 个

17 到 19 个

请参考以下示例:

  • 您每年处理 30,000 份文档。

  • 每份文档平均 10 页。

  • 每份文档都是中等页密度。

  • 您想提取 10 个值。

在这种情况下,1,000 页的估计 Credit 范围为 7 至 9 页,因此每年 30,000 份文件的 Credit 为 210 至 270。

有关 Credit 消耗的详细信息,请参阅 `Snowflake 服务消耗表 `_。

Document AI 的监控成本

Document AI 的使用情况会显示在 ORGANIZATION_USAGE 架构中的 METERING_DAILY_HISTORY 视图 中,其中包含 AI_SERVICES 的服务类型。

要查看组织中所有账户的 AI 服务的 Credit 消耗,请使用以下查询:

SELECT * FROM SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY
  WHERE service_type ILIKE '%ai_services%';
Copy

备注

SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY 视图可能需要最多四个小时才能更新。

若要查看账户的 Document AI 的使用数据(包括已使用的 Credit),请使用 DOCUMENT_AI_USAGE_HISTORY 视图

确定 Document AI 的最佳仓库规模

Snowflake 建议使用 X-小、小或中等仓库。扩展仓库不会提高查询处理的速度,但可能会导致产生不必要的成本。

如果您要执行其他需要仓库资源的操作,请考虑扩大仓库。

语言: 中文