Document AI 的成本治理¶
本主题提供 Document AI 成本治理的最佳实践。
了解 Document AI 的成本¶
Document AI 产生成本的方式如下:
- AI 服务计算:
Document AI 可以使用 <model_build_name>!PREDICT 方法从文档中提取信息,这会产生计算成本。
- 虚拟仓库计算:
要在工作表中运行查询(包括使用 <model_build_name>!PREDICT 方法),请选择仓库。此外,Document AI 还会产生与检索工作表中数据有关的其他操作的成本。有关为 Document AI 选择仓库大小的信息,请参阅 确定 Document AI 的最佳仓库规模。
- 存储:
要测试 Document AI 模型,您需要将文档上传到 Snowsight 中的 Document AI 用户界面,在其中查看结果,并可以选择通过训练对模型进行微调。这些操作可能会产生存储成本,因为结果存储在您账户内的 Snowflake 类对象中。要使用 SQL 提取信息,您需要将文档上传到内部或外部暂存区,这也可能会产生存储成本。有关查看已产生的存储成本的信息,请参阅 探索存储成本。
有关 Snowflake 总体成本的更多信息,请参阅 了解总体费用。
AI 服务计算成本¶
Document AI 使用 Snowflake 管理的计算资源,Snowflake 会根据每个 Document AI 工作负载的需要自动扩缩这些计算资源。使用 Snowflake 管理的计算结构,消耗量基于实际使用这些资源所花费的时间。相比之下,用户管理的虚拟仓库在运行时会消耗 Credit,无论它们是否正在执行任何工作,因此它们可能处于空闲状态或过度使用状态。
Document AI 的 Credit 消耗根据完成作业所使用的计算资源总量计算。使用的计算资源量通过计算类型和花费的时间来衡量,并且以每秒为单位计算工作负载使用的所有资源,四舍五入到最接近的整数秒。
有关 Snowflake 计算成本的详细信息,请参阅 了解计算成本。
有关 Credit 消耗的详细信息,请参阅 `Snowflake 服务消耗表 `_。
估计 Credit 消耗¶
Document AI 的 Credit 消耗取决于以下方面:
页数(用于由页面组成的文档格式)
文档数量
页面密度
处理几乎空白的文档(例如发票)所需的时间比处理文本密集型文档(例如研究论文)所需的时间更少,这会减少 Credit 消耗。
要提取的数据值的数量
提取更多的数据值需要更多时间,这会增加 Credit 消耗。
下表描述了基于不同类型的工作负载的 1,000 页 Credit 消耗 估计值:
文档数量 |
每个文档的页数 |
页面密度 |
10 个值的估计 Credit 范围 |
20 个值的估计 Credit 范围 |
40 个值的估计 Credit 范围 |
---|---|---|---|---|---|
10 |
100 |
低,例如发票或幻灯片 |
3 到 5 个 |
4 到 6 个 |
6 到 8 个 |
100 |
10 |
低,例如发票或幻灯片 |
5 到 7 个 |
7 到 10 个 |
10 到 12 个 |
1,000 |
1 |
低,例如发票或幻灯片 |
10 到 12 个 |
11 到 13 个 |
12 到 14 个 |
10 |
100 |
中等,例如商业通信或财务报表 |
4 到 6 个 |
7 到 9 个 |
12 到 14 个 |
100 |
10 |
中等,例如商业通信或财务报表 |
7 到 9 个 |
10 到 12 个 |
16 到 18 个 |
1,000 |
1 |
中等,例如商业通信或财务报表 |
10 到 12 个 |
12 到 14 个 |
15 到 17 个 |
10 |
100 |
高,例如研究论文或法律文件 |
5 到 7 个 |
9 到 11 个 |
16 到 18 个 |
100 |
10 |
高,例如研究论文或法律文件 |
8 到 10 个 |
12 到 14 个 |
21 到 23 个 |
1,000 |
1 |
高,例如研究论文或法律文件 |
11 到 13 个 |
13 到 15 个 |
17 到 19 个 |
请参考以下示例:
您每年处理 30,000 份文档。
每份文档平均 10 页。
每份文档都是中等页密度。
您想提取 10 个值。
在这种情况下,1,000 页的估计 Credit 范围为 7 至 9 页,因此每年 30,000 份文件的 Credit 为 210 至 270。
Document AI 的监控成本¶
Document AI 的使用情况会显示在 ORGANIZATION_USAGE 架构中的 METERING_DAILY_HISTORY 视图 中,其中包含 AI_SERVICES 的服务类型。
要查看组织中所有账户的 AI 服务的 Credit 消耗,请使用以下查询:
SELECT * FROM SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY
WHERE service_type ILIKE '%ai_services%';
备注
SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY 视图可能需要最多四个小时才能更新。
若要查看账户的 Document AI 的使用数据(包括已使用的 Credit),请使用 DOCUMENT_AI_USAGE_HISTORY 视图。
确定 Document AI 的最佳仓库规模¶
Snowflake 建议使用 X-小、小或中等仓库。扩展仓库不会提高查询处理的速度,但可能会导致产生不必要的成本。
如果您要执行其他需要仓库资源的操作,请考虑扩大仓库。