为 Document AI 准备文档

本主题介绍如何准备文档以供 Document AI 使用。

使用 Document AI 处理的文档必须符合以下要求:

  • 文档的长度不得超过 125 页。

  • 文档必须采用以下格式之一:

    • JPEG

    • JPG

    • PDF

    • PNG

    • TIF

    • TIFF

    • DOCX

    • EML

    • HTM

    • HTML

    • TEXT

    • TXT

  • 文件的大小必须小于或等于 50 MB。

  • 文档页的尺寸不得超过 1200x1200 毫米。

  • 图像大小必须介于 50x50 和 10000x10000 像素之间。

要改进模型训练流程,请确保您上传到 Document AI 的文档代表真实的用例或场景,且数据集包含在布局和数据两方面都多样化的文档。

确保数据集中的信息是不同的。如果所有文件都包含相同的数据(例如,相同的性别或族裔),或者信息总是以相同的形式呈现(例如,特定的日期格式),则模型可能会提供不正确的结果。

重要

在预览期间,必须对在处理文档中找到的任何个人数据进行混淆或合成。

语言: 中文