【本文由Cloud Ace整理发布。Cloud Ace是谷歌云全球战略合作伙伴,拥有 300 多名工程师,也是谷歌最高级别合作伙伴,多次获得 Google Cloud 合作伙伴奖。作为谷歌托管服务商,我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认证培训服务。】
企业依靠处理大量文档来驱动流程并做出决策。许多此类文档合并为一个文件。例如,贷款申请可能在单个文件中包含驾驶执照、工资单、W2、银行对账单和其他文档类型。在单个文件中处理多种文档类型的复杂性使得企业难以进行大规模管理。
谷歌云致力于通过持续投资文档 AI 解决方案套件来解决这些挑战,该套件提供用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度的 ML 模型,并针对其特定用例进行训练。
2023 年 2 月,谷歌云在通用版 (GA) 中推出了自定义文档提取器 (CDE),以帮助用户从生产用例中的文档中提取结构化数据。
2023 年 3 月,在 GA 中推出了自定义文档分类器 (CDC)帮助自动分类文档类型。
近日,谷歌云在 GA 中发布了 Document AI Workbench 的最新功能:自定义文档拆分器 (CDS),可帮助用户自动拆分和分类单个文件中的多个文档。
CDS 通过帮助客户对文档进行排序和分类,为客户提供切实的商业价值。例如,企业可以验证他们是否拥有申请人提供的所有所需文件。此外,单独分类的文档使企业能够更好地自动化下游流程,包括根据文档类型选择适当的存储、分析或处理步骤。CDS 带来的效率可帮助企业降低文档处理时间和成本。
Document AI Workbench 中拆分和分类模型的优点
Document AI Workbench 可以通过简化模型训练(从数据集管理到测试再到部署)来节省时间和金钱。CDS 帮助企业实现更高的自动化率以扩展流程,同时降低成本。
Zencore 交付服务副总裁 Sean Earley 表示:“我们为一家大型银行完成了一个项目,使用 Document AI Workbench 对文档中的数据进行拆分、分类和提取,以实现《住房抵押贷款披露法案》报告的自动化。考虑到我们构建的模型的准确性, ,我们的客户估计将贷款报告覆盖率从 20% 提高到 100%,同时每年消除数千个错误,从而大大降低了银行合规报告程序的运营成本。”
德勤咨询有限公司人工智能与数据经理 Fabian Beckmann 表示:“通过利用 Document AI 的自定义文档拆分器,我们的客户德国商业银行(一家大型欧洲银行)可以轻松地根据其后台要求对客户提交的内容进行细分,从而大大减少了用于额外的手动排序或路由。这种集成为文档人工智能管道内的无缝自动化铺平了道路,带来了巨大的商业利益。”
IT 服务公司 Devoteam 的 ML Tribe 技术主管 Kaïs Albichari 表示,“自定义文档拆分器 (CDS) 帮助我们金融服务行业的一位客户节省了大量时间并提高了数据准确性。通过识别文档的哪些部分他们可以丢弃并保留用于实体提取,CDS 帮助该公司实现了文档处理任务的自动化。实施后工作流程更加高效和简化,使员工能够专注于其他任务。Devoteam 的 G Cloud 团队帮助该公司实施了 CDS并实现这些好处。”
Frank Neugebauer 是 Google Cloud 保险解决方案顾问,他与一家财富 100 强保险公司合作,使用 CDS 创建了一个模型,可以对数百万份保险文件进行拆分和分类,准确率高达 98%。有了这些信息,保险公司可以更好地了解其非结构化数据的性质,为业务策略提供信息,包括特定文档类型的数量,为提取工作提供信息。客户认为这种洞察力水平在他们 200 多年的历史中是前所未有的。
如何使用自定义文档拆分器
您可以利用Google Cloud Console中的简单界面和一组公共 API来准备训练数据、创建和评估模型、将模型部署到生产中,以及调用 API 端点来拆分和分类文档类型。您可以按照文档中的说明来创建、训练、评估、部署和运行模型预测。
导入并准备训练数据
首先,导入并标记文档以训练和评估 ML 模型。
要快速构建训练数据集,请导入单个文档(每个文件一个文档),并使用相关文档类型批量标记它们。您可以一次导入一个或多个文件夹,并为每个文件夹选择正确的文档类型。如下图所示,一次导入可能有一个包含 200 个银行对账单的文件夹,另一个包含 200 个 W2 的文件夹,另一个包含 200 个工资单的文件夹等,所有这些在导入时都会立即标记。
最多可输入30,000份文档和100,000页进行培训。通过这种方式,您可以在几分钟内构建一个训练数据集,其中每个类包含数百个标记文档。与往常一样,如果文档已经使用其他工具进行了标记,只需以文档格式导入带有 JSON 的标签即可。
您只需单击按钮即可开始培训。训练模型后,您可以使用它自动标记添加到数据集中的文档,从而让您快速构建强大的测试和训练数据集以评估和提高模型性能。
要准确评估 CDS 模型,请导入同一文件中包含多种文档类型的文件并将它们分配给测试数据集。然后,使用一个简单的接口来定义文档边界和类型。
您在测试数据集中标记的基本事实用于评估 CDS 模型的分割和分类预测。
投入生产
一旦模型满足准确性目标,就可以部署到生产中并调用 API 端点来拆分和分类文档类型。
文档 AI 工作台入门
自定义文档拆分器已在 GA 中公开发布,可帮助客户实现文档拆分和分类的自动化。通过Document AI Workbench 网页、Document AI Workbench 文档了解更多信息,或在 Google Cloud Console 中尝试。
如果您有任何问题或需求,请与我们取得联系。