Tape Ark 和 AWS 共同开发了一款开箱即用的存档解决方案
2021 年
Tape Ark 的使命是利用数据分析、人工智能(AI)和机器学习(ML),帮助各个组织管理备份数据和不断老化的公司文档。作为磁带向云端迁移领域的全球领先专家,Tape Ark 迄今处理了 500 多万个数据磁带,现在正在帮助客户控制他们的纸质数据。
对很多行业而言,存储文档是开展业务时需要满足的一项法律要求,但根据 IBIS World 的数据,仅在澳大利亚,文件管理行业的规模就高达 5.29 亿美元 – 引发巨变的时机已经成熟。
“各个公司经常搞不清楚每个档案箱里有什么。这样就很难为档案箱处置或文档扫描做出决定。随着时间的流逝,他们的档案箱收集量不断增加,问题也变得更加棘手,”Tape Ark 总裁兼首席执行官 Guy Holmes 说道。
例如,Tape Ark 的一个客户存储着一百多万个档案箱,收集日期甚至可以追溯到 20 世纪 30 年代。
“我们意识到,将纸质文档存储在档案箱中是很多公司的痛点。为了决定要保留、数字化或销毁哪些文档,他们通常需要扫描所有文档,或者将档案箱带回办公室,然后让一名主题专家手动审查每个档案箱。默认的选择是什么都不做,但这意味着需要在可预见的未来支付每月的仓储费用。当我们打算使用人工智能和机器学习开发出一款更智能的解决方案时,也就是能以较低成本帮助我们确定档案箱中内容的解决方案,我们已经在企业的其他方面使用了这些工具,”Guy 表示。
ProServe 团队向我们介绍了一种全新的思维方式、一套新推出的 AWS 产品,并且提供了密切协作…… 在我们看来,世界上的任何解决方案都无法与 Rapid Box Indexer 相媲美。
Guy Holmes
Tape Ark 总裁兼首席执行官
Tape Ark 机器学习之旅中的关键步骤:发现、交付、扩展
Tape Ark 的机器学习之旅始于由 AWS Professional Services(ProServe)团队在 2020 年 7 月举办的一次发现工作坊。一支由数据科学家、工程师和业务专家组成的专门团队共同拟定了“机器学习蓝图”,其中概述了关键步骤和迭代。到了 12 月,Tape Ark 已经准备好部署名为 Rapid Box Indexer 的概念验证。
使用 Rapid Box Indexer,各个组织可以通过 Tape Ark 的客户门户网站远程查看存档箱的内容。在 Guy 看来,这一项服务开创了历史的先河。
“到目前为止,各个公司必须亲自从异地仓库中取回档案箱,才能审核它们的内容。每个档案箱都由一名工作人员打开,他们需要手动检查、记录或扫描这些物品,然后再将它们添加到电子表格或数据库中。根据档案箱中的内容,可能需要一个多小时的时间才能手动索引和记录每个档案箱。一旦将档案箱数量放大数万倍(如果不是数十万倍的话)(这在大型组织中非常常见),就会花费数不胜数的工作时间,”Guy 说道。
为了自动执行此过程,Rapid Box Indexer 利用机器学习来索引和记录档案箱的内容。他们还利用智能图像和视频分析软件对信息进行分类以及添加元数据,从而提供比传统索引方法更深入的洞察。
释放 Tape Ark 的 AWS 人工智能和机器学习创新套件的潜力
“ProServe 团队太棒了,”Guy 表示。“他们向我们介绍了一种全新的思维方式、一套新推出的 AWS 产品,并且提供了密切协作。与志同道合、目光远大并且真正渴望为客户排忧解难的团队合作实在是太棒了。”
Tape Ark 和 ProServe 使用 Amazon Textract 共同构建了 Rapid Box Indexer,前者可以利用机器学习,像人类那样从几乎任何文档中提取文本、手写内容和数据。Amazon Rekognition 用于借助机器学习和语音识别软件来自动执行图像和视频分析,而 Amazon Comprehend 支持实体检测和情感分析。Amazon S3 用来存储和保护数据,而 Amazon Lambda 能够非常快速地处理信息。
现在,通过 Tape Ark 门户以及可搜索的标签,用户可以借助三层数据(视频、图像和文本)来“查看”每个档案箱的内部。有了这些信息,可以更容易地决定要保留、数字化或销毁哪些文档。他们还可以在捕获视频、图像和文本后的很长一段时间之后对档案箱进行审核,而无需取回单个档案箱。
“在我们看来,这就像所有异地档案箱就摆在眼前,这样就可以根据需要翻阅它们的内容。这样,我们的客户就能够专注于他们希望找到的任何内容,”Guy 说道。
扩大规模:将 Tape Ark 的 Rapid Box Indexer 推向世界
在澳大利亚开发了概念验证之后,Tape Ark 现在正在其位于美国休斯敦的工厂试用 Rapid Box Indexer。
“我们目前正在使用 Rapid Box Indexer 处理 7500 个档案箱,这对于我们的首个试点项目来说是一个合理的规模。客户反馈将帮助我们优化此 Indexer,使它更有价值。2021 年,我们将开始进行大规模推广,”Guy 表示。
“我们的目标是扩展此 Indexer 以满足任何行业的需求,并解决一些最棘手的文档管理问题,比如我们是否可以优先考虑对文档进行数字化? 这样是否有助于减少存储物理档案箱档案的规模? 这样如何降低每月的仓储成本?”
根据 AWS 的比较,Rapid Box Indexer 的成本可以低至传统存档系统的 20 分之一。这一估计基于在仓库中存储档案箱的成本,根据 Guy 的解释,这些成本“明显高于在云端数字化和存储数据的成本”。
关于 Tape Ark
Tape Ark 将不断老化的企业数据从磁带介质直接安全地迁移到公有云,这样就使异地存档磁带数据的管理工作达到了 21 世纪的水准。通过采用数字和虚拟数据存储技术,Tape Ark 正在重塑物理数据的异地存储方式,因此将物理磁带存储提升到了新千年的水平。
优势
- 将物理仓储成本降低至 20 分之一。
- 提供三层数据(文本、图像和视频),这样用户就能够远程查看每个档案箱的文本内容和视觉内容。
- 简化和自动化数据输入和索引等低价值任务,进而提高业务效率。
使用的 AWS 服务
Amazon Textract
Amazon Textract 是一项完全托管式机器学习服务,可以从几乎任何文档中轻松提取打印文本、手写内容和数据。
Amazon Rekognition
借助经过验证、极具可扩展性且无需掌握任何机器学习专业知识就能使用的深度学习技术,Amazon Rekognition 可以轻松为应用程序添加图像和视频分析功能。
Amazon Comprehend
Amazon Comprehend 是一项自然语言处理(NLP)服务,可通过机器学习发现文本中的见解和关系。
Amazon S3
Amazon S3 是一项对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。
开始使用
无论行业无论规模,每天都有的公司在使用 AWS 实现业务转型。联系我们的专家,立即踏上您的 AWS Cloud 之旅。