즉시 사용 가능한 아카이빙 솔루션을 개발한 Tape Ark와 AWS
2021년
Tape Ark는 데이터 분석, 인공 지능(AI) 및 기계 학습(ML)을 활용하여 백업 데이터를 관리하고 오래된 기업 문서를 관리할 수 있도록 지원하는 것을 사명으로 삼고 있습니다. 테이프-클라우드로 마이그레이션 분야의 세계 최고 전문 업체로서, 지금까지 5백만 개 이상의 데이터 테이프를 처리해온 Tape Ark는 이제 고객이 종이 기반 데이터를 제어할 수 있도록 돕고 있습니다.
많은 산업 분야에서 문서 보관은 비즈니스 운영의 법적 요건이지만, IBIS World에 따르면 호주에서만 5억 2,900만 USD 규모에 달하는 문서 관리 부문에 큰 지장이 발생할 가능성이 높다고 합니다.
Tape Ark의 President 겸 Chief Executive Officer인 Guy Holmes는 “기업들은 상자마다 무엇이 들어 있는지 제대로 파악하지 못하는 경우가 많습니다. 이로 인해 상자를 폐기할지 또는 문서를 스캔할지를 결정하기가 어려워집니다. 시간이 흐르고 보관 상자가 늘어날수록 문제는 더욱 복잡해집니다”라고 말합니다.
일례로 Tape Ark의 고객 중 하나는 1930년대부터 모아둔 100만 개 이상의 상자를 보관하고 있습니다.
Guy는 “종이 문서를 보관 상자에 보관하는 것이 많은 기업들에게 골칫거리가 되고 있다는 사실을 깨달았습니다. 어떤 문서를 보관할지, 디지털화할지, 폐기할지를 결정하기 위해 기업들은 일반적으로 모든 문서를 스캔할 방법을 찾거나, 보관 상자를 사무실로 가져와 주제 전문가가 모든 상자를 수작업으로 검토하도록 합니다. 기본 옵션은 아무 것도 하지 않는 것이지만, 그러면 가까운 장래에 매월 창고 이용료가 발생하게 됩니다. AI와 ML을 사용하여 적은 비용으로 각 상자 안의 내용을 학습할 수 있는 '더 스마트한 솔루션'을 개발하자는 아이디어를 떠올렸을 당시, 저희는 비즈니스의 다른 영역에서 이미 이들 도구를 활용하고 있었습니다”라고 말합니다.
ProServe 팀은 새로운 사고 방식, 즉 새로운 AWS 제품군을 소개했고 매우 협력적이었습니다. Rapid Box Indexer와 같은 솔루션은 세계 어디에도 없다고 생각합니다.
Guy Holmes
Tape Ark, President 겸 Chief Executive Officer
Tape Ark 기계 학습 여정의 주요 단계: 탐색, 제공, 확장
Tape Ark의 기계 학습 여정은 2020년 7월 AWS Professional Services(ProServe) 팀이 진행한 탐색 워크숍으로 시작되었습니다. 데이터 사이언티스트, 엔지니어, 비즈니스 전문가로 구성된 전담 팀이 모여 주요 단계와 반복 작업을 요약한 'ML 청사진'을 개발했습니다. 12월까지 Tape Ark는 Rapid Box Indexer라는 개념 증명을 배포할 준비를 마쳤습니다.
Rapid Box Indexer를 사용하면 Tape Ark의 고객 포털을 통해 원격으로 보관 상자의 내용물을 볼 수 있습니다. Guy에 따르면 이러한 종류의 서비스는 최초라고 합니다.
Guy는 “지금까지 기업들은 내용물을 감사하기 위해 회사 외부 창고에서 상자를 물리적으로 회수해야 했습니다. 그리고 직원이 상자를 일일이 열어 수동으로 항목을 검사, 문서화 또는 스캔한 후 스프레드시트나 데이터베이스에 추가해야 합니다. 내용물에 따라, 수동으로 인덱스를 만들고 문서화하는 데 상자 하나당 한 시간 이상 걸릴 수 있습니다. 대규모 조직에서는 이 같은 상자가 수십만 개 또는 수만 개에 달하는 경우가 흔합니다. 따라서 작업 시간이 끝없이 늘어나게 됩니다”라고 말합니다.
Rapid Box Indexer는 기계 학습을 사용하여 상자 내용물을 인덱싱하고 기록함으로써 이 프로세스를 자동화합니다. 정보를 분류하고 메타데이터를 추가하여 기존 인덱싱 방법보다 훨씬 심층적인 인사이트를 제공하는 지능형 이미지 및 비디오 분석 소프트웨어도 사용됩니다.
Tape Ark의 AWS AI 및 ML 혁신 제품군 분석
Guy는 “ProServe 팀은 정말 놀라웠습니다. 저희에게 새로운 사고 방식과 새로운 AWS 제품군을 소개해 주었고, 매우 협력적이었습니다. 생각의 폭을 넓히고, 고객의 문제를 진정으로 해결하고자 하는 저희와 비슷한 생각을 가진 팀과 함께 일할 수 있다는 것은 정말 좋은 일입니다”라고 말합니다.
Tape Ark와 ProServe는 함께 Amazon Textract를 사용하여 Rapid Box Indexer를 구축했습니다. 이 인덱서는 기계 학습을 사용하여 사람처럼 거의 모든 문서에서 텍스트, 필기 및 데이터를 추출합니다. Amazon Rekognition은 기계 학습 및 음성 인식 소프트웨어를 사용하여 이미지 및 비디오 분석을 자동화하는 데 사용되는 반면, Amazon Comprehend는 엔터티 탐지 및 감정 분석을 지원합니다. Amazon S3는 데이터를 저장하고 보호하는 데 사용되며, Amazon Lambda는 매우 빠른 정보 처리를 지원합니다.
이제 사용자는 Tape Ark 포털을 통해 검색 가능한 태그와 함께 비디오, 이미지, 텍스트라는 세 가지 데이터 계층을 사용하여 각 상자의 내부를 '볼' 수 있습니다. 이 정보를 활용하면 보관하거나, 디지털화하거나 폐기할 문서를 결정하기가 훨씬 쉬워집니다. 또한 비디오, 이미지, 텍스트를 캡처한 후에는 상자를 하나도 회수하지 않고도 상자를 감사할 수 있습니다.
Guy는 “회사 외부에 있는 상자를 모두 회사 내로 가져다 놓고 필요에 따라 내용물을 살펴보는 것과 같은 효과를 얻을 수 있습니다. 이를 통해 고객은 원하는 내용을 무엇이든 찾아낼 수 있습니다”라고 말합니다.
스케일 업: Tape Ark의 Rapid Box Indexer를 전 세계에 적용
Tape Ark는 호주에서 개념 증명을 개발한 후, 현재 미국 휴스턴 시설에서 Rapid Box Indexer를 시범 운영하고 있습니다.
Guy는 “현재 저희는 Rapid Box Indexer를 사용하여 7,500개의 상자를 처리하고 있는데, 이는 첫 번째 파일럿에 적당한 규모입니다. 고객 피드백을 활용해 인덱서를 개선하면서 가치를 더욱 높일 것입니다. 그리고 2021년에는 대량으로 출시할 계획입니다”라고 말합니다.
“모든 업계의 요구 사항을 충족하고, 문서 관리와 관련하여 가장 어려운 질문에 답할 수 있도록 인덱서를 확장하는 것이 목표입니다. 즉, 디지털화를 위한 문서의 우선순위를 정할 수 있을지, 그렇게 하면 물리적 보관 상자의 양을 줄이는 데 도움이 될지, 결과적으로 월별 창고 비용이 얼마나 절감될지 등을 파악할 수 있게 하는 겁니다.”
AWS가 비교한 결과에 따르면, Rapid Box Indexer를 사용하면 기존 보관 시스템에 비해 비용을 최대 20배까지 절감할 수 있습니다. 이 추정치는 Guy가 “클라우드에서 데이터를 디지털화하고 저장하는 비용보다 훨씬 높다”고 설명하는 창고에 상자를 보관하는 비용을 기준으로 한 것입니다.
Tape Ark 소개
Tape Ark는 오래된 기업 데이터를 테이프 미디어에서 퍼블릭 클라우드로 직접 안전하게 마이그레이션함으로써, 21세기에 걸맞은 오프사이트 보관 테이프 데이터의 관리 방식의 적용을 주도하고 있습니다. Tape Ark는 디지털 및 가상 데이터 스토리지 기술을 도입하여 현대적인 물리적 테이프 스토리지를 제공함으로써 실물 자료를 오프사이트에 보관하는 방식을 혁신하고 있습니다.
이점
- 물리적 창고 관리 비용을 최대 20배 줄입니다.
- 텍스트, 이미지 및 비디오의 세 가지 데이터 계층을 제공하므로, 사용자가 원격으로 각 상자의 내용물을 텍스트와 시각 자료로 볼 수 있습니다.
- 데이터 입력 및 인덱싱과 같은 중요도가 낮은 작업을 간소화하고 자동화하여 비즈니스 효율성을 높입니다.
사용된 AWS 서비스
Amazon Textract
Amazon Textract는 거의 모든 문서에서 인쇄된 텍스트, 필기 및 데이터를 손쉽게 추출하는 완전관리형 기계 학습 서비스입니다.
Amazon Rekognition
Amazon Rekognition을 사용하면 기계 학습에 대한 전문 지식이 없더라도 확장성이 뛰어난 입증된 딥 러닝 기술을 사용하여 애플리케이션에 이미지 및 비디오 분석을 쉽게 추가할 수 있습니다.
Amazon Comprehend
Amazon Comprehend는 기계 학습을 사용하여 텍스트 안에 있는 인사이트와 관계를 찾아내는 자연어 처리(NLP) 서비스입니다.
Amazon S3
Amazon S3는 업계 최고의 확장성, 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스입니다.
시작하기
산업 분야를 불문하고 다양한 규모의 기업들이 AWS를 통해 매일 비즈니스를 혁신하고 있습니다. 지금 전문가와 상담하고 AWS 클라우드 여정을 시작하세요.