텍스트 분류란 무엇인가요?

텍스트 분류는 인공 지능 및 기계 학습(AI/ML) 시스템을 사용하여 개방형 텍스트 문서에 미리 정해진 범주를 할당하는 프로세스입니다. 많은 조직에는 법률 문서, 계약서, 연구 문서, 사용자 생성 데이터 및 이메일과 같은 대량의 문서를 지속적으로 생성하는 대규모 문서 아카이브와 비즈니스 워크플로가 있습니다. 텍스트 분류는 추가 분석을 위해 이 데이터를 정리, 구조화 및 분류하는 첫 번째 단계입니다. 자동 문서 레이블 지정 및 태그 지정이 가능합니다. 이렇게 하면 문서를 수동으로 읽고 이해하고 분류하는 데 소요되는 수천 시간을 절약할 수 있습니다.

텍스트 분류의 이점은 무엇인가요?

조직에서는 다음과 같은 이유로 텍스트 분류 모델을 사용합니다.

정확도 향상

텍스트 분류 모델은 추가 학습을 거의 또는 전혀 진행하지 않아도 텍스트를 정확하게 분류합니다. 텍스트 분류 모델을 통해 조직에서는 텍스트 데이터를 수동으로 분류할 때 사람이 범할 수 있는 오류를 극복할 수 있습니다. 뿐만 아니라 텍스트 분류 시스템은 다양한 주제의 텍스트 데이터에 태그를 할당할 때 사람보다 일관적입니다.

실시간 분석 생성

조직은 텍스트 데이터를 실시간으로 처리할 때 시간적 압박을 받습니다. 텍스트 분류 알고리즘을 사용하면 원시 데이터에서 실행 가능한 인사이트를 찾고 즉시 대응할 수 있습니다. 예를 들어 조직에서는 텍스트 분류 시스템을 사용하여 고객 피드백을 분석하고 긴급한 요청에 즉시 대응할 수 있습니다.

텍스트 분류 작업 규모 조정

이전에는 조직에서 문서를 분류할 때 수동 또는 규칙 기반 시스템을 사용했습니다. 이러한 방법은 속도가 느리고 리소스를 과도하게 소비합니다. 기계 학습 텍스트 분류를 사용하면 문서 분류 작업을 모든 부서로 보다 효과적으로 확장하여 조직의 성장을 지원할 수 있습니다.

언어 번역

조직에서는 언어 감지에 텍스트 분류기를 사용할 수 있습니다. 텍스트 분류 모델은 대화 또는 서비스 요청의 원래 언어를 감지하여 각각의 해당 팀으로 보낼 수 있습니다.

텍스트 분류의 사용 사례로 어떤 것이 있나요?

조직에서는 텍스트 분류를 사용하여 고객 만족도, 직원 생산성 및 비즈니스 성과를 개선합니다.

감정 분석

텍스트 분류를 통해 조직은 고객 감정을 나타내는 특정 단어를 추출하여 여러 채널에서 브랜드를 효과적으로 관리할 수 있습니다. 또한 감정 분석에 텍스트 분류를 사용하면 마케팅 팀이 정성적 데이터를 통해 구매 추세를 정확하게 예측할 수 있습니다.

예를 들어 텍스트 분류 도구를 사용하여 소셜 미디어 게시물, 설문 조사, 채팅 대화 또는 기타 텍스트 리소스의 고객 행동을 분석하고 그 결과에 따라 마케팅 캠페인을 계획할 수 있습니다.

콘텐츠 조정

기업은 커뮤니티 그룹, 소셜 미디어 및 포럼을 통해 대상 고객을 늘립니다. 인간 조정자에게 의존할 경우 사용자 토론을 규제하기가 어렵습니다. 텍스트 분류 모델을 사용하면 커뮤니티 가이드라인 위반 가능성이 있는 단어, 문구 또는 콘텐츠를 자동으로 탐지할 수 있습니다. 이를 통해 즉시 조치를 취할 수 있으며, 잘 규제되는 안전한 환경에서 대화가 진행됩니다.

문서 관리

많은 조직이 비즈니스 운영 지원 문서를 처리하고 분류하는 데 어려움을 겪고 있습니다. 텍스트 분류기는 누락된 정보를 감지하고, 특정 키워드를 추출하며, 의미적 관계를 식별할 수 있습니다. 텍스트 분류 시스템을 사용하여 메시지, 리뷰 및 계약서와 같은 문서에 레이블을 지정하고 해당 범주로 정렬할 수 있습니다.

고객 지원

고객은 고객 지원 팀에 도움을 요청할 때 시기적절하고 정확한 응답을 기대합니다. 기계 학습 기반 텍스트 분류기를 통해 고객 지원 팀은 들어오는 요청을 적절한 담당자에게 라우팅할 수 있습니다. 예를 들어 텍스트 분류기는 지원 티켓의 교환이라는 단어를 감지하고 보증 부서에 요청을 보냅니다.

텍스트 분류의 접근 방식으로 어떤 것이 있나요?

텍스트 분류는 자연어 처리의 하위 집합으로 엄청나게 발전해 왔습니다. 아마존은 기계 학습 엔지니어가 텍스트 데이터를 분류하는 데 사용하는 여러 접근 방식을 공유합니다.

자연어 추론

자연어 추론은 추정과 전제를 함의, 모순, 중립으로 레이블링하여 추정과 전제 사이의 관계를 결정합니다. 함의는 전제와 추론 사이의 논리적 관계를 설명하는 반면, 모순은 텍스트 개체 간의 단절을 보여줍니다. 중립은 함의나 모순이 발견되지 않을 때 적용됩니다.

다음 전제를 예로 들어 보겠습니다.

우리 팀은 축구 선수권 대회에서 우승했습니다.

자연어 추론 분류기가 다양한 추론에 태그를 지정하는 방법은 다음과 같습니다.

함의: 우리 팀은 스포츠를 좋아합니다.
모순: 우리 팀은 운동을 하지 않습니다.
중립: 우리 팀은 축구 챔피언으로 부상했습니다.

확률 언어 모델링

확률 언어 모델링은 일련의 단어가 주어졌을 때 언어 모델이 다음 단어를 예측하는 데 사용되는 통계적 접근 방식입니다. 이 접근 방식을 사용하여 모델은 각 단어에 확률 값을 할당하고 다음 단어의 가능성을 계산합니다. 확률 언어 모델링을 텍스트 분류에 적용할 경우 확률 언어 모델링은 텍스트에서 발견한 특정 문구를 기준으로 문서를 분류합니다.

워드 임베딩

워드 임베딩은 단어의 의미적 관계를 포착하는 숫자 표현을 단어에 적용하는 기법입니다. 워드 임베딩은 단어와 동일한 숫자입니다. 기계 학습 알고리즘은 텍스트를 원래 형태로는 효율적으로 분석할 수 없습니다. 워드 임베딩을 사용하면 언어 모델링 알고리즘이 여러 텍스트를 임베딩으로 비교할 수 있습니다.

워드 임베딩을 사용하려면 자연어 처리(NLP) 모델을 학습시켜야 합니다. 학습 중에 모델은 벡터 의미 체계라고 하는 다차원 공간에 조밀하게 배치된 숫자 표현을 통해 관련 단어를 할당합니다.

예를 들어 임베딩으로 텍스트를 벡터화하면 2차원 벡터 공간에서 개와 고양이 사이의 관계가 토마토, 사람, 바위 사이의 관계보다 가깝다는 것을 알 수 있습니다. 벡터 의미 체계를 사용하여 익숙하지 않은 데이터에서 유사한 텍스트를 식별하고 후속 구문을 예측할 수 있습니다. 이 접근 방식은 감정 분류, 문서 구성 및 기타 텍스트 분류 작업에 유용합니다.

대규모 언어 모델

대규모 언어 모델 (LLM) 은 대량의 텍스트 데이터를 기반으로 학습된 딥 러닝 알고리즘입니다. 대규모 언어 모델은 텍스트 데이터를 병렬로 처리할 수 있는 숨겨진 계층이 여러 개 있는 신경망인 트랜스포머 아키텍처를 기반으로 합니다. 대규모 언어 모델은 단순한 모델보다 강력하며 텍스트 분류를 비롯한 다양한 자연어 처리 작업에 탁월합니다.

대규모 언어 모델은 이전 모델과 달리 사전 학습 없이 텍스트를 분류할 수 있습니다. 모델이 보이지 않는 텍스트 데이터를 사전 정의된 범주로 분류할 수 있는 제로샷 분류를 사용합니다. 예를 들어 Amazon Sagemaker Jumpstart에 제로 샷 텍스트 분류 모델을 배포하여 새해 결심 게시물을 직업, 건강, 재무 및 기타 수업으로 분류할 수 있습니다.

텍스트 분류 성능은 어떻게 평가하나요?

비즈니스 애플리케이션용 텍스트 분류기를 배포하기 전에, 먼저 텍스트 분류기를 평가하여 과소적합 문제가 없는지 확인해야 합니다. 과소적합이란 기계 학습 알고리즘이 학습에서는 잘 작동하지만 실제 데이터를 정확하게 분류하지 못하는 현상입니다. 아마존에서는 텍스트 분류 모델을 평가하기 위해 교차 검증 방법을 사용합니다.

교차 검증

교차 검증은 학습 데이터를 여러 작은 그룹으로 나누는 모델 평가 기법입니다. 그 후 모델을 학습시키고 검증할 수 있도록 각 그룹을 여러 샘플로 나눕니다. 모델은 할당된 샘플로 학습한 후 나머지 샘플로 테스트합니다. 그런 다음, 모델의 결과를 사람이 주석을 단 결과와 비교합니다.

평가 기준

여러 가지 기준으로 텍스트 분류 모델을 평가할 수 있습니다.

정확도는 텍스트 분류기가 정확히 예측한 횟수를 전체 예측 횟수와 비교하여 나타냅니다.
정밀도는 특정 클래스를 일관적으로 정확하게 예측하는 모델의 능력을 나타냅니다. 텍스트 분류기가 오탐을 적게 생성할수록 정확한 것입니다.
재현율은 적합한 클래스를 예측한 횟수를 모든 정탐 예측 횟수와 비교하여 측정한 모델의 일관성을 나타냅니다.
F1 점수는 정밀도와 재현율의 조화 평균을 계산하여 모델의 정확도에 대한 균형 잡힌 개요를 제공합니다.

텍스트 분류는 어떻게 구현하나요?

다음 단계에 따라 텍스트 분류 모델을 구축, 학습 및 배포할 수 있습니다.

학습 데이터세트 큐레이션

텍스트 분류에 사용할 언어 모델을 학습시키거나 미세 조정할 때 고품질 데이터세트를 준비해야 합니다. 레이블이 지정된 다양한 데이터세트를 준비하면 모델이 특정 단어, 문구 또는 패턴과 각각의 범주를 효율적으로 식별하는 방법을 학습할 수 있습니다.

데이터세트 준비

기계 학습 모델은 원시 데이터세트로 학습할 수 없습니다. 따라서 토큰화와 같은 전처리 방법을 사용하여 데이터세트를 정리하고 준비해야 합니다. 토큰화란 각 단어나 문장을 토큰이라고 부르는 여러 작은 부분으로 나누는 것을 말합니다.

토큰화 후에는 모델 성능에 영향을 미칠 수 있는 중복 데이터와 비정상 데이터를 학습 데이터세트에서 제거해야 합니다. 그 후 데이터세트를 학습 데이터와 검증 데이터로 분할합니다.

텍스트 분류 모델 학습

언어 모델을 선택하고 준비된 데이터세트로 학습시킵니다. 학습이 진행되는 동안 모델은 주석이 달린 데이터세트로 학습하고 텍스트를 해당 범주로 분류하려고 시도합니다. 모델이 일관되게 동일한 결과로 수렴하면 학습이 완료된 것입니다.

평가 및 최적화

테스트 데이터세트를 사용하여 모델을 평가합니다. 모델의 정밀도, 정확도, 재현율 및 F1 점수를 대표적인 벤치마크와 비교합니다. 학습된 모델의 과대적합 및 기타 성능 문제를 해결하기 위해 추가로 미세 조정해야 할 수도 있습니다. 만족스러운 결과를 얻을 때까지 모델을 최적화하세요.

텍스트 분류의 난관은 무엇인가요?

조직에서는 상용 또는 공개된 텍스트 분류 리소스를 사용하여 텍스트 분류기 신경망을 구현할 수 있습니다. 그러나 제한된 데이터로 인해 특정 산업에서는 학습 데이터세트를 큐레이션하는 것이 어려울 수 있습니다. 예를 들어 의료 서비스 회사는 분류 모델 학습에 사용할 의료 데이터세트를 소싱하는 데 도움이 필요할 수 있습니다.

기계 학습 모델을 학습시키고 미세 조정하려면 비용과 시간이 많이 듭니다. 뿐만 아니라 모델이 과대적합 또는 과소적합되어 실제 사용 사례에서 성능이 일관되지 않을 수 있습니다.

오픈 소스 기계 학습 라이브러리를 사용하여 텍스트 분류기를 만들 수도 있습니다. 하지만 분류기를 학습 및 프로그래밍하고 엔터프라이즈 애플리케이션과 통합하려면 전문적인 기계 학습 지식과 다년간의 소프트웨어 개발 경험이 필요합니다.

AWS는 텍스트 분류 요구 사항을 어떻게 지원하나요?

Amazon Comprehend는 기계 학습을 사용하여 텍스트에서 중요한 통찰력과 연관성을 찾아내는 NLP 서비스입니다. Custom Classification API를 사용하면 ML을 배우지 않고도 비즈니스별 레이블로 사용자 지정 텍스트 분류 모델을 손쉽게 빌드할 수 있습니다.

예를 들어 고객 지원 조직은 사용자 지정 분류 기능을 사용하여 고객이 문제를 어떻게 설명하는지에 따라 문제 유형별로 인바운드 요청을 자동으로 분류할 수 있습니다. 사용자 지정 모델을 사용하면 손쉽게 웹 사이트 댓글을 조정하고, 고객 피드백을 분류하고, 작업 그룹 문서를 정리할 수 있습니다.

Amazon SageMaker는 모든 사용 사례에 맞게 데이터를 준비하고 ML 모델을 구축, 교육 및 배포할 수 있는 완전 관리형 서비스입니다. 완전관리형 인프라, 도구 및 워크플로를 제공합니다.

Amazon SageMaker JumpStart를 사용하면 사전 학습된 모델 및 기초 모델 (FM) 에 액세스하고 데이터를 사용하여 사용 사례에 맞게 사용자 지정할 수 있습니다. SageMaker JumpStart는 다양한 일반 ML 사용 사례에 대한 원클릭 엔드 투 엔드 솔루션을 제공합니다. 텍스트 분류, 문서 요약, 필기 인식, 관계 추출, 질문 및 답변, 테이블 형식의 레코드에서 누락된 값 채우기에 SageMaker JumpStart를 사용할 수 있습니다.

지금 계정을 생성하여 아마존 웹 서비스 (AWS) 에서 텍스트 분류를 시작하십시오.

텍스트 분류란 무엇일까요?