텍스트 분석이란 무엇인가요?

텍스트 분석은 비즈니스 인사이트를 위해 컴퓨터 시스템을 사용하여 사람이 쓴 텍스트를 읽고 파악하는 과정입니다. 텍스트 분석 소프트웨어는 텍스트에서 정보를 독립적으로 분류, 정렬, 추출하여 패턴, 관련성, 감정, 기타 실행 가능한 지식을 식별할 수 있습니다. 텍스트 분석을 사용하여 이메일, 문서, 소셜 미디어 콘텐츠, 제품 리뷰와 같은 여러 텍스트 기반 소스를 사람이 하는 것처럼 효율적으로 정확하게 처리할 수 있습니다.

텍스트 분석이 왜 중요한가요?

기업은 텍스트 분석을 사용하여 다양한 비정형 데이터 원본에서 실행 가능한 인사이트를 추출합니다. 또한 의사 결정을 돕기 위해 이메일, 소셜 미디어 및 고객 설문 조사 응답과 같은 소스의 피드백에 의존합니다. 하지만 이러한 소스에서 나오는 엄청난 양의 텍스트는 텍스트 분석 소프트웨어가 없으면 버거운 것으로 입증되었습니다.

텍스트 분석을 통해 소스에서 정확한 정보를 보다 빠르게 얻을 수 있습니다. 프로세스는 완전히 자동화되고 일관성 있으며, 조치를 취할 수 있는 데이터가 표시됩니다. 예를 들어, 텍스트 분석 소프트웨어를 사용하면 소셜 미디어 게시물에 대한 부정적인 감정을 즉시 감지하여 문제를 해결하기 위해 노력할 수 있습니다.

감정 분석

감정 분석 또는 오피니언 마이닝은 텍스트 분석 방법을 사용하여 텍스트에 전달된 의견을 이해합니다. 리뷰, 블로그, 포럼 및 기타 온라인 미디어의 감정 분석을 사용하여 고객이 구매에 만족하는지 확인할 수 있습니다. 감정 분석은 새로운 추세를 파악하고, 감정 변화를 추적하며, PR 문제를 해결하는 데 도움이 됩니다. 감정 분석을 사용하고 특정 키워드를 식별하여, 고객 의견의 변화를 추적하고 문제의 근본 원인을 식별할 수 있습니다. 

레코드 관리

텍스트 분석은 문서의 효율적인 관리, 분류 및 검색으로 이어집니다. 여기에는 환자 레코드 관리 자동화, 브랜드 언급 모니터링, 보험 사기 탐지가 포함됩니다. 예를 들어, LexisNexis Legal & Professional은 텍스트 추출을 사용하여 2억 개의 문서 중에서 특정 레코드를 식별합니다.

고객 경험 개인화

텍스트 분석 소프트웨어를 사용하여 이메일, 리뷰, 채팅 및 기타 텍스트 기반 통신을 처리할 수 있습니다. 고객의 선호도, 구매 습관 및 전반적인 브랜드 인식에 대한 인사이트를 바탕으로 다양한 고객 세그먼트에 대해 개인화된 경험을 맞춤화할 수 있습니다. 

텍스트 분석은 어떻게 작동하나요?

텍스트 분석의 핵심은 단어를 특정 의미와 연관시키고 구조화되지 않은 데이터의 의미적 맥락을 이해하도록 컴퓨터 소프트웨어를 훈련시키는 것입니다. 이는 인간이 단어를 사물, 행동, 감정과 연관시켜 새로운 언어를 배우는 것과 유사합니다. 

텍스트 분석 소프트웨어는 딥 러닝 및 자연어 처리 원칙에 따라 작동합니다.

딥 러닝

인공 지능은 컴퓨터가 인간처럼 생각하도록 가르치는 데이터 과학 분야입니다. 기계 학습은 특정 방법을 사용하여 컴퓨터를 가르치거나 훈련시키는 인공 지능 내의 기술입니다. 딥 러닝은 인간의 두뇌를 모방한 신경망 또는 소프트웨어 구조를 사용하는 고도로 전문화된 기계 학습 방법입니다. 딥 러닝 기술은 텍스트 분석 소프트웨어를 강화하여 이러한 네트워크가 인간의 두뇌와 유사한 방식으로 텍스트를 읽을 수 있도록 합니다.

자연어 처리

자연어 처리(NLP)는 인공 지능의 한 분야로 컴퓨터가 자연스러운 인간이 만든 텍스트에서 자동으로 의미를 도출할 수 있는 기능을 제공합니다. 언어 모델과 통계를 사용하여 딥 러닝 기술을 훈련하여 손으로 쓴 텍스트 이미지를 포함한 텍스트 데이터를 처리하고 분석합니다. 광학 문자 인식(OCR)과 같은 NLP 방식은 이미지에서 단어를 찾고 이해하여 텍스트 이미지를 텍스트 문서로 변환합니다.

텍스트 분석 기술에는 어떤 유형이 있나요?

텍스트 분석 소프트웨어는 이러한 일반적인 기술을 사용합니다.

텍스트 분류

텍스트 분류에서 텍스트 분석 소프트웨어는 특정 키워드를 특정 주제, 사용자 의도 또는 감정과 연결하는 방법을 학습합니다. 이는 다음 방법을 사용하여 수행합니다. 

  • 규칙 기반 분류는 의미 구성 요소 또는 구문 패턴에 대해 미리 정의된 규칙을 기반으로 텍스트에 태그를 할당합니다.
  • 기계 학습 기반 시스템은 예제로 텍스트 분석 소프트웨어를 훈련하고 텍스트 태깅의 ​​정확성을 높이는 방식으로 작동합니다. Naive Bayes, Support Vector Machines 및 Deep Learning과 같은 언어 모델을 사용하여 구조화된 데이터를 처리하고, 단어를 분류하고, 이들 사이의 의미론적 이해를 발전시킵니다.

예를 들어 호의적인 리뷰에는 종종 좋은, 빠른,훌륭한과 같은 단어가 포함됩니다. 하지만 부정적인 리뷰에는 불만인, 느린나쁜과 같은 단어가 포함될 수 있습니다. 데이터 사이언티스트는 텍스트 분석 소프트웨어를 훈련하여 그러한 특정 용어를 찾고 리뷰를 긍정적 또는 부정적으로 분류합니다. 이런 식으로 고객 지원 팀은 리뷰에서 고객 감정을 쉽게 모니터링할 수 있습니다.

텍스트 추출

텍스트 추출은 텍스트를 스캔하고 주요 정보를 추출합니다. 텍스트에서 키워드, 제품 속성, 브랜드 이름, 장소 이름 등을 식별할 수 있습니다. 추출 소프트웨어는 다음 방법을 적용합니다.

  • 정규 표현식(REGEX): 추출해야 하는 항목의 전제 조건으로 사용되는 형식화된 기호 배열입니다.
  • 조건부 임의 필드(CRF): 특정 패턴이나 구문을 평가하여 텍스트를 추출하는 기계 학습 방법입니다. REGEX보다 더 개선되었으며 유연합니다. 

예를 들어 텍스트 추출을 사용하여 소셜 미디어에서 브랜드 언급을 모니터링할 수 있습니다. 소셜 미디어에서 브랜드의 모든 발생을 수동으로 추적하는 것은 불가능합니다. 텍스트 추출은 실시간으로 브랜드에 대한 언급을 알려줍니다. 

주제 모델링

주제 모델링 방법은 구조화되지 않은 텍스트에서 발생하는 관련 키워드를 식별하고 주제 또는 테마로 그룹화합니다. 이러한 방법은 여러 텍스트 문서를 읽고 문서에서 다양한 단어의 빈도에 따라 주제로 정렬할 수 있습니다. 주제 모델링 방법은 문서의 추가 분석을 위한 컨텍스트를 제공합니다.

예를 들어 주제 모델링 방법을 사용하여 스캔한 문서 아카이브를 읽고 문서를 인보이스, 법률 문서 및 고객 계약으로 분류할 수 있습니다. 그런 다음 인보이스에 대해 다양한 분석 방법을 실행하여 재무적 인사이트를 얻거나 고객 계약에 대해 실행하여 고객 인사이트를 얻을 수 있습니다.

PII 수정

PII 수정은 문서에서 이름, 주소 또는 계좌 번호와 같은 개인 식별 정보(PII)를 자동으로 감지하고 제거합니다. PII 수정은 개인 정보를 보호하고 지역 법률 및 규정을 준수하는 데 도움이 됩니다.

예를 들어 지원 검색 솔루션에서 문서를 인덱싱하기 전에 티켓 및 기술 자료를 분석하여 감지하고 PII를 수정할 수 있습니다. 이렇게 하면 검색 솔루션의 문서에 PII가 포함되지 않습니다.

텍스트 분석(analytics)이란 무엇인가요?

텍스트 분석은 여러 텍스트 샘플의 패턴을 분석하여 얻을 수 있는 정량적 데이터입니다. 차트, 표 또는 그래프로 표시됩니다. 

텍스트 분석(analysis) vs. 텍스트 분석(analytics)

텍스트 분석(analytics)은 수천 개의 피드백을 분석한 결과에서 특정 추세나 패턴이 있는지 판단하는 데 도움이 됩니다. 한편, 텍스트 분석(analysis)을 사용하면 고객의 피드백이 긍정적인지 부정적인지 확인할 수 있습니다.

텍스트 분석에는어떤 단계가 있나요?

텍스트 분석을 구현하기 위해서는 4단계의 체계적인 과정을 거쳐야 합니다.

1단계: 데이터 수집

이 단계에서는 내부 또는 외부 소스에서 텍스트 데이터를 수집합니다.

내부 데이터

내부 데이터는 이메일, 채팅, 인보이스 및 직원 설문 조사와 같이 비즈니스 내부에 있으며 즉시 사용할 수 있는 텍스트 콘텐츠입니다. 

외부 데이터

소셜 미디어 게시물, 온라인 리뷰, 뉴스 기사 및 온라인 포럼과 같은 소스에서 외부 데이터를 찾을 수 있습니다. 외부 데이터는 사용자가 통제할 수 없기 때문에 획득하기가 어렵습니다. 외부 데이터를 추출하려면 웹 스크래핑 도구를 사용하거나 서드 파티 솔루션과 통합해야 할 수 있습니다.

2단계: 데이터 준비

데이터 준비는 텍스트 분석의 필수적인 부분입니다. 여기에는 분석에 적합한 형식으로 원시 텍스트 데이터를 구조화하는 작업이 포함됩니다. 텍스트 분석 소프트웨어는 프로세스를 자동화하고 다음과 같은 일반적인 자연어 처리(NLP) 방법을 포함합니다. 

토큰화

토큰화는 원시 텍스트를 의미론적 의미가 있는 여러 부분으로 분리하는 것입니다. 예를 들어 텍스트 분석 혜택 비즈니스라는 문구는 텍스트, 분석, 혜택비즈니스라는 단어로 토큰화됩니다.

품사 태깅

품사 태깅은 토큰화된 텍스트에 문법적 태그를 할당합니다. 예를 들어 이 단계를 이전에 언급한 토큰에 적용하면 다음이 생성됩니다. 텍스트: 명사, 분석: 명사, 혜택: 동사, 비즈니스: 명사.

구문 분석

구문 분석은 토큰화된 단어와 영어 문법 사이에 의미 있는 연결을 구축합니다. 텍스트 분석 소프트웨어는 단어 간의 관계를 시각화하는 데 도움이 됩니다. 

표제어 추출 

표제어 추출은 단어를 사전 형식 또는 표제어로 단순화하는 언어 프로세스입니다. 예를 들어 visualizing의 사전 형식은 visualize입니다.

불용어 제거

불용어는 and, or, for와 같이 문장에 의미적 맥락을 거의 또는 전혀 제공하지 않는 단어입니다. 사용 사례에 따라 소프트웨어는 구조화된 텍스트에서 이를 제거할 수 있습니다. 

3단계: 텍스트 분석

텍스트 분석은 텍스트 분석 소프트웨어가 다양한 방법을 사용하여 텍스트를 처리하는 프로세스의 핵심 부분입니다. 

텍스트 분류

분류는 규칙 또는 기계 학습 기반 시스템에 따라 텍스트 데이터에 태그를 할당하는 프로세스입니다.

텍스트 추출

추출에는 텍스트에서 특정 키워드의 존재를 식별하고 태그와 연관시키는 작업이 포함됩니다. 이 소프트웨어는 정규 표현식 및 조건부 임의 필드(CRF)와 같은 방법을 사용하여 이를 수행합니다.

4단계: 시각화

시각화는 텍스트 분석 결과를 이해하기 쉬운 형식으로 바꾸는 것입니다. 그래프, 차트 및 표에서 텍스트 분석 결과를 찾을 수 있습니다. 시각화된 결과는 패턴과 추세를 식별하고 작업 계획을 구축하는 데 도움이 됩니다. 예를 들어 제품 반품이 급증했지만 원인을 찾는 데 문제가 있다고 가정해 보겠습니다. 시각화를 통해 결함, 잘못된 크기 또는 피드백에 적합하지 않은 단어를 찾아 차트로 만들 수 있습니다. 그러면 어떤 것이 최우선 과제인지 알 수 있습니다. 

텍스트 마이닝이란 무엇인가요?

텍스트 마이닝은 구조화되지 않은 텍스트를 분석하여 질적 인사이트를 얻는 과정입니다. 

텍스트 분석(analysis) vs. 텍스트 마이닝

텍스트 분석과 텍스트 마이닝 사이에는 차이가 없습니다. 두 용어 모두 이메일, 설문 조사 응답 및 소셜 미디어 피드와 같은 소스에서 귀중한 인사이트를 얻는 동일한 프로세스를 나타냅니다.

Amazon Comprehend가 어떻게 도움이 되나요?

Amazon Comprehend는 기계 학습을 사용하여 텍스트에서 유용한 인사이트 및 관계를 찾아내는 자연어 처리 서비스입니다. 이를 사용하여 문서 처리 워크플로에서 정보를 자동으로 분류하고 추출하여 문서 처리 워크플로를 단순화할 수 있습니다. 예를 들어 Amazon Comprehend를 사용하여 다음 작업을 수행할 수 있습니다.

  • 고객 지원 티켓, 제품 리뷰, 소셜 미디어 피드 등에 대한 감정 분석을 수행합니다. 
  • Amazon Comprehend를 Amazon Lex와 통합하여 지능형 및 대화형 챗봇을 개발합니다.
  • Amazon Comprehend Medical을 사용하여 문서에서 의료 용어를 추출하고 이들 간의 관계를 식별합니다.

지금 AWS 계정을 생성하여 시작하세요.

AWS의 다음 단계