Amazon Web Services 한국 블로그
Amazon Comprehend 한국어 포함 추가 6개 언어 지원 개시
Amazon Comprehend는 기계 학습을 사용하여 텍스트 안에 있는 통찰력과 관계를 찾아내는 자연어 처리(NLP) 서비스로서 Amazon Polly, Translate 및 Transcribe에 이어 오늘부터 한국어 지원을 시작합니다.
이번에 중국어 (번체), 중국어 (간체), 힌디어, 일본어 및 아랍어 등 6 가지 새로운 언어를 추가함으로서, 기존 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어 및 스페인어와 함께 총 12개 언어를 지원합니다.
Amazon Comprehend를 사용하면 별도의 NLP 모델을 구축하고 실행하는 데 필요한 기술 구현이나 개발 단계가 필요 없이 손쉽게 애플리케이션에 텍스트 분석을 쉽게 추가 할 수 있습니다.
본 서비스를 이용하면 해당 텍스트에 대한 다국어를 식별하고 핵심 문구, 장소, 사람, 브랜드 또는 이벤트를 추출합니다. 토큰화 및 Parts of Speech(PoS, 품사)를 사용하여 텍스트가 얼마나 긍정적인지 또는 부정적인지를 이해하며 텍스트 파일 모음을 주제별로 자동으로 정리합니다. Amazon Comprehend의 AutoML 기능으로 해당 조직의 필요에 꼭 맞게 조정된 사용자 지정 개체 세트나 텍스트 분류 모델을 빌드할 수도 있습니다.
또한, 특정 용어나 부품 코드 등을 찾아내거나 고객 지원 문의나 소셜 미디어 게시물 등의 텍스트에서 주요 맥락을 분류하도록 확장하여, 기계 학습에 대한 전문 지식 없이도 이러한 사용자 지정 기능을 추가할 수 있습니다. (각각의 예제 세트 약간과 레이블만 제공하면 나머지는 Comprehend가 알아서 합니다.)
Amazon Comprehend의 주요 서비스 기능과 사용 방법은 아래 블로그를 참고하시기 바랍니다.
- Amazon Comprehend – 딥러닝 기반 실시간 자연어 인식 서비스 출시
- Amazon Comprehend Medical – 의료 서비스 특성이 반영된 자연어 처리 서비스
- Amazon Comprehend, 대용량 텍스트 분석 위한 비동기식 배치 작업 출시
- Amazon Comprehend, 사용자 지정 문서 분류자 학습 기능 출시
AWS 관리 콘솔 뿐만 아니라 AWS SDK 및 API를 통해서도 간단하게 반복 작업을 수행할 수 있습니다. 예를 들어, 텍스트에 사용 된 주요 키워드를 확인하려면 DetectKeyPhrases API를 사용하면 됩니다. 만약 25개 문서에서 배치 작업을 하고 싶은 경우는 BatchDetectKeyPhrases API를 사용하시면 됩니다. 아래는 간단한 AWS CLI 예제입니다.
$ aws comprehend detect-key-phrases \
--region region \
--language-code "ko" \
--text "오늘 서울에는 비가 옵니다."
이에 대한 응답은 아래와 같습니다.
{
"Entities": [
{
"Text": "오늘",
"Score": 0.99,
"Type": "DATE",
"BeginOffset": 1,
"EndOffset": 3
},
{
"Text": "서울",
"Score": 0.99,
"Type": "LOCATION",
"BeginOffset": 5,
"EndOffset": 7
}
],
"LanguageCode": "ko"
}
감성 분석 API는 텍스트(긍정, 부정, 중립 또는 혼합)의 전체적인 감성을 반환합니다. 아래는 Python을 통해 간단하게 분석하는 예제입니다.
import boto3
import json
comprehend = boto3.client(service_name='comprehend', region_name='region')
text = "오늘은 하루 종일 비가 내려서 우울하다. 맛있는 부침개가 생각나는 날이다."
print('Calling DetectSentiment')
print(json.dumps(comprehend.detect_sentiment(Text=text, LanguageCode='ko'), sort_keys=True, indent=4))
print('End of DetectSentiment\n')
이에 대한 응답은 아래와 같습니다.
{
"SentimentScore": {
"Mixed": 0.54585512690246105,
"Positive": 0.01592071056365967,
"Neutral": 0.2985543131828308,
"Negative": 0.7093945890665054
},
"Sentiment": "NEGATIVE",
"LanguageCode": "ko"
}
그 밖에도 구문 분석, 엔터티 인식, 의학 용어 인식 등 다양한 기능을 제공합니다. 더 자세한 것은 기술 문서를 참고하시면 됩니다. AWS에서는 한국 고객들의 피드백을 통해 다양한 AI 서비스에 대한 한국어 지원을 지속적으로 늘려나갈 예정이니 많은 성원 부탁드립니다.
– Channy(윤석찬);