게시된 날짜: Jan 18, 2018
이제 Amazon SageMaker에서 Word2Vec 알고리즘의 BlazingText 구현을 사용하여 대량의 문서에서 단어 임베딩을 생성할 수 있습니다. 단어 임베딩은 전체 텍스트 문서 집합에서 각각의 고유한 단어를 숫자의 벡터 형식으로 표현합니다. 유사한 단어는 유사한 벡터를 가집니다. 즉, 임베딩의 저차원 공간에서 서로 가까이 위치합니다. 비슷하지 않은 단어는 서로 떨어져 있습니다. 이 알고리즘은 의미 유사성, 감성 분석, 기계 번역, 질문과 응답 등 다양한 자연어 이해(NLU) 작업에 사용됩니다. 또한 최근에는 Word2Vec이 추천 및 세그먼트화와 같은 작업에 성공적으로 사용된 바 있습니다. 예를 들어, 두 영화에서 유사한 임베딩은 비슷한 사용자들이 비슷한 시간대에 이 영화들을 시청하는 경향이 있음을 가리킵니다. Amazon SageMaker의 BlazingText 구현은 속도와 규모를 고려하여 설계되었으므로 GPU 또는 CPU를 사용하여 초고속으로 임베딩을 생산할 수 있습니다.
Word2Vec 알고리즘의 BlazingText 구현은 현재 미국 동부(버지니아 북부 및 오하이오), EU(아일랜드), 미국 서부(오레곤) AWS 리전에서 사용할 수 있습니다. 자세한 내용은 Amazon SageMaker BlazingText Word2Vec 설명서를 참조하십시오.