張貼日期: Jan 18, 2018
您現在可以使用 Amazon SageMaker 的 BlazingText 實作 Word2Vec 演算法,從大量文件中產生單詞嵌入 (word embedding)。單詞嵌入主要是以數字向量的形式表示整份文字文件中的每個單詞。相似的單詞會有相似的向量,換言之,這類單詞在嵌入的低維度空間中會靠得很近,相似度較低的單詞則會彼此距離較遠。這種演算法適用於各種自然語言理解 (Natural Language Understanding,NLU) 任務,例如語意相似度、情緒分析、機器翻譯及問答系統。此外,Word2Vec 最近也成功應用於推薦功能及市場區隔。舉例來說,相近的單詞嵌入情形,代表喜好類似的使用者有可能會不約而同地在相近時間觀看某兩部電影。Amazon SageMaker 的 BlazingText 實作經專業設計而成,以速度和擴展能力為主要訴求,能運用 GPU 或 CPU 硬體迅速產生嵌入項目。
目前美國東部 (維吉尼亞州北部與俄亥俄州)、歐洲 (愛爾蘭) 及美國西部 (奧勒岡州) 的 AWS 區域已可使用 BlazingText 實作 Word2Vec 演算法。若要了解更多資訊,請參閱 Amazon SageMaker 有關 BlazingText Word2Vec 的說明文件。