Veröffentlicht am: Jan 18, 2018
Sie können jetzt die BlazingText-Implementierung des Word2Vec-Algorithmus von Amazon SageMaker nutzen, um Worteinbettungen aus einer großen Anzahl von Dokumenten zu erzeugen. Worteinbettungen repräsentieren jedes einmal in einer Sammlung von Textdokumenten vorkommende Wort als Zahlenvektor. Ähnliche Wörter haben ähnliche Zahlenvektoren, liegen also im niedrigdimensionalen Raum nahe beieinander, während Wörter mit größeren Unterschieden weiter auseinander liegen. Der Algorithmus wird in verschiedenen NLU-Aufgaben (Natural Language Understanding, Verstehen natürlicher Sprache) genutzt, zum Beispiel der Feststellung semantischer Ähnlichkeit, Stimmungsanalyse, Maschinenübersetzung und Fragenbeantwortung. Word2Vec wurde erst kürzlich erfolgreich für Aufgaben wie Empfehlung und Segmentierung genutzt, wo ähnliche Einbettungen zum Beispiel darauf hindeuten können, dass zwei Filme mit hoher Wahrscheinlichkeit von ähnlichen Benutzern zu ähnlichen Zeiten angesehen werden. Die BlazingText-Implementierung von Amazon SageMaker wurde auf Geschwindigkeit und Skalierbarkeit optimiert, um die GPU- oder CPU-Berechnung von Einbettungen stark zu beschleunigen.
Die BlazingText-Implementierung des Word2Vec-Algorithmus ist ab sofort in den AWS-Regionen USA Ost (Nord-Virginia und Ohio), EU (Irland) und USA West (Oregon) verfügbar. Weitere Informationen entnehmen Sie der Amazon SageMaker-Dokumentation zu BlazingText Word2Vec.