Veröffentlicht am: Sep 21, 2021

Amazon Comprehend hat eine Reihe von Funktionen für Comprehend Custom eingeführt, die kontinuierliche Modellverbesserungen ermöglichen, indem sie Entwicklern die Möglichkeit geben, neue Modellversionen zu erstellen, kontinuierlich mit bestimmten Testsätzen zu testen und neue Modelle auf bestehende Endpunkte zu migrieren. Mithilfe von AutoML können Sie Amazon Comprehend so anpassen, dass es Entitäten identifiziert, die spezifisch für Ihre Domäne sind. Mit der benutzerdefinierten Klassifizierung können Sie auf einfache Weise benutzerdefinierte Textklassifizierungsmodelle mit Ihren geschäftsspezifischen Bezeichnungen erstellen. Benutzerdefinierte Modelle können anschließend für die Inferenz von Textdokumenten verwendet werden, sowohl in Echtzeit als auch im Stapelverarbeitungsmodus. Die Erstellung eines benutzerdefinierten Modells ist einfach und erfordert keine Erfahrung mit Machine Learning. Nachstehend finden Sie eine detaillierte Beschreibung dieser Funktionen:

Verbessertes Modellmanagement – Bei den meisten Projekten zur Verarbeitung natürlicher Sprache (NLP) werden Modelle im Laufe der Zeit kontinuierlich neu trainiert, wenn neue Daten gesammelt werden oder wenn es Abweichungen zwischen dem Trainingsdatensatz und den bei der Inferenz verarbeiteten Dokumenten gibt. Mit der Modellversionierung und der Live-Aktualisierung von Endpunkten können Sie kontinuierlich neue Modellversionen trainieren, die Genauigkeitsmetriken verschiedener Versionen vergleichen und Live-Endpunkte mit einem einzigen Klick mit dem Modell mit der besten Leistung aktualisieren.

  • Die Modellversionierung ermöglicht es Ihnen, neuere Versionen eines bestehenden Modells zu trainieren, was die Iteration und die Verfolgung der Genauigkeitsänderungen erleichtert. Jede neue Version kann mit einer eindeutigen Versions-ID identifiziert werden.
  • Die aktive Endpunktaktualisierung ermöglicht die Aktualisierung eines aktiven synchronen Endpunkts mit einem neuen Modell. Dadurch wird sichergestellt, dass Sie eine neue Modellversion ohne Ausfallzeiten in der Produktion einsetzen können.

Verbesserte Kontrolle für Modelltraining/-bewertung – Datenvorbereitung und Modellbewertung sind oft der mühsamste Teil eines jeden NLP-Projekts. Die Modellbewertung und Fehlerbehebung kann oft verwirrend sein, wenn die Aufteilung der Trainings- und Testdaten nicht klar ist. Sie können jetzt beim Modelltraining getrennte Trainings- und Testdatensätze bereitstellen. Wir haben auch einen neuen Trainingsmodus eingeführt, der die Genauigkeit der Schlussfolgerungen bei langen Dokumenten, die sich über mehrere Absätze erstrecken, verbessert.

  • Mit dem vom Kunden bereitgestellten Testdatensatz können Sie während des Modelltrainings einen optionalen Testdatensatz bereitstellen. Bisher mussten Sie zur Bewertung eines Modells einen Inferenzjob manuell gegen einen Testsatz laufen lassen. Wenn zusätzliche Daten gesammelt und neue Modellversionen trainiert werden, kann die Bewertung der Modellleistung anhand desselben Testdatensatzes einen fairen Vergleich zwischen den Modellversionen ermöglichen.
  • Der neue Trainingsmodus verbessert die Genauigkeit des Entity-Recognizer-Modells für lange Dokumente, die mehrere Absätze enthalten. Während des Modelltrainings mit CSV-Annotationen ermöglicht die Wahl des Eingabeformats ONE_DOC_PER_FILE für lange Dokumente dem Modell, mehr kontextuelle Einbettungen zu lernen, was die Modellgenauigkeit erheblich verbessert.

Weitere Informationen für den Einstieg finden Sie auf der Produktseite von AWS Comprehend und in unserer Dokumentation.