Wie war dieser Inhalt?
- Lernen
- Adaptive ML und CCS beschleunigen den Support für Patienten mit Meta Llama und AWS
Adaptive ML und CCS beschleunigen den Support für Patienten mit Meta Llama und AWS

Adaptive ML, ein Unternehmen, das Software für verstärktes Lernen im Bereich Unternehmens-KI entwickelt, machte sich daran, CCS , einem führenden Anbieter von klinischen Lösungen und medizinischem Verbrauchsmaterial für die Lieferung nach Hause, dabei zu unterstützen, die Reaktionszeiten und die Zuverlässigkeit in seinen Service-Leistungen für Menschen mit chronischen Erkrankungen zu verbessern. Das Team von Adaptive ML testete einen KI-Agenten, der darauf ausgelegt ist, reale operative Aufgaben über interne Systeme hinweg auszuführen, wobei Llama-Modelle von Meta auf Amazon Web Services (AWS). Ein Proof of Concept zeigte einen schnelleren und effizienteren Ansatz für Workflows mit Unternehmens-KI, der die Reaktionszeit um mehr als 90 Prozent reduzierte.
Verbesserung der Reaktionszeiten im Patienten-Support
Gesundheitsorganisationen, die Patienten mit chronischen Erkrankungen betreuen, müssen schnell und zuverlässig auf Anforderungen zu Verbrauchsmaterialien, Lieferungen und Versorgungsmanagement reagieren, selbst bei Spitzenauslastungen. Wenn Patienten auf Geräte wie kontinuierliche Glukosemonitore oder Insulinpumpen angewiesen sind, können Verzögerungen bei der Problemlösung die Behandlung beeinträchtigen und die Support-Teams operativ belasten. CCS bietet Patienten-Support-Services an, die Einzelpersonen bei der Bewältigung ihrer laufenden Versorgungsbedürfnisse unterstützen, einschließlich der Logistik und Koordination die erforderlich sind, um die Versorgung mit lebenswichtigen medizinischen Hilfsmitteln sicherzustellen. Diese Interaktionen erfordern oft, dass die Agenten auf mehrere interne Systeme zugreifen, um Informationen abzurufen, Bestellungen zu überprüfen oder Patienten durch die nächsten Schritte zu führen. Da das Support-Volume schwankt, wird KI zu einer zunehmend wichtigen Komponente zur Verbesserung der Reaktionszeiten.
Um dieser Herausforderung zu begegnen, begann CCS zu untersuchen, wie KI-Agenten dazu beitragen könnten, die Workflows im Patienten-Support zu optimieren. Das Ziel bestand darin, automatisierte Systeme zu ermöglichen, die direkt mit Unternehmensanwendungen interagieren, Informationen aus internen Systemen abrufen und operative Aufgaben im Auftrag der Support-Teams ausführen können. Um dies zu erreichen, ist mehr als nur dialogorientierte KI erforderlich. Support-Agenten in Unternehmen müssen Funktionsaufrufe zuverlässig ausführen, damit Modelle APIs systemübergreifend aufrufen können, beispielsweise in CRMs, Wissensdatenbanken und Auftragsverwaltungsplattformen. Wenn diese Aufrufe aufgrund falscher Parameter oder fehlerhafter Ausgaben fehlschlagen, kommt der Workflow zum Stillstand. Die Anforderung muss dann an einen menschlichen Agenten weitergeleitet werden, was die Wartezeiten und den betrieblichen Aufwand erhöht. Herkömmliche Ansätze stützen sich oft auf große proprietäre Modelle, auf die über externe APIs zugegriffen wird. Diese Modelle sind zwar vielseitig einsetzbar, können jedoch zu Latenzzeiten führen und die Kontrolle über das Training oder die Optimierung für spezialisierte Workflows einschränken. Adaptive ML hat sich mit CCS zusammengetan, um einen anderen Ansatz zu untersuchen: die Nutzung von durch bestärkendes Lernen optimierten offenen Modellen, um zuverlässige KI-Agenten zu betreiben, die in realen Support-Umgebungen im Gesundheitswesen schnell und effizient arbeiten können.
Bereitstellung einer speziellen KI-Agenten-Architektur
Adaptive ML implementierte den Proof of Concept mithilfe von Adaptive Engine, einer Plattform für Reinforcement-Learning-Operations (RLOps), die Unternehmen dabei unterstützen soll, spezialisierte Sprachmodelle zu trainieren, zu bewerten und bereitzustellen. Für den Anwendungsfall bei CCS wählte Adaptive ML das Modell Meta Llama 3.2 3B aus, ein kompaktes Open-Source-Modell, das sich gut für Echtzeit-Unternehmensanwendungen eignet. Kleinere Modelle bieten erhebliche Vorteile für operative Workflows: schnellere Inferenzzeiten, geringere Anforderungen an die Infrastruktur und die Möglichkeit, während der Entwicklung schnell zu iterieren. „Sobald wir die Llama-Modelle getestet hatten, war der Unterschied in der Latenzzeit dramatisch“, sagte Olivier Cruchant, Mitbegründer von Adaptive ML. „Mit einem kompakten Modell kann man nahezu in Echtzeit reagieren, was genau das ist, was man für Interaktionen im Rahmen des Patienten-Supports benötigt.“
Diese KI-Agenten für die Unternehmens-KI erfordern ein hohes Maß an Genauigkeit bei Funktionsaufrufen, um zuverlässig mit Geschäftssystemen zu interagieren. Um diese Anforderung zu erfüllen, wandte Adaptive ML über die Adaptive Engine eine auf verstärktem Lernen basierende Optimierung an. Der Prozess trainierte das Llama-Modell darauf, zuverlässig die strukturierten Ausgaben zu generieren, die für die Interaktion mit Unternehmens-APIs und Geschäftssystemen erforderlich sind. Die Bereitstellung des Systems erfolgte auf Amazon Elastic Compute Cloud (Amazon EC2) p5.4xlarge-Instances bereitgestellt, die mit NVIDIA H100-GPUs ausgestattet sind und die für den effizienten Betrieb des Modells erforderlichen Rechenressourcen bereitstellen.
Adaptive ML nutzte zudem Amazon EC2 Capacity Blocks, mit denen GPU-Ressourcen für bestimmte Zeitfenster reserviert werden können. Dadurch konnte das Team die Verfügbarkeit von GPUs für Benchmarking und Tests sicherstellen und gleichzeitig Flexibilität bei der Bereitstellung bewahren . „Die Möglichkeit, Kapazitäten für ein bestimmtes Zeitfenster zu reservieren, war äußerst hilfreich“, sagte Olivier. „Dadurch konnten wir groß angelegte Benchmarks durchführen und dabei darauf vertrauen, dass die Infrastruktur verfügbar sein würde.“ Die AWS-Infrastruktur trug zudem dazu bei, die Systemlatenz zu reduzieren, indem sowohl Rechenressourcen als auch unterstützende Datenbanken in derselben Availability Zone platziert wurden. Aus Sicht von CCS verlief die Integration unkompliziert. Adaptive ML hostete die Modellumgebung in AWS und stellte sie über einen HTTPS-API-Endpunkt bereit, sodass CCS-Anwendungen den KI-Agenten ohne größere architektonische Änderungen direkt aufrufen konnten.
Demonstration skalierbarer KI-Leistung im Gesundheitswesen
Der Proof of Concept zeigte , dass ein spezialisiertes, kompaktes Modell eine Leistung auf Unternehmensniveau für KI-gestützte Workflows zum Support der Patienten liefern kann. Das System erreichte eine clientseitige Inferenzlatenz von etwa 230 Millisekunden, was einer Reduzierung von mehr als 90 Prozent im Vergleich zu einem proprietären Modell-Baseline entspricht. Diese End-to-End-Reaktionszeit umfasst den gesamten Zyklus der Anforderung, während die Latenzzeit der Modellinferenz serverseitig durchschnittlich etwa 160 Millisekunden betrug. Das bedeutete, dass der KI-Agent selbst bei mehrstufigen Workflows schnell reagieren konnte. „Bei Echtzeit-Workflows ist die Latenz entscheidend“, sagte Olivier. „Wenn Antworten innerhalb weniger hundert Millisekunden statt nach mehreren Sekunden zurückkommen, wird Das Erlebnis sowohl für Patienten als auch für Support-Teams nutzbar.“
Eine geringere Latenz verbessert zudem die Zuverlässigkeit automatisierter Workflows. Da das Modell präzise Funktionsaufrufe schnell generieren kann, ist es in der Lage, Daten aus Unternehmenssystemen abzurufen und Aufgaben ohne menschliches Eingreifen zu erledigen. Dies reduziert Verzögerungen bei der Patienteninteraktion und ermöglicht es den Support-Teams, sich auf komplexere Fälle zu konzentrieren. Die Architektur demonstrierte zudem ein neues Wirtschaftsmodell für die Bereitstellung von Unternehmens-KI. „Kleine Modelle erschließen etwas Leistungsstarkes: die Fähigkeit, das firmeneigene Wissen und die Workflows von CCS in den Support für Patienten zu integrieren – was sowohl die Geschwindigkeit als auch die Zuverlässigkeit steigert“, sagte Richard Mackey, CTO von CCS.
Der Proof of Concept von CCS verdeutlicht, wie Organisationen im Gesundheitswesen damit beginnen können, KI-Agenten in operative Workflows zu integrieren und dabei die Reaktionsfähigkeit und Zuverlässigkeit aufrechtzuerhalten , die für patientenorientierte Services erforderlich sind. Durch die Kombination der Llama-Modelle von Meta mit der Plattform für bestärkendes Lernen von Adaptive ML und der AWS-Infrastruktur zeigt die Zusammenarbeit einen Weg zu skalierbaren KI-Unterstützungssystemen auf, die für reale Unternehmensumgebungen konzipiert sind.
Wie war dieser Inhalt?