TUM researcher finds new approach to safety-critical systems using parallelized algorithms on AWS

pFaces targets heterogenous hardware configurations (HWCs) combining compute nodes (CNs) of CPUs, GPUs and hardware accelerators (HWAs). A web-based interface helps developers design parallel algorithms and run them on targeted HWCs.

Click here for German version.

Mahmoud Khaled, a PhD student at Technische Universität München (TUM) and a research assistant at Ludwig Maximilian Universität (LMU) in Munich, researches how to improve safety-critical systems that require large amounts of compute power. Using Amazon Web Services (AWS), Khaled’s research project, pFaces, accelerates parallelized algorithms and controls computational complexity to speed the time to science.

His project findings introduce a new way to design and deploy verified control software for safety-critical systems, such as robotic surgical machines, air traffic control, shipping and warehousing, rail networks, and autonomous vehicles. Khaled uses techniques with mathematical foundations (formal methods in control) to algorithmically generate correct-by-construction control software for safety-critical applications.

For example, in the symbolic control technique, the system under consideration is abstracted as a finite-state model and then a controller is automatically synthesized. The designed controllers are guaranteed to enforce given formal specifications, such as safety or reachability. Techniques that require long computing times because they cannot run in parallel makes the data unusable—in modern applications that require real time operation. Khaled redesigns them as parallelized algorithms using AWS.

How the cloud speeds the time to science

Self-driving cars are one example of how Khaled’s methods can be applied to speed the time to science. The underlying technology, pFaces, is a general acceleration ecosystem that helps design and deploy parallel algorithms, regardless of application type and target hardware.

Khaled says, “pFaces takes requests from users about how tasks can be done in parallel, and it automatically uses all available hardware—CPUs, GPUs, and hardware accelerators—in parallel as efficiently as possible.” The tool can run workloads locally or on the AWS Cloud and has a Web-IDE for developing the parallel algorithms and running them remotely on multiple Amazon EC2 instances.

An example deployment to control a platoon of trucks. An version of the parallelized symbolic control approach runs on top of pFaces and receives control requests from trucks asking for optimized navigation and low-level control decisions. It then responds with controllers synthesized to serve the requests and ensure the safety of the platoon.

An example deployment to control a platoon of trucks. A version of the parallelized symbolic control approach runs on top of pFaces and receives control requests from trucks asking for optimized navigation and low-level control decisions. It then responds with controllers synthesized to serve the requests and ensure the safety of the platoon.

Khaled says, “We started with AWS as a testing platform. However, developing the techniques locally and then deploying them in the cloud opened our minds to other possibilities. In a future when safety-critical systems have reliable and fast connections to the cloud, the control software may be deployed remotely to provide the control as a service. They may also benefit from a ‘collective mind,’ in the cloud, who orchestrates decisions to help not only one system, but a group of systems, in favor of an optimized cooperative operation.”

Making self-driving cars safer

Khaled wanted to create a reliable, safe way for autonomous vehicles and other safety-critical systems to make correct decisions in real time. In the case of autonomous vehicles, he focuses on layers of Autopilot software starting from path planning to low-level control. To try millions of scenarios and make a decision on the safest possible maneuver with formal methods in control techniques, large bursts of computing power are needed. Parallelizing formal methods of control allows the autonomous vehicle to find, the necessary maneuver to avoid the crash, in real time.

Khaled says, “Given an accurate model of the vehicle, we can discover all possible scenarios and pick the best one that will avoid the crash and still deliver a pleasant driving experience. This is computationally complex, so we redesigned and parallelized these techniques. To do this, we turned to AWS. The new techniques were developed and tested in AWS and can be deployed in vehicles to run on their modern hardware like many-core GPUs.”

The parallelized algorithms are compatible with modern high-performance computing (HPC) platforms. In one of his simulations, Khaled used Amazon Elastic Compute Cloud (Amazon EC2) to reduce computation time from 52 seconds within a dual-core CPU to 40 milliseconds in p3.16xlarge EC2 instance, a 1,300-times speedup.

pFaces is available for download on GitHub for any developers or researchers interested in experimenting with the tool.

Listen to Fix This podcast episodes to hear how other organizations like Fred Hutch and Emory University use AWS to speed the time to science. Episodes are available on Apple Podcasts, Google Play, Spotify, Stitcher, TuneIn, Overcast, iHeartRadio, and via RSS.

Read more stories from universities around the globe about how they use AWS to further their research, enrich their campuses, and more including stories from The University of Manchester, The University of Nottingham, and University of British Columbia.

Forscher der TUM findet neuen Ansatz für sicherheitskritische Systeme durch die Nutzung paralleler Algorithmen in AWS

pFaces zielt auf heterogene Hardware-Konfigurationen (HWCs) ab und kombiniert Rechenknoten von CPUs, GPUs und Hardware-Beschleunigern (HWAs). Eine webbasierte Schnittstelle unterstützt Entwickler beim Entwurf paralleler Algorithmen sowie deren Ausführung auf HWCs.

Mahmoud Khaled, Doktorand an der Technischen Universität München (TUM) und Forschungsassistent an der Ludwig Maximilian Universität (LMU) in München erforscht die Verbesserung sicherheitskritischer Systeme, die eine hohe Rechenleistung benötigen. Mahmoud Khaled verwendet für sein Forschungsprojekt pFaces Amazon Web Services (AWS). Er beschleunigt damit parallele Algorithmen und steuert die Rechenkomplexität, um die wissenschaftliche Entwicklung voranzutreiben.

Seine Ergebnisse öffnen neue Wege für die Entwicklung und Bereitstellung verifizierter Steuerungssoftware für sicherheitskritische Systeme, wie z. B. OP-Robotersysteme, Flugsicherheitssysteme, Liefer- und Lagersysteme, Schienennetzwerke und autonome Fahrzeuge. Mahmoud Khaled nutzt Techniken mit mathematischer Basis (formelle Kontrollmechanismen), um anhand von Algorithmen Steuerungssoftware mit konstruktionsbegleitender Korrektur für sicherheitskritische Anwendungen zu erstellen.

Bei der symbolischen Steuerungstechnik wird das System beispielsweise als Finite-State-Modell abstrahiert und der Controller wird automatisch synthetisiert. Die entwickelten Controller garantieren die Ausführung formeller Spezifikationen, wie beispielsweise Sicherheit oder Erreichbarkeit. Techniken, die nicht parallel ausgeführt werden können und somit eine lange Rechenzeit benötigen, machen die Daten in modernen Anwendungen, in denen der Betrieb in Echtzeit erforderlich ist, unbrauchbar. Mahmoud Khaled verwendet AWS, um diese Techniken mit parallelen Algorithmen neu zu definieren.

Die Cloud und beschleunigte wissenschaftliche Entwicklung

Autonome Fahrzeuge sind ein Beispiel dafür, inwiefern Khaleds Methoden für den wissenschaftlichen Fortschritt eingesetzt werden können. Die zugrundeliegende Technologie, pFaces, ist ein allgemeines Ökosystem für die Beschleunigung, mit dessen Hilfe parallele Algorithmen erstellt und bereitgestellt werden können – unabhängig von der Art der Anwendung und der Ziel-Hardware.

Mahmoud Khaled erklärt, dass pFaces Anfragen von Benutzern zur parallelen Ausführung von Aufgaben aufnimmt und automatisch die gesamte Hardware – CPUs, GPUs und Hardware-Beschleuniger – parallel so effizient wie möglich nutzt. Das Tool kann Workloads lokal oder in der AWS Cloud ausführen und besitzt eine Web-IDE zur Entwicklung der parallelen Algorithmen sowie zur Remote-Ausführung auf mehreren Amazon EC2-Instances.

Als Beispiel dient die Steuerung eines LKW-Zugs. Eine Version des parallelen symbolischen Steuerungsansatzes läuft zusätzlich zu pFaces und nimmt Steuerungsanfragen von LKWs entgegen, die Anfragen für eine optimierte Navigation und einfache Steuerungsentscheidungen senden. Anschließend reagiert das System mit Controllern, die auf diese Anfragen ausgerichtet sind, und garantiert die Sicherheit des Zugs.

“Wir begannen mit AWS als Testplattform”, so Mahmoud Khaled. “Die lokale Entwicklung der Technik sowie ihre Bereitstellung in der Cloud haben uns auf weitere Möglichkeiten aufmerksam gemacht. In der Zukunft, wenn sicherheitskritische Systeme eine zuverlässige und sichere Verbindung zur Cloud haben, kann die Steuerungssoftware remote bereitgestellt werden, um die Steuerungsfunktion als Service zu bieten. Die Systeme profitieren womöglich auch von einem “Kollektivbewusstsein” in der Cloud. Hier werden Entscheidungen getroffen, die nicht nur ein System, sondern mehrere Systeme für eine optimierte kooperative Zusammenarbeit unterstützen.”

Mehr Sicherheit bei autonomen Fahrzeugen

Das Ziel von Mahmoud Khaled war es, eine zuverlässige und sichere Methode für autonome Fahrzeuge und weitere sicherheitskritische Systeme zu entwickeln, um die richtigen Entscheidungen in Echtzeit zu treffen. Bei autonomen Fahrzeugen konzentrierte er sich vor allem auf Autopilot-Software – von der Spurplanung bis zur grundlegenden Steuerung. Um Millionen von Szenarien auszuprobieren und mit formalen Methoden der Steuerungstechnik eine Entscheidung über das sicherste Manöver zu treffen, ist eine extrem hohe Rechenleistung erforderlich. Die Parallelisierung formeller Steuerungsmethoden ermöglicht es dem autonomen Fahrzeug, das nötige Manöver in Echtzeit einzuleiten, um einen Zusammenstoß zu vermeiden.

“Sofern wir ein korrektes Modell des Fahrzeugs besitzen, können wir alle möglichen Szenarien identifizieren und das beste auswählen, um einen Zusammenstoß zu vermeiden, ohne dabei auf ein angenehmes Fahrerlebnis zu verzichten. Die Rechenleistung hierfür ist komplex. Deshalb haben wir das System neu entwickelt und diese Techniken parallelisiert. Hierfür haben wir uns an AWS gewendet. Die neuen Techniken wurden in AWS entwickelt und getestet und können in Fahrzeugen bereitgestellt werden, um auf der modernen Hardware, wie z. B. auf mehreren GPUs, zu laufen”, erklärt Khaled.

Die parallelisierten Algorithmen sind kompatibel mit modernen Hochleitsungs-Computing-Plattformen. In einer dieser Simulationen verwendete Mahmoud Khaled die Amazon Elastic Compute Cloud (Amazon EC2), um die Rechenzeit von 52 Sekunden mit einer Doppelkern-CPU auf 40 Millisekunden in einer p3.16xlarge-EC2-Instance zu verkürzen. Dies entspricht einer 1 300-fachen Beschleunigung.

Entwickler oder Forscher, die mit dem Tool experimentieren möchten, können pFaces über GitHub herunterladen.

Hören Sie sich Fix This-Podcasts an, um zu erfahren, wie andere Unternehmen, wie Fred Hutch und Emory University AWS einsetzen, um schneller wissenschaftliche Ergebnisse zu erzielen. Episoden sind verfügbar auf Apple Podcasts, Google Play, Spotify, Stitcher, TuneIn, Overcast, iHeartRadio und über RSS.

Lesen Sie weitere Berichte von internationalen Universitäten über Ihre Nutzung von AWS, um die Forschung voranzutreiben und das Campus-Angebot zu verbessern. Sie können Beiträge der University of Manchester, der University of Nottingham und University of British Columbia ansehen.