Themengebiete SS25
Einleitung:
Deep Reinforcement Learning ermöglicht das kontinuierliche, automatische Lernen eines Reglers für beliebige Aufgaben, etwa ein Labyrinth-Geschicklichkeitsspiel. Ein solches Echtzeitsystem wurde von einer Gruppe an der ETH Zürich aufgebaut. Ein solches System soll am ISAS nachgebaut und gegebenenfalls verbessert werden.
Aufgaben:
- Nachbau des Cyberrunners (open software + hardware)
- Automatischer Transport der Murmel auf die Anfangsstellung
- Test der verfügbaren Algorithmen (reinforcement learning, model-predictive control)
- Je nach verbleibender Zeit und vorhandener Ideen: weiterführende Experimente
Voraussetzungen:
- Erfahrung mit Programmieren
- bevorzugt: Erfahrung mit ROS
Literatur:
- https://www.cyberrunner.ai/
- Thomas Bi, Raffaello D’Andrea, Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning
Einleitung:
Die 3D-Rekonstruktion aus 2D-Kamerabildern ist eine zentrale Herausforderung im Bereich der Computer Vision. In den letzten Jahren haben innovative Ansätze wie Neural Radiance Fields (NeRF) und 3D-Gaussian Splatting erhebliche Fortschritte ermöglicht. Diese Methoden erlauben die Erzeugung fotorealistischer 3D-Modelle aus einer Sammlung von 2D-Bildern, wobei insbesondere 3D-Gaussian Splatting Echtzeit-Rendering ermöglicht. Für viele Anwendungen reicht jedoch die reine Visualisierung nicht aus – es werden zusätzliche Funktionen wie Vermessung und geometrische Modellierung benötigt. Da dies mit 3D-Gaussian Splatting nicht direkt möglich ist, existieren verschiedene Ansätze zur Umwandlung in Punktwolken oder Mesh-Modelle. Ziel dieses Projektpraktikums ist es, diese Verfahren hinsichtlich ihrer Eignung für die 3D-Rekonstruktion eines Raumes zu untersuchen und miteinander zu vergleichen. Dabei soll insbesondere die Qualität der Rekonstruktionen abhängig von deren Input, der Rechenaufwand und die Möglichkeiten zur Handhabung bzw. Bearbeitung der generierten Modelle analysiert werden.
Aufgaben:
- Strukturierte Recherche der bestehenden Verfahren zur Rekonstruktion basierend auf 3D-Gaussian Splatting
- Implementieren von verfügbarem Code
- Erzeugung eines Test-Datensatzes
- Test und Vergleich der ausgewählten Verfahren
Voraussetzungen:
- Grundkenntnisse in Python und C++
- Grundkenntnisse im maschinellen Lernen
- Unabhängiges Lernen und Teamarbeit
Literatur:
[1] Kerbl et al.: 3D Gaussian Splatting for Real-Time Radiance Field Rendering (https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/)
Einleitung:
Die sogenannte „Sliced Wasserstein-Distanz“ gewann in letzter Zeit immer mehr als Loss-Funktion im maschinellen Lernen an Bedeutung. Sie beruht auf dem Konzept der Radon-Transform, wonach eine hochdimensionale Funktion durch eine unendliche Anzahl eindimensionaler Projektionen dargestellt werden kann. Hierdurch lassen sich verschiedene Distanzfunktionen, die im Eindimensionalen einfach zu berechnen sind auf mehrdimensionale Probleme anwenden. Ein Beispiel hierfür ist die Wasserstein-Distanz, ein anderes die Cramer-von-Mises Distanz. In diesem Praktikum sollen verschiedene dieser Distanzen implementiert und anhand geeigneter Beispiele, wie der Konvergenzgeschwindigkeit, der Genauigkeit des Ergebnisses und dem Berechnungsaufwand verglichen werden.
Aufgaben:
- Literaturrecherche zu Sliced/Projected distances
- Festlegen geeigneter Benchmarkprobleme
- Vergleich verschiedener Distanzen z.B. als Loss-Funktion
Voraussetzungen:
- Programmierkenntnisse in Python
- bevorzugt: Erfahrung mit Optimierung, Machine Learning
Literatur:
[1] S. Kolouri et al.: Generalized Sliced Distances for Probability Distributions (Link)
[2] U. Hanebeck: Deterministic Sampling of Multivariate Densities based on Projected Cumulative Distributions (Link)
Projekt 4 - Reinforcement Learning und Stochastic Optimal Control für eine intelligente Ansteuerung eines Multi-Aktoren-Array Sortierers
- Ansprechperson:
Einleitung:
Am ISAS werden Verfahren des Reinforcement Learning und des Stochastic Optimal Control für den Einsatz in einem neuartigen, kürzlich zum Patent angemeldeten Schüttgutsortierer (Video) untersucht. Die Schüttgutsortierung ist eine Schlüsseltechnologie zur Trennung von Partikelströmen, welche u. a. im Recycling (Kunststoffe, Gläser, Bauschuttabfälle, etc.) und zur Etablierung einer nachhaltigen Kreislaufwirtschaft eine tragende Rolle spielt. Im Unterschied zu bisherigen Sortierern, welche Schüttgutpartikel an einer Reihe Druckluftdüsen separieren, besteht der neue Sortierer aus mehreren Reihen mechanischer Aktoren. Hierdurch ergeben sich mehrere Möglichkeiten zur Trennung der Partikel, wovon eine optimale identifiziert werden soll. Ziel der Forschung ist es, durch intelligente Ansteuerung ähnlich hohe Massenströme wie in herkömmlichen Sortierern zu sortieren, die Betriebskosten jedoch durch Verzicht auf Druckluft um Faktor vier bis fünf zu reduzieren.
In diesem Praktikum sollen zwei Verfahren zur Lösung des entstehenden sequentiellen Entscheidungsproblems weiterentwickelt werden. Es handelt sich hierbei um das Least-Squares-Temporal Difference Learning sowie um eine eigens entworfene problemspezifische Baumsuche. Für beide Verfahren existieren bereits Implementierungen für eine vereinfachte Problemstellung. Diese sollen nun mathematisch und algorithmisch aufgewertet und auf ein Simulationsmodell des Sortierers sowie auf das Realsystem übertragen werden.
Aufgaben:
- Einarbeitung in die bisherigen Verfahren des Reinforcement Learning und des Stochastic Optimal Control, insbesondere in das Linear Least-Squares Temporal Difference Learning
- Anpassung der Algorithmen für den Einsatz im Sortierer und Implementierung der Ansätze
- Evaluation am Simulationsmodell
- Übertrag auf den Prototypen und praktische Erprobung an diesem (optional)
Voraussetzungen:
- Grundkenntnisse in Python
- Grundkenntnisse in Reinforcement Learning oder Model Predictive Control
Einleitung:
Modellprädiktive Regelung (MPC) ist eine fortschrittliche Methode der Regelungstechnik, die auf der Modellierung des zu regelnden Systems basiert. Ziel ist es, durch die Vorhersage zukünftiger Systemzustände optimale Stellgrößen zu berechnen. Diese Technik findet Anwendung in verschiedenen Bereichen wie der Automobilindustrie und der Robotik. Das Projekt bietet eine spannende Gelegenheit, tief in die Theorie und Praxis der MPC einzutauchen und praktische Erfahrungen mit verschiedenen Implementierungsbibliotheken zu sammeln.
Aufgaben:
- Einarbeitung in die Funktionsweise verschiedener Ansätze der modellprädiktiven Regelung
- Implementierung mit verschiedenen Bibliotheken wie PyTorch, Google JAX, CasADI
- Evaluation bezüglich z. B. Güte, Geschwindigkeit, Einfachheit der Implementierung, Limitierungen
Voraussetzungen:
- Grundkenntnisse in Python
- Bevorzugt: Erfahrung mit Differentialgleichungen, numerische Methoden / Optimierung
- Regelungstechnische Vorkenntnisse von Vorteil
Literatur:
[1] Diehl, M., Bock, H., Diedam, H., Wieber, PB. (2006). Fast Direct Multiple Shooting Algorithms for Optimal Robot Control. In: Diehl, M., Mombaur, K. (eds) Fast Motions in Biomechanics and Robotics. Lecture Notes in Control and Information Sciences, vol 340. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-36119-0_4
[2] G. Williams, P. Drews, B. Goldfain, J. M. Rehg and E. A. Theodorou, "Information-Theoretic Model Predictive Control: Theory and Applications to Autonomous Driving," in IEEE Transactions on Robotics, vol. 34, no. 6, pp. 1603-1622, Dec. 2018, https://doi.org/10.1109/TRO.2018.2865891
Einleitung:
Technische Systeme verändern aus verschiedenen Gründen über die Zeit ihre Eigenschaften. Um auch bei veränderlichen Systemen durchgängig eine hohe Regelungsqualität zu erreichen, werden adaptive Regelungsstrategien eingesetzt. Einen Spezialfall stellt die adaptive modellprädiktive Regelung dar, die ein Systemmodell beinhaltet, das sich mit der Zeit anpassen kann. In diesem Praktikum wird dafür ein Bayes’sches Neuronales Netz mit Online-Learning Kapazität verwendet. Die Überprüfung des Entwickelten geschieht simulativ am Beispielsystem des invertierten Pendels.
Aufgaben:
- Einarbeitung in Model Predictive Control & Bayesian Neural Networks
- Implementierung der modellprädiktiven Regelung & Online-Learning von Systemmodellen
- Erweiterung von Simulationen um zeitvariante Modellparameter
- Validierung anhand von Simulationen, z.B. eines invertierten Pendels
Voraussetzungen:
- Kenntnisse in Optimierungsproblemen und Regelungstechnik
- Kenntnisse in Python, v.A. PyTorch
Literatur:
[1] Chikasha, P. N., & Dube, C. (2017). Adaptive model predictive control of a quadrotor. IFAC-PapersOnLine, 50(2), 157-162.
Einleitung:
In diesem Praktikum erforschen wir neuartige Designs für den Gaussian-Assumed-Density-Filter (GADF) mit dem Ziel einer hochqualitativen Zustandsschätzung in diskreten stochastischen nichtlinearen dynamischen Systemen, wobei der Schwerpunkt auf dem Measurement-Update liegt. Wir nutzen fortschrittliche Methoden des maschinellen Lernens, um deterministische Stichproben aus der wahren Verbunddichte von Messung und Zustand auszunutzen. Anschließend wird ein Gaussian-Prozess abgeleitet, der die zugrunde liegende Verbunddichte von Messung und Zustand präzise approximiert.
Aufgaben:
- Literaturrecherche
- Entwicklung innovativer Methoden und deren Anwendung in der Zustandsschätzung
- Evaluation der vorgeschlagenen Methoden
- Vergleich mit state-of-the-art Methoden
Voraussetzungen:
- Grundkenntnisse in Python und/oder Julia
- Grundkenntnisse in Methoden des maschinellen Lernens, Zustandsschätzung
Literatur:
[1] Steinbring, Jannik, and Uwe D. Hanebeck. "LRKF Revisited-The Smart Sampling Kalman Filter (S²KF)." Journal of Advances in Information Fusion 9.2 (2014): 106.
[2] Zhou, Jiachen, Daniel Frisch, and Uwe D. Hanebeck. "Inverse Gaussian Process Interpolation for High-Quality Assumed Gaussian Filtering." 2024 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems (MFI). IEEE, 2024.
Projekt 8 - Online-Schätzung von Materialparametern mittels neuronaler Netze und Unsicherheitsquantifizierung
- Ansprechperson:
Markus Walker (ISAS)
Johannes Mitsch (FAST)
Tobias Würth (FAST)
Einleitung:
Die präzise Schätzung von Materialparametern ist entscheidend für die Genauigkeit von Fertigungsprozesssimulationen. Traditionelle Methoden zur Parameterbestimmung, wie Charakterisierungsversuche und Kleinste-Quadrate-Schätzungen, liefern oft nur eine erste Schätzung der Materialparameter, die aufgrund von Modell- und Messabweichungen unsicher ist.
In dieser Arbeit liegt der Fokus auf der Verbesserung der initialen Schätzung durch Online Learning. Hierbei sollen klassische neuronale Netze eingesetzt werden, um die Materialparameter in Echtzeit zu aktualisieren. Um die in realen Prozessen inhärenten Unsicherheiten zu quantifizieren, sollen darauf aufbauend weitere Schätzmethoden wie das Extended Kalman Filter (EKF) eingesetzt werden. Diese innovativen Ansätze ermöglichen eine rekursive Parameterschätzung und sollen die simulierten Ergebnisse besser mit den experimentellen Daten in Einklang bringen. Insgesamt kann dies unzureichend modelliertes Materialverhalten aufdecken und wertvolles Feedback für die Modellverfeinerung liefern.
Aufgaben:
- Recherche zum Stand der Technik und Forschung der Online-Parameterschätzung
- Entwicklung und Implementierung von Methoden zur Parameterschätzung für numerische Simulationsmethoden (Betreuung durch ein Institut aus dem Maschinenbau und ein Institut aus der Informatik)
- Benchmark der entwickelten Methode gegen konventionelle Charakterisierungsmethoden
- Schriftliche Ausarbeitung und Dokumentation der Ergebnisse
Voraussetzungen:
- Programmiererfahrung in Python
- Interesse an Simulation, Numerik & Schätzverfahren
- Vorkenntnisse in der Schätztheorie sind hilfreich
Literatur:
[1] Ebrahimian H, Astroza R, Conte J P: Extended Kalman filter for material parameter estimation in nonlinear structural finite element models using direct differentiation method. Earthquake Eng Struct Dyn 44, 2015, https://doi.org/10.1002/eqe.2532