Authentizität & Korrektheitsgarantien in Federated Learning: Überblick & Methoden
Mithilfe von maschinellem Lernen (ML) – bzw. oft als KI/AI bezeichnet – und einer Vielzahl an Daten von verschiedensten Nutzern, können nahezu alle Anwendungen/Services verbessert werden; z.B. Analyse von Vitalaktivitäten via SmartWatches bzw. „Wearables“ generell, Aufzeichnung vom Fahrverhalten oder verbesserte Krebsanalysen via MRI-Bilder. Einerseits werden solche Szenarien immer attraktiver, weil die entsprechenden ML-Technologien mittlerweile praktisch relevant sind, und andererseits ist dabei die Wahrung der Privatsphäre eine der größten Herausforderungen. Weiters können Anwender eines ML-Modells die Frage stellen, ob und inwiefern einem ML-Modell vertraut werden kann?
Um ein globales ML-Modell basierend auf Daten von vielen End-Nutzer-Geräten zu trainieren, und auch die Privatsphäre der Nutzer zu bewahren, hat Google 2016/17 Federated Learning (FL) ins Leben gerufen. Bei einem FL-Framework, welches praktische Relevanz aufweist, muss man – zusätzlich zur Wahrung der Privatsphäre – auf Vertrauen bzw. Trust im ganzen Zyklus einer FL-Epoche achten. Um ein zuverlässigeres bzw. vertrauenswürdiges aktualisiertes ML-Modell zu erzielen, müssen daher Authentizitäts- und Korrektheitsgarantien für Trainings-Daten und ML-Parameter/-Gewichte im FL-Prozess hinzugefügt werden. Im Zuge des FL-Prozessflusses gibt es sechs wichtige Vertrauenspunkte bzw. Trust-Punkte (TPs) in vertrauenswürdigem FL („Trusted FL“). Um nun beides zu erreichen – Schutz der Privatsphäre und Vertrauenswürdigkeit – muss FL abermals upgegradet werden.
Deshalb werden in diesem Bericht Methoden für Trusted Federated Learning für die einzelnen Trust-Punkte gezeigt, und anschließend der Aspekt des gesamten FL-Prozessflusses diskutiert. Abschließend werden im Rahmen einer Conclusio & Weiterführende Arbeiten, die gewonnenen Erkenntnisse kurz zusammengefasst und potentiell-interessante weiterführende Richtungen aufgezeigt.
Zu jedem Trust-Punkt gibt es bereits vielversprechende individuelle Lösungsmethoden und teilweise konkrete Instanziierungen. Die aktuell gängigsten Methoden und konkreten Instanziierungen basieren auf dem privatsphären-bewahrenden kryptografischen Baustein Null-Wissen-Beweis („Zero-Knowledge Proof“ / ZKP). Die verschiedenen individuellen Lösungs-Konzepte bieten unterschiedliche Trade-Offs; z.B. adressieren nicht alle Konzepte den Aspekt der Privatsphäre beim Aggregieren der retournierten ML-Parameter.
Ein Gesamtkonzept von Trusted Federated Learning im Rahmen des gesamten Prozessflusses, unter Wahrung der Privatsphäre, stellt die nächste wissenschaftliche und konstruktions-technische Herausforderung dar. Z.B. die effiziente Kombination von digitalen Signaturen und ZKPs. Und vor allem weil die meisten relevanten Werke von „zkFL“ – Trusted FL via ZKPs – erst zwischen 2022 und 2024 publiziert worden sind, bleibt es spannend zu sehen wie sich dieses neue Feld weiterentwickelt, und wichtig für, z.B., etwaige praktische Anwender am Puls der Zeit bzw. Stand der Technik zu bleiben.