MPC-basierte Sichere Aggregation in Federated Learning: Überblick, Protokolle, & Google’s Gboard

erschienen in #Allgemein, IT-Sicherheit, Privacy-Preserving Computation vom 26.09.2024

Durch die fortschreitende Digitalisierung wird es immer attraktiver von so vielen Daten wie möglich zu lernen, um, z.B., Anwendungen stetig zu verbessern. Wie die Vorhersage des nächsten Wortes, mögliche Reiserouten, die Bereitstellung von UI-Elementen in Services wie „Digitales Amt“, oder der Verbesserung der Personen- Betreuung in Spitälern.

Um ein globales ML-Modell basierend auf Daten von vielen End-Nutzer-Geräten zu trainieren, und auch die Privatsphäre der Nutzer zu bewahren, hat Google 2016/17 föderiertes Lernen („Federated Learning“ / FL) ins Leben gerufen. Bei FL trainiert jeder Nutzer lokal das entsprechende ML-Modell, und sendet „lediglich“ die aktualisierten ML-Parameter an einen Server. Jedoch wurde festgestellt, dass auch die ML-Parameter an sich Rückschlüsse auf die jeweiligen Eingabe-Daten ziehen lassen können. Deshalb wurde die Sichere Aggregation („Secure Aggregation“ / SecAgg) in FL entwickelt. Bei SecAgg erhält der Server nur die Summe der aktualisierten ML-Parameter von allen Nutzern. Für die konkrete Instanziierung von SecAgg, hat sich der kryptografische Baustein der sicheren Mehrparteien-Berechnung („Secure Multi-Party Computation“ / MPC) als praktikabel erwiesen. Um MPC-basiertes SecAgg in FL weiter in die Praxis zu bringen – und somit weitere privatsphären- schützende ML-Anwendungen zu ermöglichen – sind generelle Ansätze und dedizierte Protokolle zu analysieren, miteinander zu vergleichen, und ggf. zu verbessern.

Deshalb werden in diesem Bericht zuerst generelle (2) Methoden für Privatsphären-bewahrendes Federated Learning gezeigt, und anschließend (3) MPC-basierte Sichere-Aggregations Protokolle in Federated Learning gezeigt, und basierend auf ihrer Berechnungs- und Kommunikations-Komplexität, und deren Sicherheitsgarantien, miteinander verglichen. Weiters wird ein praktisches (3.2) Beispiel: Google’s Gboard gezeigt, welches unter anderem auch ein MPC-basiertes Protokoll integriert.

FL mit entsprechenden Erweiterungen, ermöglicht es die Privatsphäre der Trainings-Daten von Teilnehmern zu bewahren. Für die Trainings-Phase haben sich, z.B., die kryptografischen Bausteine der homomorphen Verschlüsselung („Homomorphic Encryption“ / HE) und MPC bewährt. Wobei MPC-basiertes SecAgg zwar Vertrauen in den Server bzw. einer Teilmenge von anderen Teilnehmern bedingt, bietet diese Methode grundsätzlich mehr Flexibilität in der praktischen Umsetzung (vor allem bei Szenarien mit vielen Teilnehmer:innen, welche mit einem eher leistungsschwachen Gerät an der Berechnung teilnehmen). Und auch in MPC-basiertem SecAgg, gibt es zahlreiche Protokolle, welche unterschiedliche Trade-Offs bieten. Z.B. ob (nur) die Teilnehmer das resultierende globale ML-Modell erhalten (z.B. SAFELearn, SCOTCH), oder primär nur der Aggregations-Server (z.B. SecAgg, SecAgg+, FastSecAgg, LightSecAgg). Für die Inferenz-Phase – in der das ML-Modell mittels „neuem Input“ ausgewertet wird – hat sich die Methode der Differentiellen Privatsphäre („Differential Privacy“ / DP) bewährt. Wobei, wie bei nahezu allen Methoden, jede Methode unterschiedliche Trade-Offs zur Folge hat. Weiters hat (privatsphären-bewahrendes) FL auch den Vorteil, dass es spezielle, z.B., örtlich-angepasste ML-Modelle entwickeln kann; wie von Google’s Gboard gezeigt.

Für den weiteren Einsatz bzw. Verbreitung von privatsphären-bewahrendem FL müssen die unterschiedlichen Trade-Offs für die jeweiligen Anwendungsszenarien näher untersucht werden. Z.B. wie hoch der Grad der Privatsphäre, abhängig von der Anzahl an Teilnehmern, ist. Zudem ist es auch notwendig die unterschiedlichen Herausforderungen von FL zu lösen; wie, z.B., die der Daten-Heterogenität auf End-Nutzer-Geräten.

Downloads

Datei Beschreibung Dateigröße
pdf ASIT-TGV_MPC-based-SAFE_server 7 MB