Sie sind hier: HomeTelekommunikation

Sprachassistenz: Wider die Datenkrake

Fortsetzung des Artikels von Teil 1.

Dezentrales Machine Learning

Beim dezentralen Maschinenlernen werden die Daten-Chargen von einer zufälligen Geräteanzahl erhoben. Um das Versenden von privaten Informationen dabei zu vermeiden, muss die Verarbeitung dieser Rohdaten komplett auf dem jeweiligen Gerät stattfinden, sodass nur noch eine nackte mathematische Funktion das Gerät verlässt. Anhand derer können die Machine-Learning-Modelle dann trainiert werden.

Tatsächlich können diese Benutzergradienten bereits sensible Informationen enthalten, selbst wenn die Rohdaten das Gerät nicht verlassen. Beispielsweise können bei Natural-Language-Understanding-Anwendungen Merkmale des Modells dem Vorhandensein eines bestimmten Wortes in einer Abfrage entsprechen. Wenn der fragliche Begriff in der Gleichung ungleich Null ist, bedeutet dies, dass der Nutzer das angegebene Wort verwendet hat. Ein Unternehmen, das diese Daten dann nutzt, könnte allein davon auf bestimmte Verhaltensweisen der Nutzer schließen.

In Fällen, in denen die Gradienten sensibel sind, kann eine private Datenaggregation verwendet werden, um die Privatsphäre zu schützen. Der Prozess der privaten Durchführung eines Gradientenabstiegs besteht aus folgenden Schritten:

  • Batch-Sampling: Eine Teilmenge der User wird ausgewählt, um den Gradienten zu berechnen.
  • Parameterübertragung: Der aktuelle Parametervektor wird an die beteiligten Benutzer gesendet.
  • Gradientenberechnung: Die kommentierten Daten werden verwendet, um den Beitrag des Benutzers lokal zu berechnen. Diese Berechnung wird auf dem Gerät durchgeführt.
  • Secret Padding: Mit dem gleichen Protokoll wie bei der Analyse wird der lokale Gradient durch Hinzufügen eines geheimen Pad-Schlüssels verschlüsselt und an den App-Entwickler gesendet.
  • Secret Sharing: Die geheimen Pads der Anwender werden von den Sachbearbeitern sicher aggregiert.
  • Rekonstruktion: Der Entwickler führt die Rekonstruktionsoperationen durch, um den Gradienten zu erhalten, wiederum nach dem gleichen Protokoll wie für die Analytik.
  • Parameter-Aktualisierung: Der Parametervektor wird entsprechend der durch den Gradienten vorgegebenen Richtung aktualisiert.

Non-iid-Datenpunkte
Es gibt jedoch weitere Themen, die bei der dezentralen Ausbildung eines Modells bewältigt werden müssen. Die von jedem Gerät gesammelten Daten sind repräsentativ für eine bestimmte Aufnahmeeinstellung (Raumgröße, verwendetes Mikrofon usw.) und einen bestimmten Benutzer oder eine bestimmte Gruppe von Nutzern (beispielsweise eine Familie im Smart Home). Diese Daten korrelieren stark. Theoretisch muss jeder abgetastete Datenpunkt unabhängig von den gleichbleibenden Umweltbedingungen abgetastet werden, was als „iid sein“ bezeichnet wird (independent and identically distributed). Die gemeinsame Verwendung aller korrelierten Datenpunkte, die auf dem Gerät eines bestimmten Users verfügbar sind, bricht die iid-Hypothese.

Begrenzte Ressourcen und Bandbreite
Endgeräte verfügen über geringere Rechen- und Bandbreitenressourcen als die Server, auf denen die maschinellen Lernmodelle üblicherweise trainiert werden. Die Anzahl der benötigten Lerndurchläufe kann verringert werden, indem die Anzahl der lokalen Optimierungsschritte auf jedem Gerät erhöht wird, bevor die lokalen Gradienten aggregiert werden. Je mehr lokale Updates durchgeführt werden, desto schneller werden die lokalen Daten erlernt. Das verursacht Kosten für eine mögliche Überanpassung der lokalen Daten und einen schlechten Beitrag zur globalen Modellaktualisierung.

Eine weitere wichtige Herausforderung wird oft übersehen: Die meisten dezentralen Lernlösungen, wie OpenMined, DML oder BigAI, setzen voraus, dass die Anwender Daten auf ihren Geräten getaggt haben. Tags sind erforderlich für das Training der Modelle und ihr Vorhandensein macht den Unterschied zwischen Problemen, die wie oben beschrieben dezentral angegangen werden können, und solchen, die nicht angegangen werden können.

Entwicklungsschub für KI
Erst dezentrales Machine Learning ermöglicht es, dass die Modelle anhand einer Bandbreite an realitätsnaher Vielfalt an Daten trainiert werden können, da die Datensätze real sind. Somit ebnet diese Technologie den Weg für einen enormen Entwicklungsschub künstlicher Intelligenz. Randomisiert und gegen Zugriffe über die Blockchain abgesichert können Datenschutzbedenken beiseite gelegt werden.

Joseph Dureau ist CTO bei Snips