Datenschutz im Zeitalter von generativer KI

Kannst du deine Daten vor Trainingsalgorithmen schützen? Wie?

Wir vertrauen Tech-Unternehmen unsere Daten an. Wir gehen davon aus, dass die großen Tech-Unternehmen auf unsere Daten achten und uns mitteilen, wenn unsere Daten öffentlich werden oder von jemandem Fremden genutzt werden. Es wurden schon öfter Daten woanders veröffentlicht, Dinge geleakt, etc. und damit der Datendiebstahl auch sichtbar für alle. Aber wie ist das in Zeiten von generativer KI, ihrem Durst nach Informationen und die Eigenart neue Informationen in ihr Wissen einzuweben?

Bevor ChatGPT aufs Parkett kam, hat sich kaum jemand gefragt, ob Microsoft die Daten, die man auf der Cloud hat, für seinen eigenen Nutzen einsetzt oder Dropbox die Daten für Trainings verkauft, aber jetzt scheint die Frage öfter aufzukommen.

Die Gründe sind unterschiedlich - in meinen Augen geht es vor allem darum, dass wir vor einer Technologie stehen, die wir nicht 100 % verstehen und die sich auch gerne verselbständigt. Und die Tatsache, dass der Wert unserer Daten durch KI exponentiell an Wert gewonnen hat.

Wie sieht es nun wirklich mit unseren Daten aus?

  • Musst du dir Sorgen darüber machen, wie ChatGPT deine Daten verarbeitet?

  • Gibt es rechtlichen Schutz für dich?

Nach derzeitigem Stand versuchen große Datenmodelle (OpenAI, Google, Microsoft, Meta, etc.) alles, was sie können, in ihre Modelle einzuweben und als Trainingsdatensatz zu nutzen. Je mehr Daten, desto mehr können die Modelle lernen, verbessert werden und neue Einsatzmöglichkeiten erlernen. Ob diese Urheberrechtsverletzung nun illegal ist oder nicht - ist eine ungeklärte Frage, aber das wird diese Unternehmen nicht daran hindern, das weiter zu tun, bis es eine rechtliche Grundlage dazu gibt.

Was das bedeutet: alle deine öffentlich zugänglichen Daten, welche du im Internet irgendwo publiziert hast, werden mit hoher Wahrscheinlichkeit für Trainings genutzt. Du kannst zwar das Crawlen unterbinden versuchen - aber sollte in irgendeinem Archiv deine Informationen, Blogartikel, etc. enthalten sein, wird dir das auch nicht helfen.

Wenn deine Daten irgendwo öffentlich zugänglich sind, sollen sie ja auch grundätzlich als Information dienen.

Was kannst du tun, damit das Sprachmodell nicht aus deinen Daten lernt?

Eine Lösung ist die Business-Lösungen der Anbieter anstatt den Consumer-Produkten zu nutzen. Wenn du z. B. die API von OpenAI nutzt statt den ChatGPT Plus Account, versichert dir OpenAI, dass deine Daten nicht für Trainings genutzt werden. Für Teams bietet ChatGPT eine eigene Lösung, welche aufgrund der Businesslastigkeit auch als „no training“ Bereich zu verstehen ist.

Eine andere Lösung ist es, auf Modelle zu greifen, welche man sich selbst auf den Computer installieren kann, z.B: Mixtral von Mistral. Damit kannst du versichern, dass nur deine Daten verwendet werden und sie nicht anderweitige genutzt werden.

👉 Sollte dir das alles nicht reichen oder du ein Unternehmen haben, welches auf Nummer sicher gehen muss, so geht es nicht an einem private LLMs und private Rechenzentren. Große Unternehmen mit sensiblen Daten entscheiden sich für solche Lösungen.

Hat man die Möglichkeit bei ChatGPT Plus das Training zu stoppen?

Ja, man hat die Möglichkeit anzugeben, dass die eigenen Daten nicht für Trainings genutzt werden sollen. Das kannst du entweder über ein Formular, welches dir hier zugeschickt wird oder du kannst, das im ChatGPT Fenster gleich machen, indem du „History & Training“ abschaltest. Ganz wichtig: das betrifft nur deine zukünftigen Chats und es kann angeblich bis zu einigen Tagen, bevor du eine Bestätigung bekommst. Ich habe sie innerhalb von 24 Stunden erhalten.

Wie sieht es mit anderen Sprachmodellen aus?

Andere Modelle wie Gemini bieten genau das Gleiche für die Businessnutzer an - es ist so etwas wie ein Business-Standard geworden. Überprüfen muss man es jedoch trotzdem. Vor allem als Konsumentin, EPU oder kleines Unternehmen, solltest du dich aktiv mit den Bestimmungen der diversen Anbieter auseinandersetzen.

Und funktioniert das wirklich?

Grundsätzlich können, bzw. müssen wir den Unternehmen Glauben schenken und ihnen vertrauen, dass unsere Daten in Sicherheit sind, wenn wir die richtigen Produkte dazu nutzen. Trotzdem ist es so, dass es nicht nachvollziehbar ist, woher die Daten stammen, aus denen die LLMs am Ende das Wissen generiert haben. Man kann es nicht beweisen. Nicht nur, weil es viele Quellen gibt, wo es das gleiche Wissen geben kann, sondern weil die Natur von LLMs es ist zu lernen und nicht Daten zu sammeln. Daher lernt es an dem neuen Wissen, pflegt es ein, setzt es in Relation zu dem vorhandenen Wissen und speichert allerdings dieses Wissen nicht als auffindbare Datei. Und wer sagt, dass das genutzte Wissen, um eine Antwort zu beantworten, nicht dann doch von einer anderen Ressource beantwortet wurde?

Um es bildlich zu sagen: Stelle dir vor, du backst einen Kuchen mit 10 Zutaten und müsstest, wenn er fertig ist, die einzelnen Zutaten extrahieren - no way!

Selbst Initiativen wie die europäische DSGVO haben Probleme mit diesem Thema.

Wir müssen den Unternehmen vertrauen. Und auch wenn unser Vertrauen missbraucht werden sollte von einer dieser Unternehmen, werden wir es kaum beweisen können.

Und wie damit umgehen?

Grundsätzlich sollte dich das Thema nur dann beschäftigen, wenn es notwendig ist. Du hast personenbezogene Daten? Dann achte auf diese und anonymisiere die Daten, bevor du sie mit ChatGPT plus analysierst oder verarbeitest. Du möchtest mit deinen eigenen Daten arbeiten, hast Forschungsergebnisse? Dann nutze LLMs, die gut sind, aber auf deinem Rechner auch Platz haben, wie z. B. Mistral (von Mistral)

👉

Nutze die Sprachmodelle so, dass sie für dich Sinn ergeben. Vertraue dort, wo es in Ordnung ist und misstraue dort, wo es um dein Business-Asset geht. Und ja: Daten sind dein Business Asset.