Zum Inhalt springen

Bioqualität! Nicht nur KI-Generiertes kennzeichnen, sondern auch menschengemachte Texte und Fotos

Konrad Lischka
Konrad Lischka
3 minuten gelesen
Bioqualität! Nicht nur KI-Generiertes kennzeichnen, sondern auch menschengemachte Texte und Fotos

Mit generativer Software wie ChatGPT oder Midjourney sind schnell Texte erstellt und angeschärft oder Bilder erzeugt. Wie wirkt das auf Social Media?

Im laufenden Wahlkampf in Taiwan tauchen in Wellen massenhaft Beiträge zu erfundenen Nachrichten auf und fluten Social Media. Beiträge, die Unsicherheit und Angst erzeugen und Zweifel an der einen oder anderen Partei in Taiwan wecken. Generative Software spielt da mit, so der lesenswerte Bericht im Spiegel

Die RAND Corporation hat eine lesenswerte Übersicht der Auswirkungen zum Thema: „The Rise of Generative AI and the Coming Era of Social Media Manipulation 3.0“. Kerngedanken der Problembeschreibung in der Studie:

  • Generative KI macht Einflussnahme auf Social Media Bemühungen attraktiver, einfacher und kostengünstiger für böswillige Akteure
  • Kombiniert man verschiedener Arten von generativer KI, sinken Kosten für die Erstellung gefälschter Medien
  • Die Qualität genügt, um Nutzer zu täuschen. Was wie sehr im Einsatz ist, weiß niemand genau, das wissen letztlich nur die Akteure selbst

Und was nun? Bei YouTube und TikTok müssen KI-generierte Inhalte gekennzeichnet werden. In China ist es seit 2023 gesetzlich vorgeschrieben, KI-generierte Inhalte zu labeln. 

Ich denke, das geht am Kernproblem vorbei. Die eigentlichen use cases sind:

  • Als Leser will ich klar unterscheiden können: Was ist komplett automatisiert generiert und flutet die Netze? Und was ist von einem menschlichen Gegenüber letztendlich verfasst? 
  • Als Designer als eines Modells will ich bei den Trainingsdaten sauber unterscheiden können: Was ist von Software generiert, was von Menschen? 

Diese Unterscheidung sagt nichts über Wahrheit oder Wertigkeit aus, wohl aber über die Qualität als Trainingsdaten und als Informationsquelle. Nur so kann man vergleichen, unterscheiden usw.. Das wird aber nicht möglich sein, wenn man bloß verlangt, dass KI-generierte Inhalte gekennzeichnet werden. Der ganze große Rest kann doch alles Mögliche enthalten. Denn das Interesse böswilliger Akteure, KI-Generiertes nicht zu labeln ist groß und der potenzielle Schaden beim Auffliegen ist gering. Also wird der ganze Rest viel Müll enthalten. 

Der logische andere Ansatz: Inhalte, die von Menschen generiert wurden, als solche labeln. Ein Bio-Label. Freiwillig!  Einige Gedanken zum Bio-Label:

  • Interesse zum Mitwirken: Autoren, Fotografen usw. Akteure haben ein Interesse, dass ihre Inhalte sauber gekennzeichnet sind als menschengemacht. Je mehr sie davon profitieren (z.B. Qualität der Interaktion, Sichtbarkeit, Geldfluss für Nachnutzung), desto mehr Aufwendungen setzten sie fürs Labeln ein.
  • Fertigungsverfahren labeln: Man kann die Analogie zu Bio-Zertifikaten noch etwas überstrapazieren: Warum nicht verschiedene Fertigungsverfahren labeln? Also: Komplett Bio, Bearbeitung per KI (Stil-Check beim Text vs. Komplette Generierung)
  • Trainingsdaten: Durch Bio-Label entsteht ein eigener Datensatz, der für das Training interessanter ist als die große Restmenge ohne Label. 
  • Datenschutz: Die Auszeichnung als menschengemacht ohne die Verknüpfung mit einer Realwelt-Identität ist möglich: Pseudonym wie in der Wikipedia. Oder je Transaktion wie bei Captchas. Man könnte Captcha-like die Inhalte vor Veröffentlichung auf einer Plattform durch einen Software-Check auf KI-Generiertes laufen lassen.
  • Nachnutzung und Geldfluss: Wenn die Inhalte mit Bio-Label für die Nachnutzung als Trainingsdaten wertvoller sind als der ganze große Rest, dann lässt sich aufbauend auf dem Bio-Label auch der Geldfluss organisieren. Wer seine Texte / Fotos Bio-labelt, kann dabei gleich die Freigabe zur Nutzung in Trainingsdatensätzen geben und Details zur Abrechnung hinterlassen. So ähnlich wie heute z.B. bei 500px Fotografien ihre Bilder nicht nur veröffentlichen, sondern auch für den Verkauf freigeben können.
  • Betrug & Risiko: Klar wird es wie bei allen Kennzeichnungen Betrugsversuche geben. Das Problem ist nicht neu (wissenschaftlichen Arbeiten usw.). Man muss die Anreize und Risiken so austarieren, dass die Menge an false positives klein genug bleibt. Zum Beispiel über Sanktionen als Risiko wie: Bei einem Betrugsversuch das Label aller Beiträge verlieren. 

Vielen Dank für die Diskussion und das Mitdenken an Isabelle Biallass, @publictorsten@mastodon.social


Nachtrag zur technischen Umsetzung (4.1.2024):

Es entstehen gerade einige technische Ansätze, um etwas in der Art umzusetzen:

  • Die Content Authenticity Initiative hat zur Prüfung der Herkunft und Authentizität von Fotos eine Datenbank und einen Metadaten-Standard entwickelt. Kameras könnten mit diesem Standard schon beim Aufnehmen verschlüsselte Informationen zum Zeitpunkt, Format und Ort der Aufnahme in den Daten einbetten. Profi-Kameras von Sony, Canon, Nikon und Leica unterstützen die Technik in der Firmware, beziehungsweise rüsten mit Updates in 2024 die Funktion nach.
  • Derzeit arbeitet die Internationale Organisation für Normung an dem International Standard Content Code (ISCC) (ISO/DIS 24138). Der ISCC soll per Metadaten ein System zur Identifizierung digitaler Medieninhalte (Bild, Text, Video, Audio) ermöglichen. Der Standard könnte 2024 verabschiedet werden.
  • Es ist schon Software zur Umsetzung des ISCC in Entwicklung, z.B. Liccium Trust Engine. Hier ein Whitepaper.

Vielen Dank für die Hinweise zum Nachtrag an @christophkappes.bsky.social, @johakuhn.bsky.social, @posth.bsky.social und @kutter.bsky.social.


Fun fact: Der Artikel ist komplett menschengeschrieben. Deepl hat den Abschnitt aus der RAND-Studie übersetzt, ich habe die Übersetzung umgeschrieben. Die Rechtschreibkorrektor Languagetool ist drübergelaufen.

Blog

Konrad Lischka

Projektmanagement, Kommunikations- und Politikberatung für gemeinnützige Organisationen und öffentliche Verwaltung. Privat: Bloggen über Software und Gesellschaft. Studien, Vorträge + Ehrenamt.
Immer gut: Newsletter abonnieren


auch interessant

Fun Facts: Weiße Dachziegeln, Koffer-Scooter, Pekinger Schwalben

1. Pekinger Schwalben überwintern in Südafrika. https://www.sinicapodcast.com/p/out-of-africa-the-swifts-of-beijing 2. Seit 2000 machen öffentliche Investitionen in Deutschland im Schnitt 2,3% des BIP p.a. aus. EU-Schnitt 3,3%, Frankreich 4,3%. https://www.ft.com/content/9361356c-5c53-4268-ac2c-3e16d7c6d818 3. Spricht man mit einem Menschen aus Japan über

Fun Facts: Weiße Dachziegeln, Koffer-Scooter, Pekinger Schwalben

Hier stehen die meisten öffentlichen Ladesäulen je Einwohner in NRW

Die Top 5: Düsseldorf, Borken, Paderborn, Aachen, Hochsauerlandkreis. Datenquellen: * Fläche & Bevölkerung: Destatis, 31.12.2022; * Ladeinfrastruktur: Bundesnetzagentur, 1.7.2024 * Tabelle (Google) mit Berechnungen auf Einwohner / qkm * Tabelle (Google) mit Index-Berechnung

Hier stehen die meisten öffentlichen Ladesäulen je Einwohner in NRW

Kreisschlüssel und NUTS-3-Codes für alle deutschen Landkreise und kreisfreien Städte

Der Gleichwertigkeitsbericht der Bundesregierung 2024 ist ein echter Datenschatz: Indikatoren für alle 400 Kreise und Städte in Deutschland und dazu noch repräsentative Umfrageergebnisse ebenfalls kreisscharf aufgeschlüsselt. Leider ist die grafische Aufarbeitung auf Grafiken in einem PDF beschränkt. Da sind die Kommunen deutschlandweit so klein aufgelöst, dass man wenig vergleichen und

Kreisschlüssel und NUTS-3-Codes für alle deutschen Landkreise und kreisfreien Städte