Bioqualität! Nicht nur KI-Generiertes kennzeichnen, sondern auch menschengemachte Texte und Fotos

3 Jan. 2024 — 3 minuten gelesen

Mit generativer Software wie ChatGPT oder Midjourney sind schnell Texte erstellt und angeschärft oder Bilder erzeugt. Wie wirkt das auf Social Media?

Im laufenden Wahlkampf in Taiwan tauchen in Wellen massenhaft Beiträge zu erfundenen Nachrichten auf und fluten Social Media. Beiträge, die Unsicherheit und Angst erzeugen und Zweifel an der einen oder anderen Partei in Taiwan wecken. Generative Software spielt da mit, so der lesenswerte Bericht im Spiegel.

Die RAND Corporation hat eine lesenswerte Übersicht der Auswirkungen zum Thema: „The Rise of Generative AI and the Coming Era of Social Media Manipulation 3.0“. Kerngedanken der Problembeschreibung in der Studie:

Generative KI macht Einflussnahme auf Social Media Bemühungen attraktiver, einfacher und kostengünstiger für böswillige Akteure
Kombiniert man verschiedener Arten von generativer KI, sinken Kosten für die Erstellung gefälschter Medien
Die Qualität genügt, um Nutzer zu täuschen. Was wie sehr im Einsatz ist, weiß niemand genau, das wissen letztlich nur die Akteure selbst

Und was nun? Bei YouTube und TikTok müssen KI-generierte Inhalte gekennzeichnet werden. In China ist es seit 2023 gesetzlich vorgeschrieben, KI-generierte Inhalte zu labeln.

Ich denke, das geht am Kernproblem vorbei. Die eigentlichen use cases sind:

Als Leser will ich klar unterscheiden können: Was ist komplett automatisiert generiert und flutet die Netze? Und was ist von einem menschlichen Gegenüber letztendlich verfasst?
Als Designer als eines Modells will ich bei den Trainingsdaten sauber unterscheiden können: Was ist von Software generiert, was von Menschen?

Diese Unterscheidung sagt nichts über Wahrheit oder Wertigkeit aus, wohl aber über die Qualität als Trainingsdaten und als Informationsquelle. Nur so kann man vergleichen, unterscheiden usw.. Das wird aber nicht möglich sein, wenn man bloß verlangt, dass KI-generierte Inhalte gekennzeichnet werden. Der ganze große Rest kann doch alles Mögliche enthalten. Denn das Interesse böswilliger Akteure, KI-Generiertes nicht zu labeln ist groß und der potenzielle Schaden beim Auffliegen ist gering. Also wird der ganze Rest viel Müll enthalten.

Der logische andere Ansatz: Inhalte, die von Menschen generiert wurden, als solche labeln. Ein Bio-Label. Freiwillig! Einige Gedanken zum Bio-Label:

Interesse zum Mitwirken: Autoren, Fotografen usw. Akteure haben ein Interesse, dass ihre Inhalte sauber gekennzeichnet sind als menschengemacht. Je mehr sie davon profitieren (z.B. Qualität der Interaktion, Sichtbarkeit, Geldfluss für Nachnutzung), desto mehr Aufwendungen setzten sie fürs Labeln ein.
Fertigungsverfahren labeln: Man kann die Analogie zu Bio-Zertifikaten noch etwas überstrapazieren: Warum nicht verschiedene Fertigungsverfahren labeln? Also: Komplett Bio, Bearbeitung per KI (Stil-Check beim Text vs. Komplette Generierung)
Trainingsdaten: Durch Bio-Label entsteht ein eigener Datensatz, der für das Training interessanter ist als die große Restmenge ohne Label.
Datenschutz: Die Auszeichnung als menschengemacht ohne die Verknüpfung mit einer Realwelt-Identität ist möglich: Pseudonym wie in der Wikipedia. Oder je Transaktion wie bei Captchas. Man könnte Captcha-like die Inhalte vor Veröffentlichung auf einer Plattform durch einen Software-Check auf KI-Generiertes laufen lassen.
Nachnutzung und Geldfluss: Wenn die Inhalte mit Bio-Label für die Nachnutzung als Trainingsdaten wertvoller sind als der ganze große Rest, dann lässt sich aufbauend auf dem Bio-Label auch der Geldfluss organisieren. Wer seine Texte / Fotos Bio-labelt, kann dabei gleich die Freigabe zur Nutzung in Trainingsdatensätzen geben und Details zur Abrechnung hinterlassen. So ähnlich wie heute z.B. bei 500px Fotografien ihre Bilder nicht nur veröffentlichen, sondern auch für den Verkauf freigeben können.
Betrug & Risiko: Klar wird es wie bei allen Kennzeichnungen Betrugsversuche geben. Das Problem ist nicht neu (wissenschaftlichen Arbeiten usw.). Man muss die Anreize und Risiken so austarieren, dass die Menge an false positives klein genug bleibt. Zum Beispiel über Sanktionen als Risiko wie: Bei einem Betrugsversuch das Label aller Beiträge verlieren.

Vielen Dank für die Diskussion und das Mitdenken an Isabelle Biallass, @publictorsten@mastodon.social

Nachtrag zur technischen Umsetzung (4.1.2024):

Es entstehen gerade einige technische Ansätze, um etwas in der Art umzusetzen:

Die Content Authenticity Initiative hat zur Prüfung der Herkunft und Authentizität von Fotos eine Datenbank und einen Metadaten-Standard entwickelt. Kameras könnten mit diesem Standard schon beim Aufnehmen verschlüsselte Informationen zum Zeitpunkt, Format und Ort der Aufnahme in den Daten einbetten. Profi-Kameras von Sony, Canon, Nikon und Leica unterstützen die Technik in der Firmware, beziehungsweise rüsten mit Updates in 2024 die Funktion nach.
Derzeit arbeitet die Internationale Organisation für Normung an dem International Standard Content Code (ISCC) (ISO/DIS 24138). Der ISCC soll per Metadaten ein System zur Identifizierung digitaler Medieninhalte (Bild, Text, Video, Audio) ermöglichen. Der Standard könnte 2024 verabschiedet werden.
Es ist schon Software zur Umsetzung des ISCC in Entwicklung, z.B. Liccium Trust Engine. Hier ein Whitepaper.

Vielen Dank für die Hinweise zum Nachtrag an @christophkappes.bsky.social, @johakuhn.bsky.social, @posth.bsky.social und @kutter.bsky.social.

Fun fact: Der Artikel ist komplett menschengeschrieben. Deepl hat den Abschnitt aus der RAND-Studie übersetzt, ich habe die Übersetzung umgeschrieben. Die Rechtschreibkorrektor Languagetool ist drübergelaufen.

Blog

Konrad Lischka

Projektmanagement, Kommunikations- und Politikberatung für gemeinnützige Organisationen und öffentliche Verwaltung. Privat: Bloggen über Software und Gesellschaft. Studien, Vorträge + Ehrenamt.
Immer gut: Newsletter abonnieren

auch interessant

9 Juni 2025

20 Beobachtungen in Kanada

(1) Trinkwasser gibt es allerorts kostenfrei: In jedem Lokal ungefragt auf den Tisch, im Zug vom Servicepersonal, an Wasserspendern in Parks und vor öffentlichen WCs. (2) Toronto und Montreal haben richtig gute Fahrradständer: Einbetonierte Stangen mit kleinen Bügeln. Nehmen wenig Platz weg, man kann sehr flexibel das Rad positionieren und

27 Apr. 2025

Roboterdichte in China, Deutschland, USA im Vergleich

Von 2013 bis 2023 hat China seine Industrieroboterdichte fast verzehnfacht! Die Niederlande, Singapur und Südkorea haben ihn immerhin verdoppelt. Deutschland ist bei 43 % Steigerung. Tja. Wer die Produktivität seiner Wirtschaft steigern will, automatisiert. Ein guter und durch den World Robotics Report gut dokumentierter Automatisierungsgrad ist die Anzahl von Industrierobotern je

31 Dez. 2024

Fun Facts: Weiße Dachziegeln, Koffer-Scooter, Pekinger Schwalben

1. Pekinger Schwalben überwintern in Südafrika. https://www.sinicapodcast.com/p/out-of-africa-the-swifts-of-beijing 2. Seit 2000 machen öffentliche Investitionen in Deutschland im Schnitt 2,3% des BIP p.a. aus. EU-Schnitt 3,3%, Frankreich 4,3%. https://www.ft.com/content/9361356c-5c53-4268-ac2c-3e16d7c6d818 3. Spricht man mit einem Menschen aus Japan über