Morgens, halb 10 in Deutschland an einem Dienstag im Jahr 2025. Der erste Kaffee entfaltet seine Wirkung, der erste Schwung an Mails ist abgearbeitet oder zumindest priorisiert. Ein Kunde aus der Chemie-Branche wünscht sich ein Video, in dem technisch hochkomplexe Zusammenhänge strukturiert und klar verständlich veranschaulicht werden. Die Zeit drängt ein wenig – am Freitag ist Investorenkonferenz, bis dahin muss die News samt Video online sein. Du kennst das.
Du schenkst dir also deinen zweiten Kaffee ein und beginnst mit der Arbeit. Über ChatGPT (und das dazugehörige custom GPT „AutoExpert“) startest du eine kurze Diskussion mit 5 digitalen Experten (quasi ChatGPTs gespaltene Persönlichkeiten) aus den wichtigsten Bereichen.
Die Materialwissenschaftlerin möchte die Rolle der Kobalt-basierten Katalysatoren hervorheben, während der Chemieingenieur die Produktkondensation für am relevantesten hält. Der Experte aus dem Bereich Spektroskopie wirft mit Abkürzungen und Fachbegriffen um sich, der Reaktor-Designer hält die spezielle Reaktorzelle für einen Durchbruch und die Nachhaltigkeitsexpertin lobt die neuentwickelte Synthesetechnik für ihre Energieeffizienz. Dieser Dialog einschließlich der Einigung auf einen gemeinsamen Konsens läuft vollständig automatisiert ab, versteht sich.
Die Ergebnisse der virtuellen Diskussion kondensiert ChatGPT im Anschluss noch in das perfekte Briefing für das Tool im nächsten Schritt: inVideo AI. Also einen neuen Tab geöffnet und bei inVideo eingeloggt. Aus dem vorgefertigten Video-Briefing mit den als wesentlich identifizierten Inhalten erzeugt inVideo ein vollständiges Skript. Unser Video soll zwischen 3 und 5 Minuten lang sein, der Off-Sprecher soll ein mittelalter Brite sein, mit einer leichten Brise trockenen Humors – aber bitte nicht zu viel! Klingt ein wenig nach den Persönlichkeitsreglern von TARS aus dem Film „Interstellar“. Und fühlt sich auch immer noch so an. Etwa zweieinhalb Minuten später ist der erste Video-Entwurf fertig.
Bis auf ein paar Ausnahmen sind die gewählten Videoschnipsel aus den großen Stockdatenbanken sehr passend. Auch dem Sprecher hört man nicht an, dass es sich um eine vollständig künstlich generierte Stimme handelt. Es gibt eine erkennbare Dramaturgie, Bauchbinden und Einblendungen sowie professionelle Szenenübergänge. Die erwähnten Ausnahmen müssen aber natürlich ausgebessert werden. Zum Glück geht das recht einfach.
Auftritt Sora. Denn was es bei Adobe, Shutterstock, iStock und Co nicht gibt, wird kurzerhand generiert. Photorealistisch natürlich. Eine Viertelstunde später hat Sora die fehlenden fünf Videosegmente erzeugt und du setzt sie an den jeweiligen Stellen ins Video ein.
Das sieht doch schon mal ganz gut aus. Was fehlt also noch? Nun ja – die Hintergrundmusik ist zwar okay, aber nicht ganz passend. Also:
„Hey Suno, bitte erzeuge mir orchestrale Hintergrundmusik für ein 4-minütiges Video zu einem wissenschaftlichen Thema. Sie sollte seriös und modern wirken, aber nicht vom eigentlichen Inhalt ablenken.“
Das Ergebnis ist kaum von komponierter Musik zu unterscheiden. Jetzt noch bei inVideo einfügen, vielleicht noch ein, zwei Dinge am Sprechertext optimieren und die KI alles zusammenmixen lassen.
Am Ende lässt du ChatGPT das Video noch einmal komplett checken, ob relevante Punkte fehlen, bevor du dich um die Distribution kümmerst. Ein passendes Headerbild für den News-Artikel lässt du dir in wenigen Sekunden mit DALL-E generieren. Und um in Social Media etwas mehr Aufmerksamkeit zu erzeugen, lässt du eben dieses Headerbild mit Googles Lumiere animieren und bindest es als GIF mit ein.
Das Video ist fertig, die Mail mit dem Link zur Abnahme geht raus an den Kunden. 11:45 Uhr. Zeit für die Mittagspause. Du denkst zurück an die Zeit, als ein solches Projekt den Einsatz von 4 oder 5 Profis unterschiedlicher Gewerke erfordert hätte. Ganz zu schweigen vom Zeit- und Abstimmungsaufwand und den Fremdkosten. Und irgendwie fragst du dich, ob das jetzt alles gut ist oder nicht.
(Beispielvideo von inVideo AI auf Basis der Einleitung dieses Textes)
Und damit kommen wir zum Versuch einer Einordnung. Das hier durchgespielte und natürlich überspitzte Szenario spielt nur einige Monate, vielleicht ein Jahr in der Zukunft. Schon jetzt sind fast alle hier gelisteten Tools und Features bereits nutzbar – mit Ausnahme von Open AIs Sora und Googles Lumiere, die aber schon bald ihren großen Auftritt bekommen sollen. Wie also werden diese Technologien unsere tägliche Arbeit beeinflussen?
Klar ist: Genauso wie im hier skizzierten Szenario werden wir als Beratungsunternehmen mutmaßlich niemals arbeiten. Zu gering ist (noch) die Qualität der ausgespielten Texte, Bilder und Videos. Und wer sich ausgiebig mit dem Thema KI beschäftigt und viel mit diesen Tools arbeitet, erkennt auch schnell in anderen Kontexten, wenn ein Inhalt nicht von Menschenhand gemacht ist.
Diesen Lernprozess werden in den nächsten Jahren alle Internet-Nutzer*innen ebenfalls durchmachen. Ganz unterbewusst. Ob sie wollen oder nicht. Ihre Augen werden irgendwann geschärft sein für künstliche Inhalte. Ganz ähnlich der Zeit zu den Anfängen von Social Media, als Anzeigen-Postings noch nicht als solche kenntlich gemacht wurden, aber nach und nach immer stärker als solche wahrgenommen wurden.
Es kann daher niemals der Anspruch von Berater*innen sein, Ware von der KI-Stange anzubieten. Im Gegenteil: Wir müssen es uns zu Nutze machen, uns positiv durch maßgeschneiderte Inhalte von generierter Massenware abzuheben, egal ob in Texten, Bildern oder Videos. Alle sprechen von den Gefahren durch KI für die Kommunikationsbranche. Kaum jemand spricht von der Chance, dass sich auf Kund*innenseite ein völlig neues Gespür für qualitativ hochwertige Inhalte einstellen wird.
Denn eins muss uns bewusst sein: KI lernt von allen möglichen Inhalten im Netz. Zukünftig wird sie auch immer mehr von KI-generierten Inhalten selbst lernen (was zu einem zusätzlichen „Inzucht“-Problem führt, aber das ist ein Thema für einen eigenen Beitrag). Und wer schon viele generierte Texte gelesen, Bilder bewundert und Songs gehört hat, wird schnell feststellen, dass diese Inhalte doch irgendwann repetitiv werden.
Dass man beginnt, immer mehr Muster zu erkennen. Ähnlicher Textaufbau, weichgezeichnete Gesichter, immer die gleichen Akkorde… Je mehr KI-Inhalte gerade in Social Media veröffentlicht werden, desto mehr Menschen werden für diese Muster auf lange Sicht sensibilisiert. Und desto stärker wird (hoffentlich) die Wertschätzung für die „echten“ Inhalte.
Es bleibt also nicht bloß spannend zu beobachten, wie die Technik sich weiterentwickelt. Mindestens genauso interessant wird es sein, die menschliche Evolution in Hinblick auf die Rezeption künstlicher Inhalte zu verfolgen.
Natürlich steht außer Frage, dass wir selbst die verschiedensten Tools und Technologien zur Prozessoptimierung, Strukturierung, als Inspiration oder Brainstorming-Sparringpartner nutzen. Oder auch einfach nur zum Spaß. Auch, weil wir als Kommunikationsberater*innen zu den ersten gehören müssen, die „echte“ Inhalte von künstlich geschaffenen Inhalten unterscheiden und bewerten können. Ob die notwendigen Algorithmen allerdings bald ein Stadium erreichen, indem man ihnen blind vertrauen kann und die man im professionellen Kontext vorbehaltlos nutzen kann, um mal eben morgens um halb 10 ein hochwertiges Video zu basteln, möchte ich aktuell zumindest noch bezweifeln.