AI’ll Be Back: Generative AI in Image, Audio and Video Production
Abstract
Thu 11:10 - 11:55 Uhr | 2025
Dieser Vortrag führt Sie mit einem Fokus auf Text to Image und Text to Video zur Erstellung von Bildern und kurzen Videos in die Welt der generativen KI ein. Wir erklären dabei, wie neuronale Netze mittels Diffusionsmodellen und so genannten Transformer-Architekturen multimodal aus kurzen Texteingaben verschiedene Ausgabeformate erzeugen können.
Wir konzentrieren uns dabei auf fortschrittliche Technologien wie Sora oder Midjourney. Die dabei eingesetzten Techniken wie Latent Diffusion Modelle erlauben es uns, Bilder und Videos zu generieren und zu bearbeiten, indem sie Textverständnis durch Attention-Mechanismen und Transformer durch Entrauschungsprozesse verbinden.
Wir betrachten den Video-Generierungsprozess mit Sora, von der Datenkomprimierung über die Zerlegung in Patches bis zur finalen Rekonstruktion. Ergänzend diskutieren wir Alternativen wie Runway, um verschiedene Tools der Bild- und Videogeneration vorzustellen.
Am Ende des Vortrags haben Sie ein grundlegendes Verständnis für Diffusionsmodelle, einen Überblick über relevante Werkzeuge und vertiefte Einblicke in die Funktionsweise eines ausgewählten Tools. Praktische Beispiele und Demos runden den Vortrag ab.
Informatiker Martin Förtsch ist ein IT-Berater, Oracle JavaOne Rockstar und Intel Black Belt der TNG Technology Consulting GmbH. Seine Arbeitsschwerpunkte sind Agile Development u.a. in Java, Suchmaschinentechnologien, Information Retrieval und Datenbanken. Er ist darüber hinaus an der Entwicklung von innovativen Showcases im Innovation Hacking Team tätig, insbesondere im Bereich der 3D-Kameratechnologien, IoT, künstliche Intelligenz, Augmented Reality uvm.
Thomas Endres arbeitet in der Rolle eines Managing Partners als IT-Consultant für TNG Technology Consulting in München. Mit dem TNG-Innovation-Hacking-Team entwickelt er veschiedene Prototypen – darunter verschiedene KI-Prototypen und AR/VR-Showcases. Als Intel Software Innovator und Black Belt präsentiert er weltweit neue Technologien wie KI, AR/VR und Robotik. Dafür erhielt er unter anderem einen JavaOne Rockstar-Award und mehrere Best Speaker Awards.