Het is zover! OpenAI komt met een text-to-video model. Vorig jaar bracht OpenAI hun text-to-text model uit (ChatGPT), later kwamen ze met text-to-image (DALL-E) en nu komen ze met text-to-video: Sora.
Een text-to-video AI transformeert tekst naar video's door de inhoud te interpreteren, een scenario te ontwikkelen, en visuele en auditieve assets te selecteren of creëren. Deze worden samengevoegd en verfijnd voor het eindresultaat. De complexiteit ligt in het begrijpen van nuances in tekst, zoals context, toon, en impliciete informatie, en deze accuraat om te zetten in visuele representaties. Het vereist geavanceerde AI-technologieën, waaronder natural language processing en computer vision, om diverse elementen zoals emoties, acties, en settings te identificeren en te visualiseren. Dit maakt de ontwikkeling van een nauwkeurige en overtuigende text-to-video AI uitdagend en tijdrovend.
OpenAI is niet de eerste partij die met een text-to-video AI komt. Eerder hebben bedrijven zoals Google DeepMind en Adobe aan soortgelijke technologieën gewerkt, elk met hun eigen unieke benadering. Google DeepMind heeft zich bijvoorbeeld gericht op het verbeteren van machine learning-modellen voor beter begrip en creatie van complexe videocontent. Adobe, bekend om hun krachtige creatieve software, heeft onderzoek gedaan naar AI-gestuurde video-editing tools die tekst naar video kunnen transformeren. Daarnaast zijn er startups zoals Synthesia en Lumen5 die zich richten op het creëren van videocontent uit tekst voor commerciële toepassingen, waarmee ze een breed scala aan gebruiksmogelijkheden voor marketeers en content creators bieden.
Ongeveer 9 maanden geleden verscheen er een video van een Reddit user die met het Stable Diffusion model een video had gegenereerd met deze prompt: “Will Smith eating spaghetti and meatballs”. De volgende video verscheen:
We zijn nu 9 maanden verder en OpenAI komt met Sora. De beelden spreken voor zich:
Zijn we er al? Nee, maar we zijn wel heel erg ver. Je bekijkt nu deze beelden met in je achterhoofd dat ze gegenereerd zijn door AI. Dit betekent dat je gaat letten op hoe realistisch de beelden zijn, terwijl je het waarschijnlijk niet door zou hebben dat ze door AI zouden zijn gemaakt als je dit niet wist. Op dit moment zijn deze modellen ideaal voor ‘stock video’ of ‘B-roll’; dit wordt vaak ingezet om visuele variatie te bieden en verhalen te versterken, deze ‘extra video' komt tussen de fragmenten van een video door.
Hoewel er nog geen officiële releasedatum is, hopen we snel meer te zien van dit model. OpenAI heeft net een blogpost gemaakt waarin Sora wordt aangekondigd; het is nog steeds een onderzoeksproject en het officiële paper is nog niet uit. Daardoor kan het nog enige tijd duren voordat het algemeen beschikbaar wordt. Aan de andere kant gaat de ontwikkeling van deze modellen extreem hard en begint er langzaamaan concurrentie te ontstaan voor OpenAI, waardoor ze erbij gebaat zijn om snel een nieuw model te lanceren. Vooralsnog wachten we in spanning af en houden we de laatste ontwikkelingen nauw in de gaten.

