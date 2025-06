HQ

Das Unternehmen für künstliche Intelligenz Midjourney hat kürzlich seinen nächsten großen Schritt nach vorne vorgestellt. Nach Jahren des Angebots und der Fokussierung auf Standbilder möchte Midjourney nun in die Welt der Videogenerierung expandieren, insbesondere in die Echtzeitgenerierung.

Dies ist jetzt als Teil von Version 1 des Video Model verfügbar, das als "etwas, das Spaß macht, einfach, schön und erschwinglich ist, damit jeder es erkunden kann" beschrieben wird. Im Moment ist das System dazu gedacht, Bilder in Videos umzuwandeln, indem es eine animierte Bewegungsaufforderungsmechanik verwendet. Im Wesentlichen bringt es Leben und Bewegung in ein Standbild, das je nach dem Grad der Bewegung, der vom betreffenden Quellbild erwartet werden sollte, angepasst werden kann.

Im Vergleich zu konkurrierender KI-Videosoftware mag es so aussehen, als ob Midjourney etwas hinterherhinkt, aber es wird darauf hingewiesen, dass dies nur ein Sprungbrett in Richtung eines viel größeren Ziels ist. Die langfristige Absicht ist es, Open-World-Simulationen in Echtzeit anbieten zu können, und um dorthin zu gelangen, muss man auch in der Lage sein, sich durch 3D-Modelle von generierten Videos zu bewegen und dann auch alles sehr schnell zu generieren. Diese letzten Punkte sind die nächsten Schritte, um das Ziel von Midjourney Wirklichkeit werden zu lassen. In den eigenen Worten von Midjourney:

"Was Sie vielleicht nicht wissen, ist, dass wir glauben, dass das unvermeidliche Ziel dieser Technologie Modelle sind, die in der Lage sind, Echtzeit-Simulationen in einer offenen Welt durchzuführen.

"Was ist das? Im Grunde; Stellen Sie sich ein KI-System vor, das Bilder in Echtzeit generiert. Du kannst ihm befehlen, sich im 3D-Raum zu bewegen, die Umgebungen und Charaktere bewegen sich ebenfalls, und du kannst mit allem interagieren.

"Um das zu erreichen, brauchen wir Bausteine. Wir brauchen Visuals (unsere ersten Bildmodelle). Wir müssen diese Bilder in Bewegung bringen (Videomodelle). Wir müssen in der Lage sein, uns selbst durch den Raum zu bewegen (3D-Modelle), und wir müssen in der Lage sein, dies alles schnell zu tun (Echtzeitmodelle).

"Im nächsten Jahr geht es darum, diese Teile einzeln zu bauen, sie freizugeben und dann langsam alles in einem einzigen einheitlichen System zusammenzusetzen. Es mag anfangs teuer sein, aber schneller als man denkt, wird es etwas sein, das jeder nutzen kann."

Der Haken an dieser Videosoftware ist, dass sie viel teurer in der Nutzung ist. Midjourney berechnet das 8-fache dessen, was es für einen Bildauftrag berechnet, was es als immer noch "über 25-mal billiger als das, was der Markt bisher ausgeliefert hat" beschreibt.

