Google membidik Sora OpenAI dengan Veo, model AI yang dapat membuat klip video 1080p berdurasi sekitar satu menit dengan perintah teks.
Diluncurkan pada hari Selasa di konferensi pengembang Google I/O 2024, Veo dapat menangkap gaya visual dan sinematik yang berbeda, termasuk bidikan lanskap dan timelapse, serta melakukan pengeditan dan penyesuaian pada rekaman yang sudah dibuat.
IKLAN
GULIR UNTUK MELANJUTKAN KONTEN
“Kami sedang mengeksplorasi fitur-fitur seperti storyboard dan menghasilkan adegan yang lebih panjang untuk melihat apa yang dapat dilakukan Veo,” Demis Hassabis, kepala laboratorium R&D AI Google DeepMind, mengatakan kepada wartawan selama diskusi virtual. “Kami telah membuat kemajuan luar biasa dalam video.”
Veo dibangun berdasarkan karya komersial awal Google dalam pembuatan video, yang dipratinjau pada bulan April, yang memanfaatkan rangkaian model pembuatan gambar Imagen 2 milik perusahaan untuk membuat klip video berulang.
Namun tidak seperti alat berbasis Imagen 2, yang hanya dapat membuat video beresolusi rendah dan berdurasi beberapa detik, Veo tampaknya mampu bersaing dengan model generasi video terkemuka saat ini — tidak hanya Sora, tetapi juga model dari startup seperti Pika, Runway, dan Kurang sopan. laboratorium.
Dalam sebuah pengarahan, Douglas Eck, yang memimpin upaya penelitian di DeepMind di bidang media generatif, menunjukkan kepada saya beberapa contoh pilihan tentang apa yang dapat dilakukan Veo. Salah satunya – pemandangan pantai yang sibuk dari udara – menunjukkan kekuatan Veo dibandingkan model video pesaing, katanya.
“Detail seluruh perenang di pantai terbukti sulit untuk pemodelan gambar dan video – karena banyak sekali karakter yang bergerak,” ujarnya. “Kalau diperhatikan lebih dekat, ombaknya terlihat cukup bagus. Dan arti kata 'hidup', menurut saya, dapat dimengerti oleh semua orang — pantai yang ramai dan dipenuhi oleh orang-orang yang berjemur.”
Veo dilatih pada banyak rekaman. Biasanya seperti itulah cara kerjanya dengan model AI generatif: Fed memberikan contoh demi contoh beberapa bentuk data, model tersebut mengambil pola dalam data yang memungkinkan mereka menghasilkan data baru — video, dalam kasus Veo.
Dari mana asal rekaman latihan Veo? Eck tidak menjelaskan secara pasti, namun ia mengakui bahwa beberapa video mungkin berasal dari YouTube milik Google.
“Model Google mungkin dilatih tentang beberapa konten YouTube, namun selalu sesuai dengan perjanjian kami dengan pembuat YouTube,” katanya.
Bagian “kesepakatan” mungkin secara teknis Jadilah benar. Namun benar juga bahwa, mengingat dampak jaringan YouTube, pembuat konten tidak punya pilihan selain mengikuti aturan Google jika mereka ingin menjangkau pemirsa seluas mungkin.
Pelaporan oleh The New York Times pada bulan April mengungkapkan bahwa Google memperluas persyaratan layanannya tahun lalu untuk memungkinkan perusahaan memanfaatkan lebih banyak data untuk melatih model AI-nya. Berdasarkan ToS lama, tidak jelas apakah Google dapat menggunakan data YouTube untuk membuat produk di luar platform video. Hal ini tidak terjadi pada ketentuan baru, yang sangat melonggarkan kontrol.
Google bukan satu-satunya raksasa teknologi yang memanfaatkan data pengguna dalam jumlah besar untuk melatih model internal. (Lihat: Meta.) Tapi yang pasti mengecewakan beberapa pembuat konten adalah desakan Eck bahwa Google menetapkan “standar emas”, di sini, berdasarkan etika.
“Solusi dari tantangan (data pelatihan) ini akan ditemukan dengan mempertemukan seluruh pemangku kepentingan untuk mengetahui langkah selanjutnya,” ujarnya. “Sampai kita mengambil langkah-langkah tersebut bersama-sama dengan para pemangku kepentingan – kita berbicara tentang industri film, industri musik, para artis itu sendiri – kita tidak akan bergerak cepat.”
Namun Google telah menyediakan Veo untuk pembuat konten tertentu, termasuk Donald Glover (AKA Childish Gambino) dan agensi kreatifnya Gilga. (Seperti OpenAI dengan Sora, Google memposisikan Veo sebagai alat untuk materi iklan.)
Eck mencatat bahwa Google menyediakan alat yang memungkinkan webmaster mencegah bot perusahaan mengambil data pelatihan dari situs web mereka. Namun, pengaturan ini tidak berlaku untuk YouTube. Dan Google, tidak seperti beberapa pesaingnya, tidak menawarkan mekanisme yang memungkinkan pembuat konten menghapus karya mereka dari kumpulan data pelatihan setelah dilakukan scraping.
Saya juga bertanya kepada Eck tentang regurgitasi, yang dalam konteks AI generatif mengacu pada saat model menghasilkan salinan cermin dari contoh pelatihan. Alat seperti Midjourney diketahui mengeluarkan cuplikan yang sama persis dari film termasuk “Dune”, “Avengers”, dan “Star Wars” yang memberikan stempel waktu – yang berpotensi menjadi ladang ranjau hukum bagi pengguna. OpenAI dilaporkan telah bertindak lebih jauh dengan memblokir merek dagang dan nama pencipta dalam upaya Sora untuk mencoba menangkis tantangan hak cipta.
Jadi langkah apa yang diambil Google untuk mengurangi risiko regurgitasi dengan Veo? Eck tidak punya jawaban, selain mengatakan bahwa tim peneliti menerapkan filter untuk konten kekerasan dan eksplisit (jadi tidak ada pornografi) dan menggunakan teknologi SynthID DeepMind untuk menandai video dari Veo sebagai buatan AI.
“Kami akan berkomitmen – untuk hal sebesar model Veo – untuk secara bertahap meluncurkannya kepada sekelompok kecil pemangku kepentingan yang dapat bekerja sama dengan kami untuk memahami implikasi dari model tersebut, dan baru kemudian menerapkannya. kepada kelompok yang lebih besar,” katanya.
Eck memang memiliki lebih banyak hal untuk dibagikan tentang detail teknis model tersebut.
Eck mendeskripsikan Veo sebagai “cukup dapat dikontrol” dalam arti bahwa model tersebut memahami pergerakan kamera dan VFX dengan cukup baik dari perintahnya (pikirkan deskriptor seperti “pan”, “zoom”, dan “ledakan”). Dan, seperti Sora, Veo memiliki pemahaman tentang fisika – hal-hal seperti dinamika fluida dan gravitasi – yang berkontribusi pada realisme video yang ia hasilkan.
Veo juga mendukung pengeditan bertopeng untuk perubahan pada area tertentu pada video dan dapat menghasilkan video dari gambar diam, ala model generatif seperti Video Stabil Stability AI. Mungkin yang paling menarik, mengingat serangkaian perintah yang menceritakan sebuah cerita, Veo dapat menghasilkan video yang lebih panjang — video yang berdurasi lebih dari satu menit.
Itu tidak berarti Veo sempurna. Mencerminkan keterbatasan AI generatif saat ini, objek dalam video Veo menghilang dan muncul kembali tanpa banyak penjelasan atau konsistensi. Dan Veo sering melakukan kesalahan fisika – misalnya, mobil akan mundur secara misterius dan mustahil dalam sekejap.
Itu sebabnya Veo akan tetap berada dalam daftar tunggu di Google Labs, portal perusahaan untuk teknologi eksperimental, di masa mendatang, dalam frontend baru untuk pembuatan dan pengeditan video AI generatif yang disebut VideoFX. Seiring dengan kemajuannya, Google bertujuan untuk menghadirkan beberapa kemampuan pemodelan ke YouTube Shorts dan produk lainnya.
“Ini masih dalam proses, masih eksperimental… masih banyak yang harus dilakukan dibandingkan yang dilakukan di sini,” kata Eck. “Tetapi menurut saya ini adalah bahan mentah untuk melakukan sesuatu yang hebat di bidang pembuatan film.”
NewsRoom.id