Apakah OpenAI Sora Baru Saja Memulai Era Video Generatif?

Sesaat yang lalu, saya menulis bahwa kita mungkin masih jauh dari mampu membuat sebuah film dari alur bahasa alami.

Sekarang, tampaknya itu mungkin terjadi jauh lebih cepat dari yang saya duga. OpenAI – pencipta ChatGPT, chatbot yang memulai tren keceriaan AI generatif saat ini – baru saja mengumumkan model teks-ke-video mereka sendiri, Sora.

Mengatakan bahwa hasilnya telah mengejutkan komunitas AI adalah sebuah pernyataan yang rendah. Meskipun kita belum bisa menggunakannya sendiri, video-video menunjukkan urutan dekat dengan fotorealisme dari seorang wanita berjalan di sebuah kota dan sebuah kota zaman Emas di Amerika, yang dihasilkan dari tugas teks sederhana.

Menurut orang-orang yang saya bicarakan, ini membuat mereka maju dua atau tiga tahun dari asumsi mereka ketika ada masalah mengenai video generatif. Ini hanya satu tanda lagi bahwa revolusi AI akan terjadi pada kecepatan yang jauh lebih cepat dari yang banyak orang antisipasi.

Tapi video generatif – meskipun secara teknis menakjubkan – menciptakan tantangan etis dan sosial yang melebihi tantangan yang ditimbulkan oleh penciptaan otomatis dari teks, gambar, dan suara.

Jadi, mari kita lihat apa itu, apa yang dilakukannya, dan mungkin yang paling penting, apa artinya untuk dunia di mana akan semakin sulit untuk membedakan antara yang nyata dan yang dihasilkan secara digital.

Jadi Apa itu Sora?

Pada dasarnya, Sora adalah video seperti halnya ChatGPT untuk menulis, dan Dall-E 3 untuk generasi gambar. Anda mengetik apa yang ingin Anda lihat, dan itu muncul, bergerak sepenuhnya, di depan mata Anda.

Tidak ada suara dari video-video yang ditunjukkan pada saat ini, tetapi seiring dengan kemajuan di bidang AI suara dan pembuatan musik, kita hanya bisa berasumsi bahwa ini akan datang segera.

Pembuat video AI generatif bukanlah hal baru. Saya telah menguraikan beberapa dari mereka yang muncul dalam setahun terakhir dalam artikel yang saya tautkan di awal artikel ini. Namun, kebanyakan dari mereka, meski menghasilkan teks, overlay, dan efek, tidak menghasilkan animasi video aktual. Namun, ada beberapa pengecualian, seperti Runway.

Pada tahap awal ini, meskipun terkesan, itu tidak akan memberi kita Toy Story berikutnya dari tugas teks. Tetapi potensinya hampir tak terbatas. Pembuat film dapat menggunakannya untuk memvisualisasikan konsep dan adegan atau menghasilkan efek khusus. Guru-guru dapat membuat rekreasi sejarah yang mendalam, dan produsen dapat menggunakannya untuk membuat prototipe dan demonstrasi.

Saat ini, Sora dapat menghasilkan video hingga satu menit. Dan lebih dari menghasilkan gambar sederhana (jika kita harus berpikir itu sederhana sekarang), menciptakan serangkaian gambar berturut-turut untuk memberikan kesan gerak; itu mampu melacak penempatan benda sehingga mereka bergerak secara realistis dan koheren dengan benda lain, bergerak di depan atau di belakang mereka, misalnya.

Ini bahkan dapat melakukan operasi rumit seperti “mengingat” benda-benda ketika mereka bergerak di luar kamera sehingga mereka akan direplikasi dengan tepat saat kembali terlihat.

Tentu saja, itu tidak sempurna, dan OpenAI mengakui bahwa itu akan menghasilkan ketidaksesuaian, seperti benda-benda yang tidak mengikuti hukum fisika atau kausalitas.

Tetapi dari apa yang telah kita lihat, ini adalah teknologi yang menakjubkan yang memberikan sekilas yang menggoda tentang apa yang akan segera kita lakukan!

Bagaimana Sora Bekerja?

Seperti Dall-E dan pembuat gambar lainnya, Sora pada dasarnya adalah model difusi, artinya itu menciptakan gambar dari “noise” acak dan secara bertahap menjadikannya lebih bersifat non-random dengan mentransformasikannya menjadi gambar yang sesuai dengan tugasnya.

Lebih dari ribuan atau puluhan ribu langkah, gambar-gambar yang membentuk video menjadi lebih didefinisikan.

Yang benar-benar membuatnya istimewa adalah kemampuannya untuk memahami bagaimana benda – orang atau apapun – di dalam latar belakang secara realistis berinteraksi dengan semuanya. Ini bisa berarti air menjadikan benda-benda basah ketika mereka bergerak melaluinya atau sebuah bola jatuh dan bergerak melintasi lantai dengan cara realistis saat jatuh.

Sebagaimana ChatGPT memahami kata-kata dari konteksnya, mempelajari cara mereka cocok satu sama lain dengan kata-kata lain untuk menyampaikan arti, Sora memahami bagaimana benda berperilaku di dalam pengaturan dunia nyata. OpenAI tidak memberikan rincian tentang data apa yang mereka latih, tapi kemungkinan itu akan menjadi banyak, banyak jam rekaman video dunia nyata dari mana ia bisa mempelajari cara item, orang, hewan, dan lanskap bergerak dan berinteraksi.

Selain menghasilkan rekaman baru, itu dapat melanjutkan video yang sudah ada dan menciptakan kembali rekaman yang sudah ada dari sudut pandang baru.

Apakah Dunia Siap Untuk Video Generatif Permintaan?

Sora menawarkan berbagai kemungkinan yang menakjubkan. Tetapi memberdayakan siapa pun untuk membuat video realistis tentang apa pun yang mereka inginkan jelas tidak akan tanpa bahaya.

Penipuan dan serangan phishing bisa menjadi lebih canggih, misalnya, dengan menggunakan video deepfake untuk membuat kegiatan penipuan tampak lebih sah atau masuk akal. Kita sudah melihat ini dengan voiceover AI yang ditimpa pada rekaman selebriti untuk menciptakan kesan bahwa mereka memberikan memberi endorsemennya.

Hal ini pasti juga akan menjadi lebih mudah untuk membuat video tanpa restu dengan kemiripan meyakinkan dengan orang nyata, yang bisa digunakan untuk menyebabkan kerusakan atau untuk blackmail.

Saya yakin kita juga akan melihat penggunaan yang mencoba untuk meruntuhkan proses demokratis dan menyebarkan berita palsu dan disinformasi, dengan tujuan untuk meruntuhkan kepercayaan pada politikus, pemerintah, atau lembaga.

OpenAI memberitahu kita bahwa mereka telah memasukkan perlindungan ke dalam algoritma mereka guna mencegah banyak penggunaan ini dan juga sedang mengembangkan alat mereka sendiri untuk membantu mengidentifikasi konten yang berbahaya. Tapi seperti yang kita lihat dengan ChatGPT, sangat mungkin bahwa solusi untuk ini akan ditemukan, atau produk tiruan akan muncul tanpa perlindungan.

Menangani masalah ini akan membutuhkan upaya bersama yang melibatkan pendidikan, legislasi, dan penerapan kerangka kerja yang kuat seputar penggunaan AI yang bertanggung jawab dan etis. Sayangnya, seperti yang terjadi dengan setiap teknologi transformasional dari mekanisasi hingga otomobil dan komputasi, tampaknya tidak terhindarkan bahwa beberapa kerusakan akan terjadi.

Tetapi jin sekarang sudah benar-benar keluar dari botol, artinya terserah pengguna dan advokat AI yang bertanggung jawab untuk memastikan masyarakat mengelola risiko ini secara efektif sambil juga memungkinkan potensi transformatifnya terwujud.