Sora (model teks-ke-video)
SejarahBeberapa model teks-ke-video lainnya telah dibuat sebelum Sora, diantaranya Make-A-Video dari Meta, Gen-2 dari Runway, dan Lumiere dari Google, yang sampai pada bulan Februari 2024, juga masih dalam tahap penelitian.[4][5] OpenAI, sebelum mengumumkan Sora, telah merilis DALL·E 3, sebuah model teks-ke-gambar pada bulan September 2023.[6] Tim yang mengembangkan Sora menamakannya setelah kata dalam bahasa Jepang untuk langit sebagai penanda untuk "potensi kreatif yang tak terbatas".[1] Pada tanggal 15 Februari 2024, OpenAI pertama kali memperlihatkan Sora dengan merilis beberapa klip video definisi tinggi yang dibuatnya, diantaranya termasuk SUV yang melaju di jalan pegunungan, animasi "monster berbulu pendek" di samping lilin, dua orang berjalan melewati Tokyo di tengah salju, dan rekaman rekaan demam emas California, dan menyatakan bahwa Sora mampu menghasilkan video berdurasi hingga satu menit.[5][4] Laporan teknis kemudian disebarkan, yang menyoroti metode yang digunakan untuk melatih model tersebut.[2][7] CEO OpenAI Sam Altman juga memposting serangkaian tweet, menanggapi permintaan pengguna Twitter dengan video yang dihasilkan oleh Sora. OpenAI telah menyatakan bahwa mereka berencana untuk membuat Sora tersedia untuk umum tetapi tidak disebutkan kapan akan tersedia.[5][3] Perusahaan memberikan akses terbatas kepada sebuah "tim merah" kecil, termasuk para ahli di bidang misinformasi dan bias, untuk melakukan pengujian terhadap model tersebut.[6] Perusahaan juga berbagi Sora dengan sekelompok kecil profesional kreatif, termasuk pembuat video dan seniman, untuk mencari masukan mengenai kegunaannya di bidang kreatif.[8] Kemampuan dan keterbatasanTeknologi di balik Sora merupakan pengembangan dari teknologi di balik DALL-E 3. Menurut OpenAI, Sora adalah transformator difusi[9] – model difusi laten denoising dengan satu transformer sebagai denoiser. Sebuah video dihasilkan dalam ruang laten dengan "tambalan" 3D, kemudian diubah menjadi ruang standar oleh dekompresor video. Pembuatan teks ulang digunakan untuk menambah data pelatihan, dengan menggunakan model video-ke-teks untuk membuat deskripsi mendetail pada video.[7] OpenAI melatih model tersebut menggunakan video yang tersedia secara publik serta kumpulan video berhak cipta yang dilisensikan untuk tujuan tersebut, namun tidak mengungkapkan jumlah dan sumber pasti dari video tersebut.[1] Setelah dirilis, OpenAI mengakui beberapa kekurangan Sora, termasuk kesulitannya dalam mensimulasikan fisika kompleks, memahami kausalitas, dan membedakan antara kiri dari kanan.[10] Salah satu contoh menunjukkan sekelompok anak serigala yang tampak secara ganda, sehingga menciptakan skenario yang sulit diikuti.[11] OpenAI juga menyatakan bahwa, sesuai dengan praktik keselamatan perusahaan yang ada, Sora akan membatasi teks yang berisi gambar seksual, kekerasan, kebencian, atau konten selebriti, serta konten yang menampilkan kekayaan intelektual yang sudah ada.[6] Tim Brooks, seorang peneliti Sora, menyatakan bahwa model tersebut menemukan cara membuat grafika komputer 3D hanya dari kumpulan datanya, sementara Bill Peebles, juga seorang peneliti Sora, mengatakan bahwa model tersebut secara otomatis membuat sudut video yang berbeda tanpa diminta sebelumnya.[5] Menurut OpenAI, video yang dihasilkan oleh Sora ditandai dengan metadata C2PA untuk menunjukkan bahwa video tersebut dihasilkan oleh kecerdasan buatan.[1] ReaksiWill Douglas Heaven dari MIT Technology Review menyebut video demonstrasi tersebut "mengesankan", namun menyatakan bahwa video tersebut pasti dipilih secara khusus dan mungkin tidak mewakili keluaran khas Sora pada umumnya.[8] Akademisi Amerika Oren Etzioni menyatakan kekhawatirannya atas kemampuan teknologi tersebut dalam menciptakan disinformasi daring untuk kampanye politik.[1] Untuk Wired, Steven Levy juga menulis bahwa film tersebut berpotensi menjadi "badai informasi yang salah" dan berpendapat bahwa klip pratinjaunya "mengesankan" tetapi "tidak sempurna" dan "menunjukkan pemahaman yang muncul tentang tata bahasa sinematik" karena perubahan tangkapan kamera tanpa diminta. Levy menambahkan, "akan memakan waktu yang sangat lama, jika akan terjadi, sebelum teks-ke-video mengancam pembuatan film yang sebenarnya."[5] Lisa Lacy dari CNET menyebut bahwa contoh videonya "sangat realistis – kecuali mungkin saat wajah manusia terlihat dari dekat atau saat makhluk laut sedang berenang".[6] Lihat pulaReferensi
Pranala luar[[Kategori:Teknologi film dan video]] [[Kategori:Penerapan kecerdasan buatan]] |