Penjelasan Lengkap mengenai Sora Open AI: Cara Kerjanya, Kasus Penggunaan, dan Opsi Lainnya
Penjelasan Lengkap mengenai Sora Open AI: Cara Kerjanya, Kasus Penggunaan, dan Opsi Lainnya |
Barongtrans - Penasaran dengan Open AI's Sora? Bagaimana Cara Kerjanya, Kasus Penggunaan, Alternatif, dan Lainnya
Jelajahi OpenAI's Sora: sebuah kecerdasan buatan (AI) teks-ke-video yang akan merevolusi AI multi-modal pada tahun 2024. Mari kita lihat kemampuannya, inovasinya, dan dampak potensialnya.
Baru-baru ini, OpenAI mengumumkan teknologi terbaru mereka—Sora. Model AI generatif teks-ke-video ini tampak sangat mengesankan, membawa potensi besar di berbagai industri. Di sini, kami akan menjelajahi apa itu Sora dari OpenAI, bagaimana cara kerjanya, beberapa contoh penggunaan potensial, dan apa yang akan terjadi di masa depan.
Apa itu Sora?
Sora adalah model AI generatif teks-ke-video dari OpenAI. Ini berarti Anda menulis sebuah teks, dan ia menciptakan sebuah video sesuai dengan deskripsi teks tersebut. Berikut adalah contoh dari situs OpenAI:
PROMPT: Seorang wanita bergaya berjalan di jalan Tokyo yang dipenuhi dengan lampu neon hangat bercahaya dan tanda kota yang animasi. Dia mengenakan jaket kulit hitam, gaun merah panjang, dan sepatu bot hitam, serta membawa tas hitam. Dia mengenakan kacamata hitam dan lipstik merah. Dia berjalan dengan percaya diri dan santai. Jalanan basah dan reflektif, menciptakan efek cermin dari lampu-lampu berwarna. Banyak pejalan kaki berjalan-jalan.
Contoh-contoh Sora dari OpenAI
OpenAI dan CEO Sam Altman telah sibuk membagikan contoh-contoh Sora dalam aksinya. Kita telah melihat berbagai gaya dan contoh, termasuk:
Contoh Animasi Sora
PROMPT: Dunia papercraft yang indah dari terumbu karang, penuh dengan ikan warna-warni dan makhluk laut.
PROMPT: Adegan animasi menampilkan gambar dekat dari monster berbulu pendek yang berlutut di samping lilin merah yang meleleh. Gaya seni 3D dan realistis, dengan fokus pada pencahayaan dan tekstur. Suasana lukisan itu adalah rasa ingin tahu dan keingintahuan, ketika monster menatap api dengan mata yang lebar dan mulut terbuka. Pose dan ekspresinya menyampaikan rasa ketulusan dan kesenangan, seolah-olah dia sedang menjelajahi dunia di sekitarnya untuk pertama kalinya. Penggunaan warna hangat dan pencahayaan dramatis lebih meningkatkan atmosfer yang nyaman dari gambar.
Bagaimana Sora Bekerja?
Seperti model AI generatif teks-ke-gambar seperti DALL·E 3, StableDiffusion, dan Midjourney, Sora adalah model difusi. Ini berarti setiap frame video dimulai dengan kebisingan statis, dan menggunakan pembelajaran mesin untuk secara bertahap mengubah gambar menjadi sesuatu yang menyerupai deskripsi dalam teks. Video Sora bisa berdurasi hingga 60 detik.
Mengatasi konsistensi temporal
Salah satu inovasi dalam Sora adalah bahwa ia mempertimbangkan beberapa frame video sekaligus, yang memecahkan masalah menjaga konsistensi objek saat bergerak masuk dan keluar dari pandangan. Dalam video berikut, perhatikan bahwa tangan kanguru bergerak keluar dari bidikan beberapa kali, dan ketika kembali, tangan itu terlihat sama seperti sebelumnya.
Menggabungkan model difusi dan transformer
Sora menggabungkan penggunaan model difusi dengan arsitektur transformer, seperti yang digunakan oleh GPT.
Dalam menggabungkan dua jenis model ini, Jack Qiao mencatat bahwa "model difusi bagus untuk menghasilkan tekstur tingkat rendah tapi buruk dalam komposisi global, sementara transformer memiliki masalah yang berlawanan." Itu artinya, Anda ingin model transformer seperti GPT untuk menentukan tata letak tingkat tinggi dari frame video dan model difusi untuk membuat detailnya.
Dalam artikel teknis tentang
implementasi Sora, OpenAI memberikan deskripsi tingkat tinggi tentang bagaimana kombinasi ini bekerja. Dalam model difusi, gambar dibagi menjadi "patch" persegi panjang yang lebih kecil. Untuk video, patch ini tiga dimensi karena mereka bertahan dari waktu ke waktu. Patch dapat dianggap sebagai setara dengan "token" dalam model bahasa besar: bukan menjadi komponen dari kalimat, mereka adalah komponen dari satu set gambar. Bagian transformer dari model mengatur patch, dan bagian difusi dari model menghasilkan konten untuk setiap patch.
Suatu keunikan dari arsitektur hibrid ini adalah bahwa untuk membuat generasi video secara komputasional memungkinkan, proses pembuatan patch menggunakan langkah reduksi dimensionalitas sehingga komputasi tidak perlu terjadi pada setiap piksel untuk setiap frame.
Meningkatkan Kesetiaan Video dengan Recaptioning
Untuk menangkap secara setia esensi prompt pengguna, Sora menggunakan teknik recaptioning yang juga tersedia dalam DALL·E 3. Ini berarti sebelum video dibuat, GPT digunakan untuk menulis kembali prompt pengguna untuk mencakup lebih banyak detail. Pada dasarnya, itu adalah bentuk rekayasa prompt otomatis.
Apa Batasan Sora?
OpenAI mencatat beberapa batasan versi saat ini dari Sora. Sora tidak memiliki pemahaman implisit tentang fisika, sehingga aturan fisika "nyata" mungkin tidak selalu diikuti.
Salah satu contohnya adalah bahwa model tidak memahami sebab dan akibat. Misalnya, dalam video berikut tentang ledakan di ring basket, setelah ring meledak, jaring terlihat pulih.
Pertanyaan yang belum terjawab tentang keandalan
Keandalan Sora saat ini belum jelas. Semua contoh dari OpenAI memiliki kualitas yang sangat tinggi, tetapi tidak jelas seberapa banyak pemilihan-pemilihan yang terlibat. Saat menggunakan alat teks-ke-gambar, umumnya dibuat sepuluh atau dua puluh gambar kemudian memilih satu yang terbaik. Tidak jelas berapa banyak gambar yang dihasilkan tim OpenAI untuk mendapatkan video yang ditunjukkan dalam artikel pengumuman mereka. Jika perlu menghasilkan ratusan atau ribuan video untuk mendapatkan satu video yang dapat digunakan, itu akan menjadi hambatan bagi adopsi. Untuk menjawab pertanyaan ini, kita harus menunggu sampai alatnya tersedia secara luas.
Apa Penggunaan Sora?
Sora dapat digunakan untuk membuat video dari nol atau memperpanjang video yang ada untuk membuatnya lebih panjang. Ini juga dapat mengisi bingkai yang hilang dari video.
Dengan cara yang sama seperti alat AI generatif teks-ke-gambar telah membuatnya jauh lebih mudah untuk membuat gambar tanpa keahlian pengeditan gambar teknis, Sora berjanji membuat pembuatan video menjadi lebih mudah tanpa pengalaman pengeditan gambar. Berikut adalah beberapa kasus penggunaan kunci.
Media sosial
Sora dapat digunakan untuk membuat video singkat untuk platform media sosial seperti TikTok, Instagram Reels, dan YouTube Shorts. Konten yang sulit atau tidak mungkin difilmkan sangat cocok. Misalnya, adegan Lagos pada tahun 2056 ini akan sulit difilmkan untuk pos media sosial tetapi mudah dibuat menggunakan Sora.
Periklanan dan pemasaran
Membuat iklan, video promosi, dan demonstrasi produk biasanya mahal. Alat AI teks-ke-video seperti Sora berjanji membuat proses ini jauh lebih murah. Dalam contoh berikut, dewan pariwisata yang ingin mempromosikan wilayah Big Sur California bisa menyewa drone untuk mengambil gambar udara lokasi tersebut, atau mereka bisa menggunakan AI, menghemat waktu dan uang.
Prototipe dan visualisasi konsep
Bahkan jika video AI tidak digunakan dalam produk final, itu bisa membantu untuk menunjukkan ide-ide dengan cepat. Pembuat film dapat menggunakan AI untuk mockup adegan sebelum mereka mengambil gambarnya, dan desainer dapat membuat video produk sebelum mereka membangunnya. Dalam contoh berikut, perusahaan mainan bisa menghasilkan model AI dari kapal bajak laut baru sebelum melakukan produksi besar-besaran.
Pembuatan data sintetis
Data sintetis sering digunakan untuk kasus di mana masalah privasi atau keterbatasan memungkinkan data nyata digunakan. Untuk data numerik, kasus penggunaan umum adalah data keuangan dan informasi yang dapat diidentifikasi secara pribadi. Akses ke dataset ini harus dikontrol dengan ketat, tetapi Anda dapat membuat data sintetis dengan properti serupa untuk dibagikan kepada publik.
Salah satu penggunaan data video sintetis adalah untuk melatih sistem visi komputer. Seperti yang saya tulis pada tahun 2022, Angkatan Udara AS menggunakan data sintetis untuk meningkatkan kinerja sistem visi komputer untuk kendaraan udara tak berawak untuk mendeteksi bangunan dan kendaraan pada malam hari dan dalam cuaca buruk. Alat seperti Sora membuat proses ini jauh lebih murah dan lebih mudah diakses untuk khalayak yang lebih luas.
Apa Ris
iko Sora?
Produk ini baru, jadi risikonya belum sepenuhnya dijelaskan, tetapi kemungkinan akan mirip dengan model teks-ke-gambar.
Pembuatan konten yang berbahaya
Tanpa pagar di tempat, Sora memiliki kekuatan untuk menghasilkan konten yang tidak menyenangkan atau tidak pantas, termasuk video yang mengandung kekerasan, ketakutan, materi eksplisit secara seksual, gambaran merendahkan kelompok orang, dan gambaran kebencian lainnya, serta promosi atau pengagungan aktivitas ilegal.
Apa yang merupakan konten yang tidak pantas bervariasi banyak tergantung pada pengguna (pertimbangkan seorang anak menggunakan Sora versus seorang dewasa) dan konteks pembuatan video (sebuah video yang memperingatkan tentang bahaya kembang api bisa dengan mudah menjadi berdarah secara pendidikan).
Informasi salah dan disinformasi
Berdasarkan video contoh yang dibagikan oleh OpenAI, salah satu kekuatan Sora adalah kemampuannya untuk membuat adegan fantastis yang tidak bisa ada dalam kehidupan nyata. Kekuatan ini juga membuatnya memungkinkan untuk membuat video "deepfake" di mana orang atau situasi nyata diubah menjadi sesuatu yang tidak benar.
Ketika konten ini disajikan sebagai kebenaran, baik secara tidak sengaja (informasi salah) atau dengan sengaja (disinformasi), itu bisa menimbulkan masalah.
Seperti yang ditulis oleh Eske Montoya Martinez van Egerschot, Chief AI Governance and Ethics Officer di DigiDiplomacy, "AI sedang membentuk strategi kampanye, keterlibatan pemilih, dan struktur keutuhan pemilihan".
Video AI yang meyakinkan namun palsu dari politisi atau lawan politisi memiliki kekuatan untuk "menyebarluaskan narasi palsu secara strategis dan menargetkan sumber-sumber sah dengan pelecehan, bertujuan untuk merusak kepercayaan pada lembaga-lembaga publik dan memupuk permusuhan terhadap berbagai bangsa dan kelompok orang".
Pada tahun yang berisi banyak pemilihan penting dari Taiwan hingga India hingga Amerika Serikat, ini memiliki konsekuensi yang luas.
Bias dan stereotip
Output dari model AI generatif sangat bergantung pada data yang dilatih. Itu berarti bias budaya atau stereotip dalam data pelatihan dapat menghasilkan masalah yang sama dalam video yang dihasilkan. Seperti yang dibahas oleh Joy Buolamwini dalam episode Fighting For Algorithmic Justice dari DataFramed, bias dalam gambar dapat memiliki konsekuensi serius dalam hal perekrutan dan penegakan hukum.
Bagaimana Saya Bisa Mengakses Sora?
Saat ini, Sora hanya tersedia untuk peneliti "tim merah". Itu adalah para ahli yang diberi tugas untuk mencoba mengidentifikasi masalah dengan model tersebut. Misalnya, mereka akan mencoba menghasilkan konten dengan beberapa risiko yang diidentifikasi di bagian sebelumnya sehingga OpenAI dapat mengurangi masalah sebelum merilis Sora ke publik.
OpenAI belum menentukan tanggal rilis publik untuk Sora, meskipun kemungkinan akan ada pada tahun 2024.
Apa Alternatif dari Sora?
Ada beberapa alternatif terkenal dari Sora yang memungkinkan pengguna membuat konten video dari teks. Ini termasuk:
Runway-Gen-2. Alternatif paling terkenal dari OpenAI Sora adalah Runway Gen-2. Seperti Sora, ini adalah AI generatif teks-ke-video, dan saat ini tersedia di web dan ponsel.
Lumiere. Google baru-baru ini mengumumkan Lumiere, yang saat ini tersedia sebagai ekstensi untuk kerangka Python deep-learning PyTorch.
Buat Video. Meta mengumumkan Buat Video pada tahun 2022; lagi ini tersedia melalui ekstensi PyTorch.
Ada juga beberapa pesaing kecil:
Pictory menyederhanakan konversi teks menjadi konten video, menargetkan pemasar konten dan pendidik dengan alat pembuatan video mereka.
Kapwing menawarkan platform online untuk membuat video dari teks, menekankan kemudahan penggunaan untuk pemasar media sosial dan pembuat casual.
Synthesia fokus pada pembuatan presentasi video berbasis AI dari teks, menawarkan video-avatar yang dapat disesuaikan untuk bisnis dan tujuan pendidikan.
HeyGen bertujuan untuk menyederhanakan produksi video untuk pemasaran produk dan konten, pemasaran penjualan, dan pendidikan.
Steve AI menyediakan platform AI yang memungkinkan generasi video dan animasi dari Prompt ke Video, Naskah ke Video, dan Audio ke Video.
Elai fokus pada e-learning dan pelatihan perusahaan, menawarkan solusi untuk dengan mudah mengubah konten instruksional menjadi video informatif
Apa Artinya OpenAI Sora bagi Masa Depan?
Tidak bisa diragukan lagi bahwa Sora adalah terobosan. Juga jelas bahwa potensi model generatif ini sangat besar. Apa implikasi Sora terhadap industri AI dan dunia? Tentu saja, kita hanya bisa membuat tebakan berpendidikan. Namun, berikut adalah beberapa cara di mana Sora dapat mengubah hal-hal, baik atau buruk.
Implikasi jangka pendek dari OpenAI Sora
Mari kita pertama-tama melihat dampak langsung dan jangka pendek yang mungkin kita lihat dari Sora setelah peluncuran (yang kem
ungkinan akan terjadi pada tahun 2024, menurut spekulasi). Ini termasuk:
Peningkatan penggunaan video dalam konten pemasaran dan pendidikan online.
Peningkatan dalam pelatihan dan pembuatan video AI sebagai solusi pengganti dalam industri yang memerlukan konten video berkualitas tinggi.
Penyedia layanan media sosial seperti YouTube, TikTok, dan Instagram dapat menangkap potensi besar dari integrasi model Sora untuk meningkatkan kualitas konten yang dibagikan oleh pengguna mereka.
Peningkatan kritik dan perdebatan tentang etika dan keamanan model AI generatif, termasuk kekhawatiran tentang penyalahgunaan, disinformasi, dan deepfakes.
Implikasi jangka panjang dari OpenAI Sora
Dalam jangka panjang, implikasi model generatif teks-ke-video seperti Sora dapat lebih luas dan lebih kompleks. Beberapa yang mungkin kita lihat termasuk:
Revitalisasi industri kreatif: Penggunaan Sora dan teknologi serupa dapat mempercepat produksi video dan mengurangi biaya, memungkinkan lebih banyak individu dan organisasi untuk menghasilkan konten video berkualitas tinggi.
Transformasi cara kita berinteraksi dengan konten digital: Dengan peningkatan penggunaan video AI, kita mungkin melihat perubahan signifikan dalam cara kita mengonsumsi dan berinteraksi dengan konten digital, dari tutorial online hingga hiburan.
Perkembangan lebih lanjut dalam AI multi-modal: Sora mewakili kemajuan dalam AI multi-modal, di mana model AI mampu bekerja dengan lebih dari satu jenis data input (teks dan video dalam kasus Sora). Perkembangan lebih lanjut dalam area ini dapat menghasilkan aplikasi yang lebih canggih dan bermanfaat di masa depan.
Peningkatan signifikan dalam diskusi dan regulasi etika AI: Kemajuan seperti Sora kemungkinan akan memicu diskusi yang lebih luas dan lebih mendalam tentang etika dan regulasi dalam pengembangan dan penggunaan AI, terutama sehubungan dengan keamanan dan privasi.
Saat ini, kita hanya bisa membuat perkiraan tentang bagaimana Sora akan memengaruhi dunia kita. Namun, satu hal yang pasti adalah bahwa inovasi seperti Sora akan terus memperkuat peran AI dalam kehidupan kita dan memicu diskusi yang lebih luas tentang implikasinya.
OpenAI Sora: Sebuah Terobosan dalam AI Generatif
Dengan demikian, OpenAI Sora menjanjikan terobosan besar dalam AI generatif dan representasi multimodal. Potensi aplikasi praktisnya luas, dari pembuatan video pemasaran hingga pelatihan dalam pembelajaran online. Namun, seperti dengan setiap teknologi baru, ada juga risiko dan tantangan yang harus diatasi, mulai dari masalah etika hingga risiko keamanan. Masa depan akan menunjukkan bagaimana Sora memengaruhi industri dan kehidupan kita secara keseluruhan.