OpenAI Melewati o2 dan Meluncurkan Model 'Penalaran' o3 Baru

Admin Newsroom - Redaksi

Sabtu, 21 Desember 2024

URL berhasil dicopy

Model penalaran seharusnya memeriksa fakta dengan membuat rencana langkah demi langkah untuk menemukan jawaban yang benar.

Hari terakhir dari “12 Hari Pengiriman” OpenAI telah tiba dengan diperkenalkannya o3, model “penalaran” rantai pikiran baru yang diklaim perusahaan sebagai yang paling canggih hingga saat ini. Model ini belum tersedia untuk penggunaan umum, namun peneliti keselamatan dapat mendaftar untuk meninjaunya mulai hari ini.

OpenAI dan lainnya berharap model penalaran akan membantu memecahkan masalah chatbot yang sering kali menghasilkan jawaban salah. Chatbots pada dasarnya tidak “berpikir” seperti manusia dan diperlukan teknik yang berbeda untuk mencoba menciptakan simulacrum terbaik dari proses berpikir manusia.

Saat ditanyai suatu pertanyaan, model penalaran berhenti sejenak dan mempertimbangkan petunjuk terkait yang dapat membantu menghasilkan jawaban yang akurat. Misalnya, jika Anda bertanya pada model o3, “apakah habaneros dapat ditanam di Pacific Northwest”, model tersebut mungkin akan menyajikan serangkaian pertanyaan yang akan diteliti untuk menghasilkan kesimpulan, seperti “di mana habanero biasanya tumbuh”, “bagaimana kondisi ideal untuk menanam habaneros,” dan “jenis iklim apa yang dimiliki Pacific Northwest.” Siapa pun yang pernah menggunakan chatbot tahu bahwa terkadang Anda harus meminta tindak lanjut tambahan dari chatbot hingga akhirnya mendapatkan hasil yang tepat. Model penalaran harus melakukan pekerjaan tambahan ini untuk Anda.

o3 adalah penerus o1, model penalaran rantai pikiran pertama OpenAI. Para perwakilan mengatakan mereka memutuskan untuk melewatkan konvensi penamaan “o2” “untuk menghormati” perusahaan telekomunikasi Inggris tersebut, namun tidak ada salahnya jika hal itu membuat produk tersebut terdengar lebih maju. Perusahaan mengatakan model baru ini hadir dengan kemampuan untuk menyesuaikan waktu penalarannya. Pengguna dapat memilih waktu penalaran rendah, sedang, atau tinggi; semakin besar komputasinya, semakin baik kinerja o3. OpenAI mengatakan akan menghabiskan waktu untuk “menggabungkan kembali” model baru dengan peneliti untuk mencegahnya menghasilkan respons yang berpotensi membahayakan (karena sekali lagi, model tersebut bukan manusia dan tidak mengetahui mana yang benar dan mana yang salah).

Penalaran adalah kata kunci saat ini di bidang AI generatif, karena orang dalam industri percaya bahwa ini adalah terobosan berikutnya yang diperlukan untuk meningkatkan kinerja model bahasa besar. Komputasi yang lebih banyak pada akhirnya tidak memberikan peningkatan kinerja yang setara, sehingga diperlukan teknik baru. Google DeepMind baru-baru ini meluncurkan model penalarannya sendiri yang disebut Gemini Deep Research, yang memerlukan waktu 5-10 menit untuk menghasilkan laporan yang menganalisis berbagai sumber di web untuk sampai pada temuannya.

OpenAI yakin dengan o3, dan menawarkan tolok ukur yang mengesankan—disebutkan bahwa dalam tes Codeforcing, yang mengukur kemampuan pengkodean, o3 mendapat skor 2727. Untuk konteksnya, skor 2400 akan menempatkan seorang insinyur pada persentil ke-99 di antara programmer. Dia mendapat nilai 96,7% pada Ujian Matematika Undangan Amerika 2024, hanya melewatkan satu pertanyaan. Kita harus melihat bagaimana model tersebut bertahan dalam pengujian di dunia nyata, dan secara umum masih bukan ide yang baik untuk terlalu mengandalkan model AI untuk pekerjaan penting yang memerlukan akurasi. Namun mereka yang optimis yakin bahwa masalah akurasi telah teratasi. Mudah-mudahan begitu, karena saat ini gambaran AI Google dalam pencarian masih sering menjadi bahan olok-olok di media sosial.

Perusahaan pemodelan AI seperti OpenAI dan Perplexity berlomba untuk menjadi Google berikutnya, mengumpulkan pengetahuan dunia dan membantu pengguna memahami semuanya. Mereka bahkan kini memiliki produk pencarian yang dimaksudkan untuk mereplikasi Google secara lebih langsung dengan akses ke hasil web real-time.

Namun, semua pemain ini tampaknya saling melompati setiap hari. Perasaan ini mengingatkan kita pada akhir tahun 90an ketika ada banyak sekali mesin pencari yang dapat dipilih—Google, Yahoo, dan AltaVista, Ask Jeeves, dan masih banyak lagi, semuanya menyedot data internet dan menyajikannya hanya dengan UX yang berbeda. Kebanyakan dari mereka menghilang setelah muncul satu yang jauh lebih baik dari yang lain—Google.

OpenAI jelas memiliki keunggulan yang kuat saat ini dengan ratusan juta pengguna aktif bulanan dan kemitraan dengan Apple, namun Google baru-baru ini menerima banyak pujian atas kemajuan dalam model Gemini-nya. The Verge melaporkan bahwa perusahaan akan segera mengintegrasikan Gemini lebih dalam ke antarmuka pencariannya.

NewsRoom.id