Model kecerdasan buatan (AI) baru baru saja mencapai hasil pada tingkat manusia dalam tes yang dirancang untuk mengukur “kecerdasan umum”.
Pada tanggal 20 Desember, sistem o3 OpenAI mendapat skor 85% pada benchmark ARC-AGI, jauh di atas skor AI terbaik sebelumnya sebesar 55% dan setara dengan skor rata-rata manusia. Dia juga mendapat nilai bagus dalam ujian matematika yang sangat sulit.
Menciptakan kecerdasan umum buatan, atau AGI, adalah tujuan dari semua laboratorium penelitian AI besar. Pada pandangan pertama, OpenAI tampaknya telah membuat kemajuan signifikan menuju tujuan ini.
Meski skeptisisme masih ada, banyak peneliti dan pengembang AI merasa ada sesuatu yang berubah. Bagi banyak orang, prospek AGI kini tampak lebih nyata, mendesak, dan lebih dekat dari yang diharapkan. Apakah mereka benar?
Generalisasi dan kecerdasan
Untuk memahami arti dari hasil o3, Anda perlu memahami apa itu tes ARC-AGI. Secara teknis, ini adalah pengujian “efisiensi sampel” sistem AI dalam beradaptasi dengan sesuatu yang baru – berapa banyak contoh situasi baru yang perlu dilihat sistem untuk mengetahui cara kerjanya.
Sistem AI seperti ChatGPT (GPT-4) tidak terlalu efisien dalam pengambilan sampel. Ini “dilatih” pada jutaan contoh teks manusia, membangun “aturan” probabilistik tentang kombinasi kata mana yang paling mungkin muncul.
Hasilnya cukup baik pada tugas umum. Ini buruk dalam tugas-tugas yang tidak biasa, karena memiliki lebih sedikit data (lebih sedikit sampel) tentang tugas-tugas tersebut.
Sampai sistem AI dapat belajar dari sejumlah kecil contoh dan beradaptasi dengan sampel yang lebih efisien, sistem tersebut hanya akan digunakan untuk pekerjaan yang sangat berulang dan kegagalan yang terjadi sesekali dapat ditoleransi.
Kemampuan untuk secara akurat memecahkan masalah yang sebelumnya tidak diketahui atau masalah baru dari sampel data yang terbatas dikenal sebagai kapasitas untuk menggeneralisasi. Hal ini secara luas dianggap sebagai elemen kecerdasan yang penting, bahkan mendasar.
Grid dan pola
Tolok ukur ARC-AGI menguji sampel adaptasi yang efisien menggunakan permasalahan kotak kecil seperti di bawah ini. AI perlu menemukan pola yang mengubah grid di sebelah kiri menjadi grid di sebelah kanan.
Setiap pertanyaan memberikan tiga contoh untuk dipelajari. Sistem AI kemudian perlu menemukan aturan yang “menggeneralisasi” dari tiga contoh ke contoh keempat.
Ini sangat mirip dengan tes IQ yang terkadang Anda ingat di sekolah.
Aturan dan adaptasi yang lemah
Kami tidak tahu persis bagaimana OpenAI melakukannya, namun hasilnya menunjukkan model o3 sangat mudah beradaptasi. Dari beberapa contoh saja, dapat ditemukan aturan-aturan yang dapat digeneralisasikan.
Untuk menemukan suatu pola, kita tidak boleh membuat asumsi yang tidak perlu, atau lebih spesifik dari yang diperlukan. Secara teori, jika Anda dapat mengidentifikasi aturan “terlemah” yang melakukan apa yang Anda inginkan, maka Anda telah memaksimalkan kemampuan Anda untuk beradaptasi dengan situasi baru.
Apa yang kami maksud dengan aturan terlemah? Definisi teknisnya rumit, namun aturan yang lebih lemah biasanya adalah aturan yang dapat dijelaskan dalam pernyataan yang lebih sederhana.
Pada contoh di atas, ekspresi aturan dalam bahasa Inggris sederhana dapat berupa: “Bentuk apa pun yang memiliki garis menonjol akan berpindah ke ujung garis tersebut dan 'menutupi' bentuk lain yang tumpang tindih.”
Mencari rantai pemikiran?
Meskipun kami belum mengetahui bagaimana OpenAI mencapai hasil ini, sepertinya mereka tidak sengaja mengoptimalkan sistem o3 untuk menemukan aturan yang lemah. Namun, untuk berhasil dalam tugas ARC-AGI, mereka harus menemukannya.
Kita tahu bahwa OpenAI dimulai dengan versi model o3 untuk tujuan umum (yang berbeda dari kebanyakan model lainnya, karena model ini dapat menghabiskan lebih banyak waktu untuk “berpikir” tentang pertanyaan sulit) dan kemudian melatihnya secara khusus untuk pengujian ARC-AGI.
Peneliti AI Perancis, Francois Chollet, yang merancang benchmark tersebut, percaya bahwa o3 menelusuri “rantai pemikiran” berbeda yang menjelaskan langkah-langkah untuk menyelesaikan tugas tersebut. Ia kemudian akan memilih yang “terbaik” berdasarkan aturan yang didefinisikan secara longgar, atau “heuristik.”
Hal ini “mirip dengan” cara sistem AlphaGo Google menelusuri berbagai kemungkinan rangkaian gerakan untuk mengalahkan juara dunia Go.
Anda dapat menganggap rantai pemikiran ini seperti sebuah program yang sesuai dengan contoh. Tentu saja, jika seperti AI Go-playing, maka diperlukan heuristik atau aturan yang longgar untuk menentukan program mana yang terbaik.
Mungkin ada ribuan program berbeda yang tampaknya sama validnya. Heuristiknya bisa berupa “pilih yang terlemah” atau “pilih yang paling sederhana”.
Namun jika seperti AlphaGo maka mereka hanya memiliki AI yang menciptakan heuristik. Ini adalah proses untuk AlphaGo. Google melatih model untuk menilai rangkaian gerakan yang berbeda sebagai lebih baik atau lebih buruk dibandingkan yang lain.
Yang masih belum kita ketahui
Pertanyaannya kemudian, apakah ini benar-benar dekat dengan AGI? Jika o3 berfungsi seperti itu, model dasarnya mungkin tidak lebih baik dari model sebelumnya.
Konsep yang dipelajari model dari bahasa mungkin tidak lagi cocok untuk digeneralisasi dibandingkan sebelumnya. Sebaliknya, kita mungkin hanya melihat “rantai pemikiran” yang lebih umum ditemukan melalui langkah-langkah tambahan dalam pelatihan heuristik khusus untuk pengujian ini. Buktinya, seperti biasa, ada di pudingnya.
Hampir segala hal tentang o3 masih belum diketahui. OpenAI membatasi pengungkapannya pada beberapa presentasi media dan pengujian awal kepada segelintir peneliti, laboratorium, dan badan keamanan AI.
Benar-benar memahami potensi o3 memerlukan kerja keras, termasuk evaluasi, memahami sebaran kapasitasnya, seberapa sering gagal, dan seberapa sering berhasil.
Ketika o3 akhirnya dirilis, kita akan memiliki gambaran yang lebih baik apakah ia dapat beradaptasi seperti manusia pada umumnya.
Jika benar demikian, maka hal ini akan memberikan dampak ekonomi yang besar dan revolusioner, serta membuka era baru percepatan intelijen yang dapat dikembangkan secara mandiri. Kita memerlukan tolok ukur baru untuk AGI itu sendiri dan pertimbangan serius mengenai cara pengelolaannya.
Jika tidak, ini akan tetap menjadi hasil yang mengesankan. Namun, kehidupan sehari-hari akan tetap sama.
Michael Timothy Bennett, Mahasiswa PhD, Sekolah Komputasi, Universitas Nasional Australia dan Elija Perrier, Rekan Peneliti, Pusat Teknologi Kuantum yang Bertanggung Jawab Stanford, Universitas Stanford
Artikel ini diterbitkan ulang dari The Conversation di bawah lisensi Creative Commons. Baca artikel aslinya.
NewsRoom.id