OpenAI Mengklaim Model Barunya Mencapai Tingkat Manusia dalam Tes 'Kecerdasan Umum'. Maksudnya itu apa?

- Redaksi

Minggu, 29 Desember 2024

facebook twitter whatsapp telegram line copy

URL berhasil dicopy

facebook icon twitter icon whatsapp icon telegram icon line icon copy

URL berhasil dicopy

Model kecerdasan buatan (AI) baru baru saja mencapai hasil pada tingkat manusia dalam tes yang dirancang untuk mengukur “kecerdasan umum”.

Pada tanggal 20 Desember, sistem o3 OpenAI mendapat skor 85% pada benchmark ARC-AGI, jauh di atas skor AI terbaik sebelumnya sebesar 55% dan setara dengan skor rata-rata manusia. Dia juga mendapat nilai bagus dalam ujian matematika yang sangat sulit.

Menciptakan kecerdasan umum buatan, atau AGI, adalah tujuan dari semua laboratorium penelitian AI besar. Pada pandangan pertama, OpenAI tampaknya telah membuat kemajuan signifikan menuju tujuan ini.

Meski skeptisisme masih ada, banyak peneliti dan pengembang AI merasa ada sesuatu yang berubah. Bagi banyak orang, prospek AGI kini tampak lebih nyata, mendesak, dan lebih dekat dari yang diharapkan. Apakah mereka benar?

Generalisasi dan kecerdasan

Untuk memahami arti dari hasil o3, Anda perlu memahami apa itu tes ARC-AGI. Secara teknis, ini adalah pengujian “efisiensi sampel” sistem AI dalam beradaptasi dengan sesuatu yang baru – berapa banyak contoh situasi baru yang perlu dilihat sistem untuk mengetahui cara kerjanya.

Sistem AI seperti ChatGPT (GPT-4) tidak terlalu efisien dalam pengambilan sampel. Ini “dilatih” pada jutaan contoh teks manusia, membangun “aturan” probabilistik tentang kombinasi kata mana yang paling mungkin muncul.

Hasilnya cukup baik pada tugas umum. Ini buruk dalam tugas-tugas yang tidak biasa, karena memiliki lebih sedikit data (lebih sedikit sampel) tentang tugas-tugas tersebut.

Sampai sistem AI dapat belajar dari sejumlah kecil contoh dan beradaptasi dengan sampel yang lebih efisien, sistem tersebut hanya akan digunakan untuk pekerjaan yang sangat berulang dan kegagalan yang terjadi sesekali dapat ditoleransi.

Kemampuan untuk secara akurat memecahkan masalah yang sebelumnya tidak diketahui atau masalah baru dari sampel data yang terbatas dikenal sebagai kapasitas untuk menggeneralisasi. Hal ini secara luas dianggap sebagai elemen kecerdasan yang penting, bahkan mendasar.

Grid dan pola

Tolok ukur ARC-AGI menguji sampel adaptasi yang efisien menggunakan permasalahan kotak kecil seperti di bawah ini. AI perlu menemukan pola yang mengubah grid di sebelah kiri menjadi grid di sebelah kanan.

Contoh tugas dari tes benchmark ARC-AGI.
Hadiah ARC

Setiap pertanyaan memberikan tiga contoh untuk dipelajari. Sistem AI kemudian perlu menemukan aturan yang “menggeneralisasi” dari tiga contoh ke contoh keempat.

Ini sangat mirip dengan tes IQ yang terkadang Anda ingat di sekolah.

Aturan dan adaptasi yang lemah

Kami tidak tahu persis bagaimana OpenAI melakukannya, namun hasilnya menunjukkan model o3 sangat mudah beradaptasi. Dari beberapa contoh saja, dapat ditemukan aturan-aturan yang dapat digeneralisasikan.

Untuk menemukan suatu pola, kita tidak boleh membuat asumsi yang tidak perlu, atau lebih spesifik dari yang diperlukan. Secara teori, jika Anda dapat mengidentifikasi aturan “terlemah” yang melakukan apa yang Anda inginkan, maka Anda telah memaksimalkan kemampuan Anda untuk beradaptasi dengan situasi baru.

Apa yang kami maksud dengan aturan terlemah? Definisi teknisnya rumit, namun aturan yang lebih lemah biasanya adalah aturan yang dapat dijelaskan dalam pernyataan yang lebih sederhana.

Pada contoh di atas, ekspresi aturan dalam bahasa Inggris sederhana dapat berupa: “Bentuk apa pun yang memiliki garis menonjol akan berpindah ke ujung garis tersebut dan 'menutupi' bentuk lain yang tumpang tindih.”

Mencari rantai pemikiran?

Meskipun kami belum mengetahui bagaimana OpenAI mencapai hasil ini, sepertinya mereka tidak sengaja mengoptimalkan sistem o3 untuk menemukan aturan yang lemah. Namun, untuk berhasil dalam tugas ARC-AGI, mereka harus menemukannya.

Kita tahu bahwa OpenAI dimulai dengan versi model o3 untuk tujuan umum (yang berbeda dari kebanyakan model lainnya, karena model ini dapat menghabiskan lebih banyak waktu untuk “berpikir” tentang pertanyaan sulit) dan kemudian melatihnya secara khusus untuk pengujian ARC-AGI.

Peneliti AI Perancis, Francois Chollet, yang merancang benchmark tersebut, percaya bahwa o3 menelusuri “rantai pemikiran” berbeda yang menjelaskan langkah-langkah untuk menyelesaikan tugas tersebut. Ia kemudian akan memilih yang “terbaik” berdasarkan aturan yang didefinisikan secara longgar, atau “heuristik.”

Hal ini “mirip dengan” cara sistem AlphaGo Google menelusuri berbagai kemungkinan rangkaian gerakan untuk mengalahkan juara dunia Go.

Anda dapat menganggap rantai pemikiran ini seperti sebuah program yang sesuai dengan contoh. Tentu saja, jika seperti AI Go-playing, maka diperlukan heuristik atau aturan yang longgar untuk menentukan program mana yang terbaik.

Mungkin ada ribuan program berbeda yang tampaknya sama validnya. Heuristiknya bisa berupa “pilih yang terlemah” atau “pilih yang paling sederhana”.

Namun jika seperti AlphaGo maka mereka hanya memiliki AI yang menciptakan heuristik. Ini adalah proses untuk AlphaGo. Google melatih model untuk menilai rangkaian gerakan yang berbeda sebagai lebih baik atau lebih buruk dibandingkan yang lain.

Yang masih belum kita ketahui

Pertanyaannya kemudian, apakah ini benar-benar dekat dengan AGI? Jika o3 berfungsi seperti itu, model dasarnya mungkin tidak lebih baik dari model sebelumnya.

Konsep yang dipelajari model dari bahasa mungkin tidak lagi cocok untuk digeneralisasi dibandingkan sebelumnya. Sebaliknya, kita mungkin hanya melihat “rantai pemikiran” yang lebih umum ditemukan melalui langkah-langkah tambahan dalam pelatihan heuristik khusus untuk pengujian ini. Buktinya, seperti biasa, ada di pudingnya.

Hampir segala hal tentang o3 masih belum diketahui. OpenAI membatasi pengungkapannya pada beberapa presentasi media dan pengujian awal kepada segelintir peneliti, laboratorium, dan badan keamanan AI.

Benar-benar memahami potensi o3 memerlukan kerja keras, termasuk evaluasi, memahami sebaran kapasitasnya, seberapa sering gagal, dan seberapa sering berhasil.

Ketika o3 akhirnya dirilis, kita akan memiliki gambaran yang lebih baik apakah ia dapat beradaptasi seperti manusia pada umumnya.

Jika benar demikian, maka hal ini akan memberikan dampak ekonomi yang besar dan revolusioner, serta membuka era baru percepatan intelijen yang dapat dikembangkan secara mandiri. Kita memerlukan tolok ukur baru untuk AGI itu sendiri dan pertimbangan serius mengenai cara pengelolaannya.

Jika tidak, ini akan tetap menjadi hasil yang mengesankan. Namun, kehidupan sehari-hari akan tetap sama.

Michael Timothy Bennett, Mahasiswa PhD, Sekolah Komputasi, Universitas Nasional Australia dan Elija Perrier, Rekan Peneliti, Pusat Teknologi Kuantum yang Bertanggung Jawab Stanford, Universitas Stanford

Artikel ini diterbitkan ulang dari The Conversation di bawah lisensi Creative Commons. Baca artikel aslinya.

NewsRoom.id

Berita Terkait

Film, Acara, dan Game Kru io9 yang Paling Dinanti Tahun 2025
Astronot Menangkap Warna Pelangi yang Menakjubkan dari Danau Garam yang Bergeser di Irak
Penemuan Terobosan Menghubungkan Gen Baru dengan Autisme
Fenomena Otak Utuh: Penelitian Baru Menantang Teori Kecerdasan Lama
Terobosan Baterai Yang Dapat Mengubah Kendaraan Listrik dan Energi Terbarukan
Horror's Greatest Season 2 Membawa Lebih Banyak Kecintaan pada Genrenya
Bagaimana Fig Formula Menggunakan Komunitas, Data, dan Peristiwa Untuk Menskalakan
Dari Sinar Matahari Menjadi Kekuatan: Korea Meluncurkan Superkapasitor Pengisian Mandiri yang Revolusioner

Berita Terkait

Rabu, 1 Januari 2025 - 16:45 WIB

Film, Acara, dan Game Kru io9 yang Paling Dinanti Tahun 2025

Rabu, 1 Januari 2025 - 14:41 WIB

Astronot Menangkap Warna Pelangi yang Menakjubkan dari Danau Garam yang Bergeser di Irak

Rabu, 1 Januari 2025 - 13:39 WIB

Penemuan Terobosan Menghubungkan Gen Baru dengan Autisme

Rabu, 1 Januari 2025 - 09:32 WIB

Fenomena Otak Utuh: Penelitian Baru Menantang Teori Kecerdasan Lama

Rabu, 1 Januari 2025 - 08:31 WIB

Terobosan Baterai Yang Dapat Mengubah Kendaraan Listrik dan Energi Terbarukan

Rabu, 1 Januari 2025 - 04:23 WIB

Bagaimana Fig Formula Menggunakan Komunitas, Data, dan Peristiwa Untuk Menskalakan

Rabu, 1 Januari 2025 - 03:21 WIB

Dari Sinar Matahari Menjadi Kekuatan: Korea Meluncurkan Superkapasitor Pengisian Mandiri yang Revolusioner

Rabu, 1 Januari 2025 - 02:19 WIB

Menulis Ulang Langit Jurassic: Fosil Pterosaurus Purba Mendorong Asal Usulnya Kembali 15 Juta Tahun

Berita Terbaru

Headline

Penemuan Terobosan Menghubungkan Gen Baru dengan Autisme

Rabu, 1 Jan 2025 - 13:39 WIB