Pada Kamis pagi, tersiar kabar bahwa seseorang menjual data mahasiswa dari Universitas Michigan kepada pekerja teknologi yang membangun teknologi chatbot AI. Seorang karyawan di Google DeepMind, pusat penelitian AI perusahaan, mengatakan mereka memiliki tawaran untuk rekaman kuliah, diskusi mahasiswa, dan jam kerja, serta esai yang ditulis oleh mahasiswa senior dan pascasarjana, semuanya tersedia dengan sedikit biaya lisensi. Sekarang, Universitas mengatakan itu semua adalah kesalahpahaman, bahwa para mahasiswa telah memberikan persetujuannya, dan tidak ada yang perlu dikhawatirkan.
Susan Zhang, seorang insinyur di DeepMind, mengatakan dia telah menerima pesan LinkedIn yang disponsori yang menjajakan informasi tersebut, dan menawarkan sampel gratis dari data Universitas Michigan untuk membuktikan manfaatnya.
“Saya menghubungi Anda karena, berdasarkan profil Anda, Anda mungkin bekerja dengan Large Language Modeling (LLM) atau pemrosesan bahasa alami,” bunyi pesan penjualan tersebut. “Saya ingin memberi tahu Anda bahwa Universitas Michigan melisensikan data pidato akademik dan makalah mahasiswa yang bisa sangat berguna untuk pelatihan atau penyempurnaan LLM.”
Pesan tersebut menawarkan data dari 85 jam perkuliahan, bagian diskusi, dan wawancara seharga $15,595, kumpulan kedua dari 829 makalah yang ditulis oleh mahasiswa Universitas Michigan dari berbagai disiplin ilmu seharga $12,595, atau paket diskon dari kedua kumpulan data seharga $25,000.
Namun, pesan tersebut “dikirim oleh vendor pihak ketiga baru yang membagikan informasi tidak akurat dan sejak itu diminta untuk menghentikan pekerjaan mereka,” kata Colleen Mastony, juru bicara Universitas Michigan, melalui email. “Tidak ada transaksi atau pembagian konten yang dilakukan oleh vendor. Data mahasiswa tidak dan tidak pernah dijual oleh Universitas Michigan.” Mastony tidak membagikan detail tentang siapa vendor tersebut, atau apa sebenarnya yang tidak akurat tentang informasi yang mereka tawarkan.
Universitas tidak boleh menjual datanya secara langsung, namun (atau pernah) ditawarkan untuk dijual oleh sebuah organisasi bernama Catalyst Research Alliance, yang mengklaim bermitra dengan University of Michigan serta North Carolina State University. Itu situs web menawarkan contoh kumpulan datayang disertai dengan esai berjudul “Kekurangan Demokrasi di Uni Eropa,” dan tampaknya merupakan rekaman bagian dari diskusi kelas.
Catalyst Research Alliance dan North Carolina State University tidak segera menanggapi permintaan komentar.
Menurut Mastony, rekaman dan makalah tersebut disumbangkan oleh relawan mahasiswa yang berpartisipasi dalam studi penelitian selama dua dekade, dan tidak ada data yang menyertakan nama siswa atau informasi identitas pribadi lainnya. “Makalah dan rekaman khusus ini telah lama tersedia secara gratis bagi para akademisi – sekali lagi tanpa informasi identitas apa pun – dan telah digunakan sebagai alat untuk meningkatkan penulisan dan artikulasi dalam pendidikan,” kata Mastony.
“Saya pikir ada baiknya mencari tahu universitas mana yang menjual data mahasiswa dan apa syaratnya,” kata Zhang kepada Gizmodo dalam pesannya bahwa pencipta asli tidak akan mendapat sepeser pun, sedangkan pengecer yang menyimpan data akan mendapatkan semua keuntungannya) .”
Melatih model bahasa besar seperti perangkat lunak yang mendukung chatbot seperti ChatGPT dan Bard memerlukan kumpulan data yang besar dan diberi label dengan jelas di berbagai mata pelajaran dan disiplin ilmu. Meskipun kumpulan data Universitas Michigan berukuran kecil, kontennya yang terorganisir dengan baik pada sejumlah mata pelajaran dapat berguna untuk menyesuaikan model tertentu, terutama alat yang dirancang untuk tujuan tertentu terkait dengan dunia akademis, komunikasi formal, atau untuk melatih AI secara lebih umum guna meningkatkan kemampuan. . mereka. kinerja pada setiap bidang keahliannya.
Pembaruan 15/02/2024, 17:45 ET: Cerita ini telah diperbarui dengan komentar dari Universitas Michigan.
NewsRoom.id