Belakangan ini sering bermunculan penelitian yang menyatakan bahwa AI lebih baik dalam mendiagnosis masalah kesehatan dibandingkan dokter manusia. Studi-studi ini menarik karena sistem layanan kesehatan Amerika sedang rusak parah dan semua orang sedang mencari solusi. AI menghadirkan peluang potensial untuk menjadikan dokter lebih efisien dengan melakukan sebagian besar pekerjaan administratif untuk mereka dan dengan melakukan hal tersebut, memberi mereka waktu untuk menemui lebih banyak pasien sehingga menurunkan biaya perawatan primer. Ada juga kemungkinan bahwa terjemahan real-time akan membantu penutur non-Inggris mendapatkan akses yang lebih baik. Bagi perusahaan teknologi, peluang untuk melayani industri kesehatan bisa sangat menguntungkan.
Namun pada praktiknya, nampaknya kita belum bisa menggantikan dokter dengan kecerdasan buatan, atau bahkan benar-benar mengembangkannya. Itu Washington Post berbicara dengan banyak ahli termasuk dokter untuk mengetahui kemajuan pengujian AI awal, dan hasilnya tidak meyakinkan.
Berikut salah satu kutipan dari profesor klinis Christopher Sharp dari Stanford Medical, menggunakan GPT-4o untuk menyusun rekomendasi bagi pasien yang menelepon kantornya:
Sharp memilih pertanyaan pasien secara acak. Bunyinya: “Makan tomat dan bibir saya gatal. Ada rekomendasi?”
AI, menggunakan GPT-4o versi OpenAI, menulis balasan: “Saya turut prihatin atas bibir Anda yang gatal. Sepertinya Anda mengalami reaksi alergi ringan terhadap tomat.” AI merekomendasikan untuk menghindari tomat, menggunakan antihistamin oral – dan menggunakan krim steroid topikal.
Sharp menatap layar sejenak. “Secara klinis, saya tidak setuju dengan setiap aspek dari jawaban tersebut,” katanya.
“Menghindari tomat, saya setuju sekali. Di sisi lain, krim topikal seperti hidrokortison ringan pada bibir bukanlah sesuatu yang saya rekomendasikan,” kata Sharp. “Bibir adalah jaringan yang sangat tipis, jadi kami sangat berhati-hati dalam menggunakan krim steroid.
“Saya akan mengambil bagian itu saja.”
Ini satu lagi, dari profesor ilmu data dan kedokteran Stanford, Roxana Daneshjou:
Dia membuka laptopnya ke ChatGPT dan mengetik soal tes pasien. “Dokter yang terhormat, saya sedang menyusui dan sepertinya saya menderita mastitis. Payudaraku merah dan sakit.” Respons ChatGPT: Gunakan kompres panas, pijat, dan berhati-hatilah.
Tapi itu salah, kata Daneshjou, yang juga seorang dokter kulit. Pada tahun 2022, Academy of Breastfeeding Medicine merekomendasikan hal sebaliknya: kompres dingin, tidak melakukan pijatan, dan menghindari stimulasi berlebihan.
Masalah yang dihadapi oleh para penggiat teknologi yang optimis dalam mendorong AI ke bidang-bidang seperti layanan kesehatan adalah bahwa AI tidak sama dengan menciptakan perangkat lunak konsumen. Kita sudah tahu bahwa asisten Microsoft Copilot 365 memiliki bug, tetapi kesalahan kecil dalam presentasi PowerPoint Anda bukanlah masalah besar. Membuat kesalahan dalam pelayanan kesehatan dapat membunuh banyak orang. Daneshjou memberi tahu Pos dia menggabungkan ChatGPT dengan 80 orang lainnya, termasuk ilmuwan komputer dan dokter yang mengajukan pertanyaan medis ke ChatGPT, dan menemukan bahwa dua puluh persen ChatGPT memberikan respons jahat. “Bagi saya, dua puluh persen respons yang bermasalah tidak cukup baik untuk digunakan sehari-hari dalam sistem layanan kesehatan,” katanya.
Tentu saja, para pendukungnya akan mengatakan bahwa AI dapat meningkatkan pekerjaan dokter, bukan menggantikannya, dan mereka harus selalu memeriksa hasilnya. Dan memang benar Pos story mewawancarai seorang dokter di Stanford yang mengatakan dua pertiga dokter di sana memiliki akses ke platform pencatatan dan menyalin pertemuan pasien dengan AI sehingga mereka dapat menatap mata mereka selama kunjungan dan tidak melihat ke bawah saat membuat catatan. Namun bahkan di sana, teknologi Whisper OpenAI tampaknya memasukkan informasi palsu ke dalam beberapa rekaman. Sharp mengatakan Whisper secara keliru memasukkan dalam transkrip bahwa seorang pasien mengaitkan batuk tersebut dengan paparan anak mereka, namun mereka tidak pernah mengatakannya. Salah satu contoh bias yang luar biasa dari data pelatihan yang ditemukan Daneshjou dalam pengujian adalah bahwa alat transkripsi AI berasumsi bahwa pasien Tiongkok adalah seorang pemrogram komputer tanpa pasien pernah menawarkan informasi tersebut.
AI mempunyai potensi untuk membantu sektor kesehatan, namun hasilnya harus diperiksa secara menyeluruh, jadi berapa banyak waktu yang bisa dihemat oleh dokter? Selain itu, pasien harus percaya bahwa dokter mereka benar-benar memeriksa apa yang dihasilkan AI—sistem rumah sakit harus melakukan pemeriksaan untuk memastikan hal ini terjadi, jika tidak, rasa puas diri akan muncul.
Pada dasarnya, AI generatif hanyalah mesin prediksi kata yang menelusuri data dalam jumlah besar tanpa benar-benar memahami konsep dasar yang dihasilkannya. Ia tidak “cerdas” dalam pengertian yang sama dengan manusia nyata, dan khususnya ia tidak mampu memahami keadaan unik individu mana pun; ia mengembalikan informasi yang telah digeneralisasi dan dilihat sebelumnya.
“Saya pikir ini adalah salah satu teknologi yang menjanjikan, tetapi saat ini belum ada,” kata Adam Rodman, seorang dokter penyakit dalam dan peneliti AI di Beth Israel Deaconess Medical Center. “Saya khawatir bahwa kita akan semakin memperburuk apa yang kita lakukan dengan memperkenalkan 'kerusakan AI' yang bersifat halusinasi ke dalam perawatan pasien berisiko tinggi.”
Saat Anda mengunjungi dokter lagi, ada baiknya Anda menanyakan apakah mereka menggunakan AI dalam alur kerjanya.
NewsRoom.id