Dalam Studi Baru, GPT-4 Lebih Unggul Dibandingkan Dokter Dalam Pemikiran Klinis, Namun Lebih Sering Salah

Dalam sebuah studi terbaru, para ilmuwan di Beth Israel Deaconess Medical Center (BIDMC) membandingkan kemampuan penalaran klinis dari model bahasa besar dengan rekan dokter manusia. Para peneliti menggunakan skor revised-IDEA (r-IDEA), yang merupakan alat yang umum digunakan untuk menilai penalaran klinis.

Studi tersebut melibatkan memberikan chatbot yang didukung oleh GPT-4, 21 dokter spesialis, dan 18 dokter resident 20 kasus klinis untuk menentukan penalaran diagnostik dan bekerja melaluinya. Ketiga set jawaban tersebut kemudian dievaluasi menggunakan skor r-IDEA. Para peneliti menemukan bahwa chatbot sebenarnya mendapatkan skor r-IDEA tertinggi, yang terbukti cukup mengesankan dalam hal penalaran diagnostik. Namun, para penulis juga mencatat bahwa chatbot lebih sering “benar-benar salah”.

Stephanie Cabral, M.D., penulis utama studi tersebut, menjelaskan bahwa “studi lebih lanjut diperlukan untuk menentukan bagaimana LLMs dapat terintegrasi dengan baik dalam praktik klinis, namun bahkan saat ini, mereka bisa berguna sebagai pemeriksaan, membantu kita memastikan kita tidak melewatkan sesuatu.” Secara ringkas, hasil studi menunjukkan penalaran yang kokoh oleh chatbot, namun juga kesalahan yang signifikan; hal ini lebih memperkuat gagasan bahwa sistem yang didukung AI ini lebih cocok (setidaknya pada tingkat kematangan saat ini) sebagai alat untuk menambah kemampuan diagnostik seorang dokter, bukan menggantikan kemampuan diagnostik seorang dokter.

Seperti yang sering dijelaskan oleh pemimpin medis dan teknologis, hal ini karena praktik kedokteran tidak hanya didasarkan pada output algoritma dari aturan, melainkan didasarkan pada rasa penalaran yang dalam dan intuisi klinis, yang sulit untuk direplikasi oleh LLM. Meskipun demikian, alat seperti ini yang dapat memberikan dukungan diagnostik atau klinis masih bisa menjadi aset yang sangat kuat dalam alur kerja seorang dokter. Sebagai contoh, jika sistem dapat memberikan saran diagnosis “pertama” atau diagnosis awal berdasarkan data yang tersedia seperti riwayat pasien atau catatan yang ada, itu mungkin memungkinkan dokter untuk menghemat waktu yang signifikan dalam proses diagnostik mereka. Selain itu, jika alat-alat ini dapat meningkatkan alur kerja seorang dokter dan meningkatkan cara mereka memproses sejumlah besar informasi klinis dari rekam medis, mungkin ada peluang untuk meningkatkan efisiensi.

Banyak organisasi memanfaatkan kemungkinan-kemungkinan ini untuk augmentasi klinis. Misalnya, teknologi scribbling yang didukung kecerdasan buatan memanfaatkan pemrosesan bahasa alami untuk membantu dokter menyelesaikan dokumentasi klinis lebih efisien. Alat pencarian perusahaan sedang diintegrasikan di dalam organisasi dan dengan sistem EMR untuk membantu dokter mencari data yang luas, mempromosikan interoperabilitas data, dan mendapatkan wawasan lebih cepat dan lebih dalam tentang data pasien yang ada. Sistem lain bahkan dapat membantu menawarkan diagnosis tidak resmi; misalnya, alat-alat sedang muncul di bidang radiologi dan dermatologi yang dapat menyarankan diagnosis potensial dengan menganalisis foto yang diunggah.

Meskipun demikian, masih banyak pekerjaan yang perlu dilakukan di bidang ini. Singkatnya, meskipun sistem kecerdasan buatan seperti ini belum siap untuk diagnosis klinis, masih ada kesempatan untuk memanfaatkan teknologi ini untuk meningkatkan alur kerja klinis, terutama sambil tetap menjaga manusia di dalam lingkaran untuk memastikan proses yang aman, aman, dan akurat.