Tanpa Judul #196, 2018, Cetak C-Digital oleh Simen Johan // Med-Gemini’s Lion’s Roar. Setiap cerita saya … [+] mencakup karya seni asli. Menkliknya akan membawa Anda ke situs web mereka. Saya berterima kasih kepada para seniman yang telah membagikan karyanya.
© Simen Johan, Hormat Yossi Milo, New York
Persaingan untuk model AI medis yang disesuaikan sedang memanas. Google dan DeepMind merilis sebuah makalah pada hari Senin yang menggambarkan Med-Gemini, sekelompok model AI canggih yang ditargetkan untuk aplikasi kesehatan. Para model masih dalam tahap penelitian, tetapi penulis mengklaim bahwa Med-Gemini unggul dibandingkan dengan model-model pesaing seperti GPT-4 dari OpenAI. Namun, yang terakhir tidak ketinggalan dalam arena medis, baru-baru ini memperluas kerja sama dengan Moderna, sebuah perusahaan farmasi besar.
Lompatan maju Med-Gemini, jika divalidasi di pengaturan dunia nyata, adalah kemampuannya untuk menangkap konteks dan temporalitas, seperti mengerti latar belakang dan pengaturan gejala serta waktu dan urutan onset mereka. Ini adalah kesalahan yang diketahui dalam model AI terkait kesehatan yang ada. Benar bahwa kami dokter terkenal karena singkatan dan kurangnya keseragaman dalam dokumentasi. Namun, tantangan sebenarnya dalam melatih algoritma medis bukanlah kompleksitas teks—tetapi yang kontekstual.
Contoh sederhana adalah yang diketahui oleh setiap orang tua dari balita: harus mengunjungi seorang dokter anak untuk demam dan ruam si kecil. Dokter akan selalu bertanya, yang mana yang datang lebih dulu, demam atau ruam? Apakah itu menyebar dari kepala ke bawah atau dari kaki ke atas? Karakteristik sederhana ini dapat membedakan penyakit ringan dan yang mandiri, seperti Roseola, dari yang berpotensi mengancam jiwa, seperti meningitis meningokokus.
Pertanyaan-pertanyaan ini, yang tampaknya sederhana, dengan multidimensionalitas dan karakteristik time-series mereka, dapat membuat model AI lengkap goyah dengan ketidakakuratan sekecil apapun.
Kontekstualitas yang tepat ini tampaknya sudah berhasil ditangani oleh Med-Gemini dengan keluar dari usaha besar membangun model medis umum yang mencakup semua hal. Sebaliknya, pengembang Google telah mengadopsi pendekatan vertikal demi vertikal dari model-model terkait, yang disebut sebagai “keluarga” model, masing-masing mengoptimalkan domain atau skenario medis tertentu, seperti analisis gambar di bidang radiologi dan patologi, interpretasi sinyal seperti mendekripsi pemeriksaan elektrokardiogram atau pemahaman konteks panjang seperti membaca catatan medis yang panjang. Hal ini, menurut para peneliti, telah menghasilkan akurasi yang lebih baik dan lebih nuansa, dan alasan yang lebih transparan, memberikan beberapa umpan balik yang dapat diinterpretasikan, seperti mengapa diagnosis yang disarankan adalah yang paling mungkin.
Karena dokter diharapkan untuk tetap terkini dengan penelitian terbaru, Google sepertinya menaruh harapan yang sama pada Med-Gemini. Model baru ini juga mencakup lapisan tambahan yang signifikan—pencarian berbasis web dari informasi terbaru, memungkinkan pelengkapan data dengan pengetahuan eksternal, mengintegrasikan hasil online ke dalam model.
Walau Med-Gemini telah memanfaatkan sumber data yang beragam, seperti cuplikan dari catatan kesehatan, sinar-X, foto lesi kulit, pertanyaan untuk persiapan ujian medis dan lainnya, tetap penting untuk diingat apa yang masih belum terjadi: validasi di dunia nyata pada data produksi yang sebenarnya dalam pengaturan klinik sehari-hari, atau setidaknya uji klinis acak terkontrol ganda prospektif.
Model multimodal telah memberikan kemajuan kesehatan yang didukung AI. Namun, beban bukti masih harus ditunjukkan di pengaturan klinis kehidupan nyata.