Dari Baby Talk ke Baby A.I.

Kami menuntut banyak dari diri kami sebagai bayi. Entah bagaimana kami harus tumbuh dari gumpalan sensorik menjadi komunikator yang mobile, rasional, dan perhatian hanya dalam beberapa tahun. Di sinilah Anda, seorang bayi tanpa kosakata, di dalam ruangan yang penuh dengan mainan dan boneka. Anda mengambil sebatang Lincoln Log dan pengasuh Anda mengatakan kepada Anda, “Ini adalah ‘batang kayu’.” Akhirnya Anda menyadari bahwa “batang kayu” tidak hanya merujuk pada silinder plastik coklat tertentu ini atau kepada silinder plastik coklat secara umum, tetapi pada silinder plastik coklat yang mencerminkan karakteristik bagian pohon yang ditebang, yang juga, tentu saja, adalah “batang kayu.”

Telah banyak penelitian dan perdebatan panas seputar bagaimana bayi melakukan ini. Beberapa ilmuwan berpendapat bahwa sebagian besar akuisisi bahasa kita dapat dijelaskan oleh pembelajaran asosiatif, saat kita mengaitkan suara dengan sensibilia, mirip dengan anjing yang mengaitkan suara bel dengan makanan. Yang lain mengklaim bahwa ada fitur yang tertanam dalam pikiran manusia yang telah membentuk bentuk semua bahasa, dan sangat penting untuk pembelajaran kita. Masih ada yang berpendapat bahwa balita membangun pemahaman mereka terhadap kata-kata baru di atas pemahaman mereka terhadap kata-kata lain.

Pertanyaan mereka berkembang pada suatu hari Minggu baru-baru ini, saat Tammy Kwan dan Brenden Lake memberikan buah blackberries dari mangkuk ke mulut putri mereka yang berusia dua puluh satu bulan, Luna. Luna mengenakan legging pink dan rok tutu pink, dengan celemek silikon di lehernya dan topi pink lembut di kepalanya. Kamera tipe GoPro yang ringan terpasang di depan.

“Babooga,” katanya, menunjuk dengan jari bulat ke buah beri itu. Dr. Kwan memberikannya sisa buahnya, dan Dr. Lake melihat mangkuk kosong, terhibur. “Itu seperti $10,” katanya. Lampu di kamera berkedip.

Setiap minggu selama satu jam selama 11 bulan terakhir, Dr. Lake, seorang psikolog di New York University yang penelitiannya berfokus pada kecerdasan manusia dan kecerdasan buatan, telah melekatkan kamera pada Luna dan merekam hal-hal dari sudut pandangnya saat bermain. Tujuannya adalah menggunakan video untuk melatih model bahasa menggunakan input sensorik yang sama dengan yang dihadapi seorang balita – semacam LunaBot, singkatnya. Dengan begitu, dia berharap dapat menciptakan alat yang lebih baik untuk memahami baik A.I. maupun diri kita sendiri. “Kami melihat penelitian ini akhirnya menghubungkan kedua bidang studi tersebut,” kata Dr. Lake. “Anda akhirnya bisa menggabungkannya dalam dialog satu sama lain.”

Ada banyak rintangan untuk menggunakan model A.I. untuk memahami pikiran manusia. Keduanya jelas berbeda. Model bahasa dan multimodal modern – seperti GPT-4 dari OpenAI dan Gemini dari Google – dirangkai pada jaringan saraf dengan sedikit struktur bawaan, dan telah berkembang terutama sebagai hasil dari peningkatan daya komputasi dan kumpulan data latihan yang lebih besar. Model bahasa besar terbaru dari Meta, Llama 3, dilatih dengan lebih dari sepuluh triliun kata; seorang anak lima tahun rata-rata terpapar sekitar 300.000 jenis kata.

Model-model tersebut dapat menganalisis piksel dalam gambar namun tidak dapat merasakan keju atau buah beri atau merasakan lapar, jenis pengalaman belajar penting bagi anak-anak. Peneliti dapat mencoba yang terbaik untuk mengubah aliran sensorik anak menjadi kode, tetapi aspek penting dari fenomenologi mereka pasti akan terlewat. “Apa yang kami lihat hanyalah residu dari pembelajar yang aktif,” kata Michael Frank, seorang psikolog di Stanford yang selama bertahun-tahun berusaha untuk menangkap pengalaman manusia dalam kamera. Laboratoriumnya saat ini sedang bekerja dengan lebih dari 25 anak di seluruh negara, termasuk Luna, untuk merekam pengalaman mereka di rumah dan dalam pengaturan sosial.

Manusia juga bukanlah hanya wadah data, seperti jaringan saraf, melainkan hewan yang bermaksud. Segala sesuatu yang kita lihat, setiap objek yang kita sentuh, setiap kata yang kita dengar berpasangan dengan keyakinan dan keinginan yang kita miliki saat itu. “Ada hubungan yang dalam antara apa yang Anda coba pelajari dan data yang masuk,” kata Linda Situ, seorang psikolog di Universitas Indiana. “Model ini hanya memprediksi. Mereka mengambil apa pun yang dimasukkan ke dalamnya dan membuat langkah terbaik berikutnya.” Meskipun Anda dapat meniru keteraksaraan manusia dengan membangun struktur data latihan – sesuatu yang laboratorium Dr. Smith telah mencoba lakukan baru-baru ini – model A.I. yang paling kompeten, dan perusahaan yang membuatnya, telah lama berorientasi pada memproses lebih banyak data dengan efisien, bukan membuat lebih makna dari kurangnya data.

Ada juga masalah lebih konseptual, yang berasal dari fakta bahwa kemampuan sistem A.I. dapat tampak sangat manusiawi, meskipun muncul dengan cara non-manusiawi. Baru-baru ini, klaim meragukan tentang kesadaran, kecerdasan umum, dan sensitivitas muncul dari laboratorium industri di Google dan Microsoft menyusul rilis model-model baru. Pada bulan Maret, Claude 3, model terbaru dari perusahaan riset A.I. yang disebut Anthropic, memicu debat ketika, setelah menganalisis sebuah kalimat acak tentang topping pizza yang tersembunyi dalam daftar dokumen yang tidak terkait, model ini menyatakan curiga bahwa sedang diuji. Laporan semacam ini sering kali tercium sebagai trik pemasaran daripada proyek ilmiah objektif, tetapi mereka menyorot kegairahan kita untuk menyalahartikan makna ilmiah pada A.I.

Namun, pikiran manusia juga bertemu dengan yang virtual dengan cara lain. Tom Griffiths, seorang ilmuwan kognitif di Princeton, telah menyarankan bahwa, dengan menggambarkan keterbatasan kecerdasan manusia, dan membangun model yang memiliki keterbatasan serupa, kita bisa berakhir dengan pemahaman diri yang lebih baik dan A.I. yang lebih mudah diinterpretasikan, efisien. “Pemahaman yang lebih baik tentang kecerdasan manusia membantu kita memahami dan memodelkan komputer, dan kita dapat menggunakan model-model ini untuk memahami kecerdasan manusia,” kata Dr. Griffiths. “Semua ini sangat baru. Kami sedang menjelajahi ruang kemungkinan.”

Pada bulan Februari, Dr. Lake dan rekan-rekannya menciptakan model A.I. pertama yang dilatih dengan pengalaman seorang anak, menggunakan video yang diambil di laboratorium Dr. Frank lebih dari satu dekade yang lalu. Model tersebut dipublikasikan dalam jurnal Science dan, berdasarkan 60 jam rekaman, bisa mencocokkan momen-momen berbeda dengan kata-kata. Ketik “pasir” dan model tersebut akan mengingat momen tersebut, 11 tahun yang lalu, ketika anak laki-laki yang pengalaman model tersebut dilatih datang ke pantai dengan ibunya. Ketik “mobil” dan model tersebut menampilkan video orang pertama anak laki-laki itu duduk di kursi booster-nya.

Video pelatihan sudah tua dan buram, dan data tersebut cukup sedikit, namun kemampuan model ini untuk membentuk semacam pemetaan konseptual dunia menunjukkan bahwa mungkin bahasa dapat dipahami sebagian besar melalui asosiasi. “Kami memiliki satu peninjau di makalah itu yang mengatakan, ‘Sebelum saya membaca ini, saya akan pikir ini tidak mungkin,'” kata Wai Keen Vong, seorang peneliti di N.Y.U. yang membantu memimpin pekerjaan tersebut.

Bagi Dr. Lake, dan untuk peneliti lain seperti dia, pertanyaan-pertanyaan yang saling terkait ini – Seberapa mirip manusia bisa kita buat A.I.? Apa yang membuat kita manusia? – menunjukkan penelitian paling menarik di cakrawala. Menyusuri pertanyaan pertama demi pertama, dengan memodelkan interaksi sosial, niat, dan bias, dengan mengumpulkan rekaman video komprehensif dari kamera kepala yang dipasang di seorang balita berusia satu tahun, berarti mendekati jawaban pertanyaan yang kedua.

“Jika bidang tersebut bisa mencapai titik di mana model dilatih hanya dengan data yang dilihat satu anak, dan mereka berhasil dalam serangkaian tugas besar, itu akan menjadi pencapaian ilmiah yang besar,” kata Dr. Lake.

Di apartemen mereka, Dr. Lake dan Dr. Kwan sedang mengumpulkan Luna dan saudara laki-lakinya, Logan, untuk sebuah pesta ulang tahun. Anak-anak itu, berdesakan di ambang pintu, menarik kaus kaki dan sepatu mereka. Dr. Lake menghentikan perekaman pada kamera Luna dan memberinya sepasang sarung tangan putih berbulu dengan wajah domba. “Apa itu, Luna?” katanya.

“Baa baa,” kata Luna.

Dr. Kwan berkata, “Ada saat ketika dia tidak tahu kata ‘tidak,’ dan semuanya hanya ‘iya’ untuk semuanya.” Dia berbicara kepada Luna: “Cium, apakah kamu mau ciuman?”

“Tidak,” jawab Luna.

“Oh,” kata Dr. Lake, tertawa. “Saya merindukan fase ‘iya’ itu.”