AlphaProof, Sebuah A.I. Baru dari Google DeepMind, Memperoleh Skor Tinggi di Olimpiade Matematika Internasional

Di markas Google DeepMind, laboratorium kecerdasan buatan di London, para peneliti memiliki ritual yang sudah lama untuk mengumumkan hasil-hasil penting: Mereka memukul gong seremonial besar.

Pada tahun 2016, gong berbunyi untuk AlphaGo, sistem kecerdasan buatan yang menonjol dalam permainan Go. Pada tahun 2017, gong bergema ketika AlphaZero menaklukkan catur. Dalam setiap kesempatan, algoritma itu mengalahkan juara dunia manusia.

Pekan lalu, para peneliti DeepMind mengeluarkan gong lagi untuk merayakan apa yang Alex Davies, pemimpin inisiatif matematika Google DeepMind, deskripsikan sebagai “terobosan besar” dalam penalaran matematika oleh sebuah sistem kecerdasan buatan. Sepasang model Google DeepMind mencoba keberuntungannya dengan kumpulan masalah dalam Olimpiade Matematika Internasional 2024, atau I.M.O., yang diadakan dari tanggal 11 Juli hingga 22 Juli sekitar 100 mil di barat London di University of Bath. Acara ini dikatakan menjadi kompetisi matematika premier bagi “mathletes” tercerdas dunia, menurut postingan promosi di media sosial.

Para penyelesa masalah manusia – 609 siswa sekolah tinggi dari 108 negara – memenangkan 58 medali emas, 123 perak, dan 145 perunggu. A.I. tampil pada level seorang peraih medali perak, menyelesaikan empat dari enam masalah untuk total 28 poin. Ini pertama kalinya A.I. telah mencapai performa yang layak medali dalam masalah Olimpiade.

“Ini tidak sempurna, kami tidak menyelesaikan semuanya,” kata Pushmeet Kohli, Wakil Presiden Riset Google DeepMind, dalam sebuah wawancara. “Kami ingin menjadi sempurna.”

Meskipun demikian, Dr. Kohli menggambarkan hasil ini sebagai “transisi fase” – perubahan yang transformatif – “dalam penggunaan A.I. dalam matematika dan kemampuan sistem A.I. untuk melakukan matematika.”

Lab meminta dua ahli independen untuk mengadili kinerja A.I .: Timothy Gowers, seorang matematikawan di Universitas Cambridge di Inggris dan penerima Fields medal, yang telah tertarik dengan keterlibatan matematika-A.I . selama 25 tahun; dan Joseph Myers, seorang pengembang perangkat lunak di Cambridge. Keduanya memenangkan emas I.M.O. pada zamannya. Dan pada Olimpiade sebelumnya Dr. Myers adalah ketua komite pemilihan masalah tahun ini dan pada Olimpiade sebelumnya bertugas sebagai koordinator, menilai solusi manusia. “Saya berusaha menilai upaya A.I. secara konsisten dengan bagaimana upaya manusia dinilai tahun ini,” katanya.

Dr. Gowers menambahkan dalam sebuah email: “Saya pasti terkesan.” Lab telah membahas ambisi Olimpiade mereka dengannya beberapa minggu sebelumnya, jadi “harapan saya cukup tinggi,” katanya. “Tetapi program tersebut memenuhi harapan saya, dan dalam satu atau dua kasus bahkan melebihinya secara signifikan.” Program tersebut menemukan “kunci-kunci ajaib” yang membuka masalah, katanya.

Setelah berbulan-bulan pelatihan yang ketat, para siswa ikut ujian dua kali, tiga masalah per hari – dalam aljabar, kombinatorika, geometri, dan teori bilangan.

Rekan A.I., bekerja keras sekitar sejajar di lab di London. (“Siswa tidak menyadari bahwa Google DeepMind berkompetisi, sebagian karena para peneliti tidak ingin mencuri sorotan.”) Para peneliti memindahkan gong ke ruangan tempat mereka berkumpul untuk menonton sistem bekerja. “Setiap kali sistem menyelesaikan masalah, kami memukul gong untuk merayakannya,” kata David Silver, seorang ilmuwan penelitian.

Haojia Shi, seorang siswa dari China, menempati peringkat No. 1 dan satu-satunya pesaing yang memperoleh skor sempurna – 42 poin untuk enam masalah; setiap masalah bernilai tujuh poin untuk solusi lengkap. Tim AS memenangkan tempat pertama dengan 192 poin; China menempati tempat kedua dengan 190.

Sistem Google memperoleh 28 poin untuk menyelesaikan empat masalah sepenuhnya – dua dalam aljabar, satu dalam geometri, dan satu dalam teori bilangan. (Sistem itu gagal dalam dua masalah kombinatorika.) Sistem tersebut diizinkan waktu tak terbatas; untuk beberapa masalah dibutuhkan hingga tiga hari. Para siswa diberikan waktu hanya 4,5 jam perujiannya.

Bagi tim Google DeepMind, kecepatan bukanlah yang utama dibandingkan dengan kesuksesan secara keseluruhan, karena “hanya masalah seberapa banyak daya komputasi yang bersedia Anda masukkan ke dalam hal-hal ini,” kata Dr. Silver.

“Kenyataan bahwa kami telah mencapai ambang batas ini, di mana itu bahkan mungkin untuk menangani masalah-masalah ini sama sekali, adalah yang mewakili perubahan besar dalam sejarah matematika,” tambahnya. “Dan semoga itu bukan hanya perubahan besar dalam I.M.O., tetapi juga menggambarkan titik di mana kami beralih dari komputer hanya dapat membuktikan hal-hal yang sangat, sangat sederhana ke komputer dapat membuktikan hal-hal yang tidak dapat dibuktikan manusia.”

Bahan Algoritmik

Mengaplikasikan A.I. pada matematika telah menjadi bagian dari misi DeepMind selama beberapa tahun terakhir, sering kali bekerja sama dengan matematikawan peneliti kelas dunia.

“Matematika memerlukan kombinasi menarik dari penalaran abstrak, tepat, dan kreatif,” kata Dr. Davies. Sebagian, katanya, repsitero desa kemampuan ini adalah apa yang membuat matematika menjadi tes yang baik untuk tujuan utama: mencapai kecerdasan buatan umum, atau A.G.I., sistem dengan kemampuan mulai dari muncul, kompeten, hebat hingga superhuman. Perusahaan seperti OpenAI, Meta AI, dan xAI sedang melacak tujuan serupa.

Masalah matematika Olimpiade telah menjadi patokan yang diperhitungkan.

Pada Januari, sistem Google DeepMind bernama AlphaGeometry menyelesaikan sebagian masalah geometri Olimpiade hampir sampai tingkat peraih medali emas manusia. “AlphaGeometry 2 sekarang telah melampaui peraih medali emas dalam menyelesaikan masalah I.M.O.,” kata Thang Luong, peneliti utama, dalam sebuah email.

Mengikuti momentum itu, Google DeepMind memperkuat upaya Olimpiade multidisiplinnya, dengan dua tim: satu dipimpin oleh Thomas Hubert, seorang insinyur penelitian di London, dan yang lain dipimpin oleh Dr. Luong dan Quoc Le di Mountain View, masing-masing dengan sekitar 20 peneliti. Untuk tim “penalaran luar biasa” nya, Dr. Luong mengatakan dia merekrut sekitar selusin peraih medali I.M.O. – “dengan jarak terjauh dari konsentrasi peraih medali I.M.O. di Google!”

Serangan lab di Olimpiade tahun ini mengerahkan versi terbaru AlphaGeometry. Tidak mengherankan, model itu cukup baik dalam masalah geometri, menyelesaikannya dalam 19 detik.

Tim Dr. Hubert mengembangkan model baru yang sebanding namun lebih umum. Dinamai AlphaProof, model ini dirancang untuk berinteraksi dengan berbagai subjek matematika. Secara total, AlphaGeometry dan AlphaProof menggunakan sejumlah teknologi A.I. yang berbeda.

Salah satu pendekatan adalah sistem penalaran informal, yang diungkapkan dalam bahasa alami. Sistem ini memanfaatkan Gemini, model bahasa besar Google. Itu menggunakan korpus bahasa Inggris dari masalah terbitan dan bukti dan sejenisnya sebagai data pelatihan.

Sistem informal itu sangat baik dalam mengidentifikasi pola dan menyarankan apa yang akan terjadi selanjutnya; kreatif dan berbicara tentang ide-ide dengan cara yang mudah dimengerti. Tentu saja, model bahasa besar cenderung membuat sesuatu – yang mungkin (atau mungkin tidak) cocok untuk puisi dan pasti bukan untuk matematika. Tetapi dalam konteks ini, L.L.M. cenderung menampilkan penahanan; itu tidak kebal terhadap halusinasi, tetapi frekuensinya dikurangi.

Pendekatan lain adalah sistem penalaran formal, berdasarkan logika dan diungkapkan dalam kode. Ini menggunakan perangkat lunak pembukti teorema dan pembantu bukti yang disebut Lean, yang menjamin bahwa jika sistem mengatakan sebuah bukti benar, maka memang benar. “Kami dapat memeriksa secara tepat apakah bukti tersebut benar atau tidak,” kata Dr. Hubert. “Setiap langkah dijamin memiliki dasar logis yang benar.”

Komponen lain yang penting adalah algoritma pembelajaran penguatan dalam garis keturunan AlphaGo dan AlphaZero. Tipe A.I. ini belajar sendiri dan dapat berkembang secara tidak terbatas, kata Dr. Silver, yang merupakan wakil presiden belajar penguatan Google DeepMind. Karena algoritma tersebut tidak memerlukan guru manusia, ia dapat “belajar dan terus belajar dan terus belajar sampai akhirnya dapat menyelesaikan masalah terberat yang dapat diselesaikan manusia,” katanya. “Dan kemudian mungkin suatu hari bahkan bisa melebihi itu.”

Dr. Hubert menambahkan, “Sistem itu dapat menemukan kembali pengetahuan sendiri.” Itulah yang terjadi dengan AlphaZero: Ia mulai tanpa pengetahuan, kata Dr. Hubert, “dan dengan hanya bermain game, dan melihat siapa yang menang dan siapa yang kalah, ia dapat menemukan kembali semua pengetahuan catur. Dibutuhkan kurang dari satu hari bagi kami untuk menemukan kembali seluruh pengetahuan catur, dan sekitar satu minggu untuk menemukan kembali seluruh pengetahuan Go. Jadi kami pikir, Mari kita terapkan ini pada matematika.”

Dr. Gowers tidak terlalu khawatir – terlalu banyak – tentang konsekuensi jangka panjang. “Mungkin bahkan memungkinkan untuk membayangkan situasi di mana matematikawan pada dasarnya tidak lagi memiliki apa-apa,” katanya. “Itu akan terjadi jika komputer menjadi lebih baik, dan jauh lebih cepat, dalam segala hal yang dilakukan matematikawan saat ini.”

“Sepertinya masih cukup jauh sebelum komputer akan mampu melakukan matematika tingkat penelitian,” tambahnya. “Ini adalah taruhan yang cukup aman bahwa jika Google DeepMind dapat menyelesaikan setidaknya beberapa masalah I.M.O. yang sulit, maka kehadiran alat penelitian yang berguna tidak mungkin terlalu jauh.”

Alat yang benar-benar terampil mungkin membuat matematika lebih mudah diakses bagi lebih banyak orang, mempercepat proses penelitian, mendorong matematikawan keluar dari kotak. Pada akhirnya, mungkin bahkan dapat menghasilkan ide-ide baru yang resonan.