Startup Ini Mengatakan Mereka Bisa Mengalahkan Protein AI Permainan yang Mengubah Permainan Deepmind

Glen Gowers, CEO dan salah satu pendiri Basecamp Research
Pada tahun 2018, laboratorium AI Google, Deepmind, merilis sebuah algoritma yang menggebrak dunia biologi. Bernama AlphaFold, perangkat lunak ini mampu memprediksi struktur protein dengan akurasi tinggi – sebuah masalah kompleks yang dianggap sebagai terobosan ilmiah besar. Memahami bagaimana protein berinteraksi adalah kunci untuk memahami segala hal dalam bioteknologi mulai dari cara membuat makanan terasa lebih enak hingga cara membuat tanaman bertahan dari perubahan iklim untuk menyembuhkan kanker. Sejak rilisnya, AlphaFold, penerusnya AlphaFold2, dan ratusan juta struktur protein yang telah dihasilkannya selama beberapa tahun terakhir telah menjadi bagian kunci dari alat para peneliti bioteknologi di seluruh dunia.

Namun, meskipun AlphaFold telah membantu mendorong industri ke depan, ia memiliki keterbatasan sendiri. Para peneliti masih jauh dari cita-cita tertinggi biologi sintetis: di mana sebuah model AI dapat mengambil bentuk protein yang diinginkan dan menemukan cara membuatnya dengan menemukan senyawa yang tepat untuk berinteraksi dengannya atau benar-benar merancang protein yang tidak ditemukan di alam.

Hari ini, para ilmuwan di Basecamp Research yang berbasis di London mengumumkan bahwa mereka telah mendekati tujuan tersebut berkat model AI baru yang dibangun di atas algoritma open-source AlphaFold2. Basecamp mengatakan modelnya, BaseFold, yang dilatih pada dataset yang jauh lebih luas, dapat menghasilkan prediksi struktur protein yang lebih akurat daripada AlphaFold2. Perusahaan juga mengumumkan bahwa mereka akan bekerja sama dengan Nvidia untuk mengoptimalkan BaseFold agar dapat digunakan dengan platform AI generatif milik raksasa chip tersebut untuk penemuan obat, BioNeMo.

Glen Gowers, salah satu pendiri dan CEO Basecamp, mengklaim bahwa perangkat lunak mereka menghasilkan peningkatan tiga kali lipat dalam memprediksi bagaimana struktur protein akan berubah ketika berinteraksi dengan molekul-molekul kecil, yang merupakan data kunci dalam proses penemuan obat. Perusahaan ini telah mempublikasikan sebuah makalah yang melaporkan hasil-hasilnya, yang belum melalui proses peer-review, di server pra-publikasi bioRxiv. Hingga saat ini, mereka telah mengumpulkan total $25 juta dalam bentuk modal dan memiliki valuasi $71 juta, menurut Pitchbook.

Meskipun ini merupakan tonggak penting bagi startup berusia empat tahun itu, Gowers, 29 tahun, percaya bahwa perangkat lunak ini membawanya satu langkah lebih dekat ke tujuan utamanya: dapat merancang protein – atau bahkan organisme baru – untuk memenuhi kebutuhan pelanggannya. “Kami tidak hanya ingin menjadi perusahaan struktur protein,” katanya kepada Forbes. “Kami secara luas menerapkan ini dalam segala tugas yang bersifat generatif atau prediktif. Jadi hal-hal seperti adaptasi fungsi protein, generasi protein baru – bahkan generasi genom baru.”

Gowers mendapatkan ide untuk Basecamp pada tahun 2019, ketika dia dan beberapa rekan penelitinya menghabiskan sebulan di Islandia hidup tanpa koneksi listrik. Mereka menghabiskan hari-hari mereka untuk mengekstraksi genom dari sekelompok mikroorganisme khusus yang berevolusi untuk bertahan baik di suhu ekstrem dingin maupun panas karena mereka hidup di dekat salju dan mata air panas. Sebagian besar data yang dikumpulkan oleh timnya dalam satu bulan tersebut adalah “dark matter” yang tidak diketahui mengenai protein, urutan yang tidak diketahui asal usulnya,” katanya. Data itu membantunya menyadari bahwa dataset genomik yang tersedia secara publik yang digunakan AlphaFold merupakan “sekitar lima tetes air spesies relatif terhadap samudera Atlantik yang diketahui memiliki eksistensi.”

Jumlah data mengenai protein sangat penting saat memprediksi bagaimana blok bangunan kehidupan ini akan melipat karena ada begitu banyak variabel yang dapat menentukan bagaimana mereka berperilaku – begitu banyak sehingga hampir tidak mungkin dihitung secara langsung karena matematikanya sangat rumit. Tetapi jika sebuah model pembelajaran mesin dilatih pada miliaran struktur yang berbeda, pola-pola muncul yang memungkinkannya untuk memprediksi dengan lebih tepat bagaimana sebuah protein akan melipat.

Pikirkan seperti chatbot AI yang muncul dalam beberapa tahun terakhir. Latih bot pada subset kecil bahasa manusia – misalnya, Twitter – dan Anda akan menemukan, seperti yang dilakukan Microsoft pada tahun 2016, bahwa ia menjadi bodoh. ChatGPT dan pesaingnya, sebaliknya, dilatih pada bagian yang jauh lebih besar dan beragam dari internet, menghasilkan bot yang memberikan hasil yang lebih baik untuk pertanyaan dan lebih tidak mungkin untuk menghina Anda. Dengan cara yang sama, mengumpulkan kumpulan data genomik yang lebih besar dan beragam membuat prediksi mengenai bagaimana protein akan melipat menjadi lebih baik.

Itulah mengapa Basecamp telah bekerja untuk mendiversifikasi dataset protein yang digunakan model-model mereka untuk dilatih. Sejak didirikan pada tahun 2020, Basecamp telah bekerja dengan peneliti di seluruh dunia untuk mensekuensing informasi genomik berkualitas tinggi dari puluhan juta mikroba, tanaman, dan hewan dari seluruh dunia. Para peneliti ini, pada gilirannya, diberi royalti dari pendapatan yang dihasilkan oleh Basecamp dari data tersebut.

Selain dari mengekstraksi DNA dari organisme-organisme ini, para peneliti juga mengumpulkan informasi kontekstual, memberikan data lebih lanjut yang bisa digunakan oleh AI untuk membantu memahami mengapa protein melipat seperti yang dilakukan. “Dengan setiap entri dalam pangkalan data kami, kami mengumpulkan ratusan dimensi tambahan,” kata CTO perusahaan tersebut, Phillip Lorenz, 31 tahun. Ini termasuk suhu lokal, pH, salinitas air di mana organisme-organisme tersebut ditemukan, berapa banyak cahaya yang tersedia bagi organisme-organisme tersebut, dan lainnya. Geografi di mana sampel-sampel ini ditemukan juga sangat beragam, tambahnya, mulai dari gua-gua di Hongaria hingga celah laut dalam. “Kami pergi ke semua bioma di seluruh dunia, dari pulau vulkanik hingga Antartika.”

Basecamp telah menghasilkan pendapatan, kata Gowers kepada Forbes, dengan menggunakan model prediktifnya untuk memecahkan masalah pelanggan (ia menolak untuk membagikan angka). Misalnya, mereka bekerja dengan Colorfix yang berbasis di Inggris untuk merancang protein baru yang dapat digunakan untuk pewarnaan kain tanpa menggunakan bahan kimia yang keras. Mereka juga membantu startup Protein Evolution yang berbasis di Connecticut untuk menemukan protein baru yang dapat memecah plastik sehingga dapat didaur ulang. Selain itu, Gowers berharap dapat menggunakan kemampuan komputasinya untuk mengembangkan obat baru bekerjasama dengan perusahaan farmasi.

Namun, Gowers mengakui bahwa perusahaan tidak dapat tetap berada dalam kondisi kerepotan selamanya. Untuk bersaing dengan pesaing yang memiliki modal lebih baik, Basecamp berencana untuk mengumpulkan investasi lebih banyak dalam waktu dekat. “Melatih model-model baru dan membangun arsitektur baru, terutama ketika data Anda sangat besar, merupakan bisnis yang sangat mahal,” katanya.