Mitra Google Cloud dan Ginkgo Bioworks Meluncurkan Protein LLM dan API Baru

Model lipatan protein.

getty

Google Cloud sedang memperluas kemitraannya dengan Ginkgo Bioworks untuk dua rilis baru.

Yang pertama melibatkan peluncuran model bahasa besar protein yang akan memungkinkan organisasi dan perusahaan mempercepat proses penemuan obat mereka menggunakan wawasan dan data eksklusif Ginkgo. Yang kedua adalah model API yang akan diluncurkan oleh perusahaan bioteknologi untuk membantu insinyur dan ilmuwan pembelajaran mesin mendapatkan akses ke model AI biologi.

Dalam wawancara eksklusif dengan Forbes, Chris Sakalosky, Wakil Presiden Industri Strategis di Google Cloud, dan Ankit Gupta, General Manager, Ginkgo AI, membahas pembaruan menarik. Seperti yang dijelaskan oleh Gupta, biologi sebagian besar telah beralih dari menjadi disiplin fisik murni menjadi sekarang menjadi disiplin komputasi. Mereka dengan metode dan cara untuk memahami, memanfaatkan, dan mendapatkan wawasan yang bermakna dari volume data yang besar pada akhirnya akan berhasil. Inilah kekuatan ekosistem Ginkgo, karena menyediakan alat komputasi yang memungkinkan rekayasa yang lebih mudah. Sakalosky menambahkan wawasannya berdasarkan saat pertama kali dia bertemu dengan Jason Kelly, pendiri Ginkgo Bioworks, dan membahas bagaimana DNA pada dasarnya bisa dianggap sebagai bahasa dan kode. Jika inovator bisa melatih AI untuk memahami percakapan, bahasa lisan, dan kode komputer, tidak ada alasan bahwa AI tidak dapat memahami dan bekerja dengan DNA dengan cara yang sama. Di sinilah kuncinya dalam bidang yang berkembang pesat ini.

Janji di balik model protein LLM baru ini sangat menarik, karena sedang dibangun di atas platform Vertex AI Google Cloud dan dilatih pada model data eksklusif Ginkgo. Ini akan memungkinkan peneliti dan perusahaan dengan cepat memahami dan memanfaatkan data mereka, dan dengan demikian akan menjadi keuntungan besar untuk penemuan obat. Selain itu, API baru yang diberikan perusahaan memberikan akses ke model yang canggih yang dilatih pada data protein dan DNA. Yang pertama adalah ginkgo-AA-0-650m, “model berskala besar yang dilatih pada 2 miliar urutan protein eksklusif Ginkgo.”

Mengapa ini penting?

Konvergensi biologi, penemuan obat, kecerdasan buatan, dan rekayasa canggih belum pernah begitu relevan, karena semua vertikal ini memiliki banyak kesempatan untuk tumbuh dari satu sama lain. Inilah sebabnya mengapa perusahaan dengan cepat meningkatkan investasi mereka di arena ini, dan persaingan ketat. Ambil contoh Meta’s ESM Metagenomic Atlas, upaya untuk “mewakili setiap protein dalam kumpulan data sebagai satu titik, dan mengungkapkan struktur protein sebenarnya saat memperbesar atau saat mengarahkan kursor ke atasnya.” Meskipun proyek tersebut dilaporkan telah dihentikan, pada Maret 2023, model telah berkembang menjadi hampir 772 juta struktur protein yang tersedia. Demikian pula, Isomorphic Labs milik Alphabet sendiri, dalam kemitraan dengan Google DeepMind, telah mengembangkan salah satu model protein terkemuka di industri, AlphaFold. Iterasi terbarunya dengan AlphaFold 3 mencatat “setidaknya peningkatan 50% dibandingkan metode prediksi yang ada.”

Dalam sebuah studi yang diterbitkan dalam jurnal Frontiers in Bioinformatics, potensi besar penggunaan LLM dalam biologi protein dan rekayasa dengan tegas dijelaskan: “dengan kemampuan pemodelan yang ditingkatkan, [model dasar] dengan demikian diharapkan dapat menyelesaikan sejumlah besar masalah kompleks dalam kedokteran dan biologi molekuler…dengan memanfaatkan ‘pengetahuan konektif,’ tertanam dalam parameter model neural mendalam.”

Meskipun masih banyak pekerjaan yang harus dilakukan di bidang ini dan upaya baru saja dimulai, teknologi ini merupakan gambaran menjanjikan tentang pernikahan antara ilmu biologi dan kecerdasan buatan.