Sistem terbaru dari Cerebras dapat mengatasi masalah AI generatif dengan multi-triliun parameter pada dua kali performa dari pendahulunya, sementara bermitra dengan Qualcomm akan membantu mereka memotong biaya pemrosesan inferensi sebanyak 10X.
Cerebras Systems, startup inovatif yang mesin AI skala wafer mereka telah mendapatkan pengikut pelanggan yang signifikan dan ratusan juta dolar dalam pendapatan, telah meluncurkan senjata terbarunya dalam persaingan dengan Nvidia dan siapa pun yang menghalangi jalannya. Sistem baru CS3, yang ketiga dalam prosesor AI skala wafer komersial satu-satunya di industri, dibangun dengan proses TSMC 5nm dan tersedia segera. Perusahaan juga bermitra dengan Qualcomm, mengoptimalkan output dari CS3 untuk memotong biaya inferensi dengan teknologi yang dikembangkan bersama.
CEO Cerebras Andrew Feldman berdiri di atas peti sistem yang menuju ke pelanggan. Cerebras Systems
Tidak adil untuk membandingkan sebuah wafer chip dengan satu GPU Nvidia, tetapi jika Anda melakukannya, Anda akan segera melihat keunggulan dari tidak memotong wafer menjadi chip-chip individu yang kemudian dihubungkan kembali melalui CPU dan jaringan. Kepadatan komputasi dan memori melebihi batas, dengan 900.000 inti AI dan 44 GB memori on-wafer cepat (~10X HBM). Memori tambahan untuk masalah AI besar disediakan dalam parameter server MemoriX terpisah.
CS3 baru menawarkan dua kali performa, dengan footprint yang sama, pada daya yang sama, dengan biaya yang sama sebagai CS2. Cerebras Systems
Empat triliun transistor pada WSE-3 terhubung melintasi wafer, secara dramatis mempercepat waktu pemrosesan untuk AI generatif. Dan tumpukan perangkat lunak Cerebras memungkinkan masalah AI untuk berskala efisien di seluruh cluster CS3 (sistem lengkap yang menampung wafer) dengan usaha pengembangan yang hanya sebagian dari yang diperlukan untuk mendistribusikan masalah di sepanjang klaster akselerator. Chip yang lebih cepat, klaster yang lebih cepat, dan waktu penyebaran AI yang jauh lebih cepat telah membantu Cerebras mendapatkan dukungan dari organisasi seperti Mayo Clinic dan Glaxo-Smith Klein.
CS-3 dibangun dengan menggunakan jalur manufaktur TSMC 5nm. Cerebras Systems
AI besar membutuhkan memori besar. Pada klaster berbasis GPU, itu berarti menggunakan modul Memori Bandwidth Tinggi (HBM) yang mahal dan penumpukan chip 3D, yang memperlambat dan mempersulit rantai pasokan. Pada klaster CS3 Cerebras, itu berarti melengkapi SRAM on-wafer yang lebih cepat dengan server memori yang disebut MemoriX, yang menyajikan parameter dari perangkat sebesar 2.4 Petabyte. Hasilnya adalah AI yang lebih cepat dan lebih besar dalam satu rak dibandingkan dengan klaster lebih dari 10.000 GPU atau Google TPU.
SISTEM CS-3 TUNGGAL dapat melatih model AI yang lebih besar dibandingkan dengan klaster 10.000 GPU. Cerebras Systems
Cerebras telah bekerja sama dengan G42 berbasis UAE untuk membangun jaringan terdistribusi yang akan segera memiliki sembilan pusat data penuh dengan teknologi Cerebras. Pusat data berikutnya dari konstelasi, Galaxy 3 Condor, sudah sedang dibangun di Dallas menggunakan server CS-3 baru. Kedua perusahaan ini berada di jalur yang tepat untuk menyelesaikan semua sembilan superkomputer Galaxy pada akhir tahun ini, menciptakan sistem AI massif untuk penggunaan internal G42 dan untuk menyediakan layanan cloud.
Cerebras dan G42 berharap menyelesaikan implementasi dari kesembilan superkomputer Constellation Condor … pada akhir 2024. Cerebras Systems
Kolaborasi dengan Qualcomm
Salah satu keunggulan yang dinikmati Nvidia adalah training yang menyadari inferensi dan pemrosesan pos, di mana output dari jalankan pelatihan dioptimalkan untuk berjalan lebih cepat pada prosesor inferensi tertentu (GPU). Karena Qualcomm dengan cepat menjadi pemimpin industri dalam edge AI, mereka perlu bermitra dengan seseorang (selain Nvidia) untuk merasakan manfaat potensial dari bekerja dengan perusahaan platform pelatihan.
Mesin Skala Wafer menawarkan alternatif unik untuk Nvidia, AMD, Intel, dan Google. Tetapi itu tidak ideal untuk pemrosesan inferensi throughput tinggi yang melayani ribuan pengguna secara bersamaan. Alih-alih memberi tahu pelanggan untuk memilih GPU, Cerebras telah memutuskan untuk berkolaborasi dengan Qualcomm, yang telah mengubah mesin AI Snapdragon menjadi suatu perangkat inferensi, Cloud AI100, yang mengungguli semua vendor lain dalam tes benchmark MLPerf dalam efisiensi energi.
Penelitian AI Qualcomm telah mengembangkan berbagai teknik untuk menyesuaikan model AI besar ke chip Snapdragon seluler. Penelitian ini memungkinkan Cerebras untuk menerapkan tiga pendekatan awal untuk mengoptimalkan model AI untuk pemrosesan inferensi pada Cloud AI100 Ultra miliknya, platform yang telah mendapatkan dukungan dari sejumlah mitra, yang paling baru saja AWS dan HPE. Kedua perusahaan ini telah menerapkan kepadatan, dekoding spekulatif, dan kompresi MX6 ke tumpukan pelatihan pada CS3. Dengan menggunakan teknik ini, Cerebras mampu memberikan output pelatihan yang menyadari target inferensi dari proses pelatihan, menurunkan biaya inferensi sebanyak 10X.
Cerebras mengklaim bahwa dengan mengoptimalkan pelatihan untuk platform inferensi Qualcomm, kedua platform ini dapat mengurangi biaya inferensi sebanyak sepuluh kali lipat Cerebras Systems
Kami selalu berpikir bahwa industri perlu memotong biaya inferensi dengan dua derajat kelipatan pada akhir dekade ini. Sekarang, 10X telah dicapai, jadi saya pikir kami meremehkan kecepatan inovasi.
Dua tim AI bekerja sama untuk membawa 4 optimasi inferensi yang berbeda ke pasar. Cerebras Systems
Dengan bekerjasama, Cerebras dan Qualcomm kini dapat memberikan platform AI kinerja tinggi dari ujung ke ujung, dari pelatihan hingga pemrosesan inferensi. Tanpa Qualcomm, Cerebras harus bermitra dengan Nvidia untuk mencapai hasil yang serupa, kolaborasi yang tidak mungkin untuk dikatakan. Sekarang mereka dapat mengatasi seluruh alur kerja AI pelanggan dengan solusi yang dioptimalkan.
Dengan menggandeng Qualcomm, Cerebras kini dapat mengoptimalkan pemrosesan inferensi serta pelatihan. Cerebras
Kesimpulan
Seiring AI bergerak dari riset menjadi alat yang sangat berharga, dan dari cloud ke edge, alur kerja dari ujung ke ujung perlu dipikirkan secara holistik untuk menghasilkan nilai bisnis. Kedua perusahaan ini telah menunjukkan pemahaman luar biasa tentang dasar AI dan kemampuan untuk secara dapat diandalkan.
Pengungkapan: Artikel ini mengungkapkan opini penulis dan tidak boleh dianggap sebagai saran untuk membeli atau berinvestasi dalam perusahaan yang disebutkan. Cambrian AI Research beruntung memiliki banyak, jika bukan sebagian besar, perusahaan semikonduktor sebagai klien kami, termasuk Blaize, BrainChip, Cadence Design, Cerebras, D-Matrix, Eliyan, Esperanto, FuriosaAI, Graphcore, GML, IBM, Intel, Mythic, NVIDIA, Qualcomm Technologies, Si-Five, SiMa.ai, Synopsys, Ventana Microsystems, Tenstorrent dan puluhan klien investasi lainnya. Kami tidak memiliki posisi investasi dalam salah satu perusahaan yang disebutkan dalam artikel ini dan tidak berencana untuk memulai salah satunya dalam waktu dekat. Untuk informasi lebih lanjut, silakan kunjungi situs web kami di https://cambrian-AI.com.