Melihat Siapa-siapa di Kebun Binatang Tahun 2024

2/15: Diperbarui untuk menyertakan Tenstorrent

Sementara kisah kecerdasan buatan Nvidia telah tepatnya menarik perhatian investor, pesaing siap dengan alternatifnya. Bagaimana AMD, Intel, Cerebras, Tenstorrent, Groq, D-Matrix, dan semua Penyedia Layanan Cloud dapat mempengaruhi pasar?

Seperti yang diketahui semua orang yang mengenal tentang kecerdasan buatan, Nvidia memiliki pusat data ketika menyangkut percepatan kecerdasan buatan. Ini bukanlah persaingan yang sengit, dari segi pangsa pasar, perangkat keras, perangkat lunak, dan ekosistem. Tetapi kecerdasan buatan adalah emas, dengan pendapatan sebesar $67 miliar pada tahun 2024 yang akan tumbuh menjadi $119 miliar pada tahun 2027 menurut Gartner, sehingga semua pesaing sedang beralih ke generative AI. AMD MI300 yang baru tampaknya sangat kompetitif, tetapi AMD tidak sendiri dalam mencari emas di tambang AI Nvidia. Mari kita lihat bidangnya, dan menilai pemenang dan pecundangnya.

Lanskap Kompetitif secara singkat
Beberapa tahun lalu kita melihat persaingan yang ramai dari startup yang didanai dengan baik yang menargetkan Nvidia, sebagian besar lanskap persaingan kini telah menyesuaikan kembali rencana produk mereka untuk menargetkan Generative AI, baik untuk inferensi maupun pelatihan, dan beberapa berusaha untuk tidak mengganggu Nvidia. Berikut ini adalah ringkasan siapa-siapa yang merupakan penulis-artikel. Pemain penting di pasar saat ini dengan platform kecerdasan buatan

Dinamika Pasar
Saya telah melihat beberapa analis memproyeksikan bahwa Nvidia hanya memiliki 80% dari pasar. Saya tidak memiliki data untuk membantahnya, tetapi sepertinya agak keliru bagiku. Saya akan menempatkan pangsa mereka lebih dekat ke 90% atau lebih dalam percepatan kecerdasan buatan pusat data pada akhir tahun ini. Mengapa? Jika AMD “hanya” mencapai perkiraan pendapatan atas garis Lisa Su yang lebih baru pada tahun 2024 sebesar $3,5 miliar, itu sekitar pangsa 5%. Saya menduga sisanya akan berada di antara $2-3 milia secara keseluruhan, setidaknya. Di sinilah saya mendapatkan 90% untuk Nvidia SETELAH tahun ini. (Saya yakin AMD akan melampaui angka 2024 sebesar setidaknya satu miliar lagi, mungkin dua.)

Beberapa catatan:
NVIDIA
Apa yang bisa kita katakan kecuali mencatat bahwa pemimpin dalam kecerdasan buatan telah melipatgandakan rencana mereka tentang chip baru, hasil yang mungkin dari menggunakan kecerdasan buatan untuk mempercepat desain chip. Jangan lewatkan GTC, yang akan datang bulan depan. Saya akan berada di sana dan akan meliput acara tersebut jika Anda tidak dapat hadir!

AMD
Setelah aku menciptakan sedikit keributan menyangkal klaim peluncuran AMD, insinyur AMD telah mengulang beberapa benchmark dan sekarang mereka terlihat bahkan lebih baik. Tetapi sampai mereka menunjukkan hasil yang ditinjau oleh rekan sejawat dari MLPerf, dan / atau pendapatan konkret, saya akan memperkirakan mereka berada dalam wilayah yang sama seperti H100, tidak jauh lebih baik. HBM3e yang lebih besar dari MI 300 akan memposisikan AMD sangat baik untuk pasar inferensi di cloud dan perusahaan. Perangkat lunak dan model AMD untuk LLM telah mendapatkan banyak pujian belakangan ini, dan kita curiga setiap CSP dan hyperscaler sekarang menguji chip tersebut, di luar Cina. AMD harus bisa mengakhiri tahun dengan kokoh di posisi #2 dengan banyak ruang untuk tumbuh di tahun ’25 dan ’26. $10 miliar tentu saja mungkin.

SambaNova dan Groq
SambaNova dan Groq lebih fokus sekarang daripada, katakanlah, dua tahun lalu, berkonsentrasi pada pelatihan dan inferensi sebagai layanan, masing-masing. Kinerja inferensi Groq untuk Llama2 70B sungguh mengejutkan, hingga sekitar 10 kali lipat dari Nvidia, meskipun klaim ini memerlukan verifikasi yang dapat datang dari benchmark yang ditinjau oleh rekan sejawat seperti MLPerf. Tetapi saya terpesona oleh demo mereka.

Faktanya, Mesin Inferensi LPU™ Groq melebihi semua penyedia inferensi berbasis awan lainnya hingga 18x lebih cepat untuk throughput output token.

Groq dengan mudah mengalahkan sejumlah platform inferensi GPU (Nvidia) hingga 14 kali lipat, mengukur throughputnya. (# dari token) per detik dari model parameter Llama 2 70B,

Pemimpin LLMPerfBoard

Adalah kebetulan, artificialAnalysis.ai baru saja mempublikasikan benchmark baru yang memamerkan kinerja inferensi dari Groq dan lebih banyak di sini. Berikut adalah grafik menakjubkan yang keluar tepat ketika saya sedang mempublikasikan ini…

Mereka baru-baru ini mempublikasikan hasil ini dan lainnya. Mereka harus mengubah sumbu untuk memasukkan Groq!

artifisialasio.ai

SambaNova meluncurkan chip generasi berikutnya SN40 mereka pada musim gugur lalu, dan sekarang menawarkan akses ke itu sebagai layanan, dengan pengiriman rak untuk implementasi on-prem datang lebih menjelang tahun ini. Jujur, mereka memiliki cerita yang bagus, tetapi saya merasa bahwa keopakan mereka membuat saya tidak nyaman. Dan untuk sukses dalam pelatihan, mereka harus melakukannya lebih baik dibanding Nvidia. Dan AMD. Dan Intel. Dan Cerebras. Benchmark? Pelanggan? Tolong!

SambaNova sistem ini dikirim ke Laboratorium Nasional Argonne pada tahun 2022.

CerebrasPerusahaan Wafer-scale Engine (WSE) yang sangat berani di bawah kepemimpinan andrew Feldman terus mendapat kerjasama tahun ini, memenangkan kontrak dengan Klinik Mayo untuk ditambahkan pada kemenangan farmasi lainnya dan G42 Cloud. Perhatikan mereka dengan seksama; pada dugaan $2 juta setiap eksemplar, sistem terintegrasi mereka mungkin adalah yang paling cepat di pasar (mereka harus mempublikasikan MLPerf). Salah satu hal yang saya sukai tentang WSE adalah bahwa, secara keseluruhan, memiliki sejumlah besar SRAM memory untuk mendukung model bahasa besar tanpa perlu melakukan penyesuaian. Ketika Anda perlu untuk melakukan penyesuaian, kompilator Cerebras membuatnya sangat sederhana dibandingkan dengan gimnastik kode yang dibutuhkan untuk plateform yang lebih kecil.

Sebagai salah satu startup kecerdasan buatan yang paling sukses, percepatan kecerdasan buatan memiliki uang tunai untuk terus tumbuh dan berkembang. Dan mereka memiliki uang tunai untuk merancang WSE-3, yang kemungkinan akan diumumkan pada paruh pertama tahun 2024.

Intel
Hal yang menjadi kendala Intel saat ini dalam kecerdasan buatan adalah bahwa semua orang menunggu Gaudi3, penerus yang akan datang, duh, Gaudi2. Gaudi2 terlihat cukup bagus, sebenarnya, tetapi AMD, yang mengambil kekuatan apa pun yang dikumpulkan dalam layarnya dan penjualannya. Saat ini, sangat sedikit yang diketahui tentang Gaudi3 kecuali apa yang Pat Gelsinger klaim sebagai peningkatan performa 4X dan pita lebar jaringan 2X. Tidak cukup detail untuk memperkirakan G3, tetapi saya memperkirakan mereka akan berada di posisi #3 pada akhir tahun 2024 jika, dan hanya jika mereka bisa mendapatkan G3 diumumkan SEGERA. Jika tidak, saya pikir Cerebras akan berakhir di posisi 2004 ke-3, dengan pendapatan jauh lebih dari $1 miliar.

Intel Gaudi3 mulai terlihat sebagai kejadian terlambat 2024, yang nyaris pasti akan menjamin AMD mendapat posisi #2 yang kuat di pasar. Sementara itu, Intel masih menikmati keunggulan yang signifikan dari AMD dalam kinerja kecerdasan buatan Xeon server CPU-nya untuk pemrosesan inferensi, sebuah kesenjangan yang kemungkinan akan diupayakan ditutupi AMD akhir tahun ini.

Qualcomm
Mesin inferensi Qualcomm Cloud AI100 mendapat perhatian yang diperbaharui dengan platform Ultra barunya, yang memberikan performa 4 kali lebih baik untuk generative AI. Belakangan ini dipilih oleh HPE dan Lenovo untuk server tepi pintar, serta Cirrascale dan bahkan AWS cloud. AWS meluncurkan turunan Snapdragon yang efisien daya untuk instansi inferensi dengan performa harga hingga 50% lebih baik untuk model inferensi – dibandingkan dengan instansi Amazon EC2 berbasis unit pemrosesan grafis (GPU) generasi saat ini. Mengingat AWS memiliki akselerator Interentia sendiri, itu memberi kesan bahwa pembuat cloud melihat kebutuhan pasar untuk Qualcomm. Saya terus bertanya-tanya bahwa kapan dan jika Qualcomm akan mengumumkan pengganti Cloud AI100, tetapi akan terkejut jika kita tidak melihat versi terbaru lebih menjelang tahun ini.

Peningkatan Peran Penyedia Layanan Cloud sebagai desainer chip internal
Sementara chip AMD dan Intel terlihat baik, ancaman kompetitif terbesar Nvidia kemungkinan akan datang dari pelanggan terbesarnya: perusahaan hyperscale. Dari CSPs, Google memiliki keunggulan yang jelas, dengan TPU V5p yang baru dan permintaan besar di dalamnya untuk mesin AI. Platform Google Cloud telah membangun klaster Nvidia H100 yang besar yang scala hingga 26.000 GPU untuk melayani klien di cloud-nya. Tetapi aplikasi Google akan terus menggunakan ekosistem TPU internal, ditingkatkan oleh TPU V5P yang baru (P untuk performa) dan “hypercomputer”-nya, yang memberikan dua kali lipat bandwidth dari TPU V4, dan digunakan untuk pelatihan dan memberikan pemrosesan inferensi untuk layanan baru Google Gemini LLM dan chat, yang telah menggantikan Bard.

Microsoft menyelesaikan triumvirat akselerator AI cloud in-house akhir tahun lalu saat mereka meluncurkan “Maia”, alternatifnya untuk GPU Nvidia. Meskipun saya belum melihat benchmark, ada alasan yang mengharuskan mereka belajar sesuatu tentang percepatan LLM dari kemitraan dengan OpenAI, dan saya mengharapkan bahwa Maia akan menjadi sukses di dalam Azure dalam melakukan banyak siklus CoPilot.

Sementara itu, Amazon AWS terus memperbaiki platform pelatihan dan inferensi in-house mereka, yang disebutnya Inferentia dan Trainium. Trainium2 memberikan peningkatan pelatihan empat kali lipat dan sekarang dilengkapi dengan 96 GB HBM. Sekali lagi, kurangnya benchmark yang berarti menjijikkan rumah ini. Dan daftar pelanggan di situs AWS termasuk sebagian besar nama perusahaan yang tidak mengenal bel. Ini akan berubah, dengan penggunaan internal perusahaan dari kedua chip yang dapat membantu AWS memperbaiki perangkat lunak dalam uji coba ganda dan tentu amenarik hardware versi baru pastinya lebih baik dari upayanya AWS lebih awal.

Tenstorrent
Tenstorrent bergeser dari strategi AI-only untuk menjadi pemain yang lebih luas dalam menyediakan IP, chip, dan chiplets ke mitra yang membangun solusi kustom khusus. Perusahaan telah mengumumkan keberhasilan termasuk LG dan Hyundai, serta mendapat investasi sekitar $350 juta. Jim Keller, dia tidak suka disebut “legendaris”, jadi aku juga tidak akan ;-), telah membawa perspektif segar kebisnis ketika dia menjadi CEO pada Januari 2023, menambahkan keahlian desain chipnya dan kepemimpinannya ke dalam tim.

Tenstorrent terdapat dalam perubahan besar dalam semikonduktor, terutama dalam fokus mereka memberikan IP kepada perusahaan yang membangun Chip kustom, seperti LG dan Hyundai pada televisi dan mobilmobil. Sebagai penganut kuat RISC-V open source, Keller melihat bahwa menggabungkan RISC-V, AI, dan Chiplets akan menciptakan peluang besar yang memanfaatkan diferensiasi unik mereka: performa, efisiensi, dan fleksibilitas.

Kesimpulan
Seperti yang Anda lihat, lanskap ini berkembang dengan cepat dengan vendor silicon besar, startup, dan Hyperscaler semua meningkatkan chip AI mereka untuk mendapatkan potongan emas dari serunya kecerdasan buatan. Tetapi perbandingan sulit, apalagi dengan vendor yang lebih memilih opak daripada lapangan bermain terbuka. Sementara kita tidak mengharapkan AMD dan AWS untuk memproduksi MLPerf benchmarks, kita akan terkejut jika Google tidak, begitu juga dengan Intel setelah Gaudi3 siap. Benchmark MLPerf baru diharapkan akan dirilis bulan depan.

Salah satu perkembangan yang paling menarik untuk diikuti adalah berita dari Reuters bahwa Nvidia akan mulai bermitra untuk mengaktifkan chip kustom, yang dapat membantu mereka berkembang bahkan ketika perusahaan hyper scaler dan perusahaan mobil membangun alternatif kustom internal mereka sendiri untuk GPU Nvidia.