Claude 3 dari AI Unicorn Anthropic Dirilis, Klaim Bisa Mengalahkan OpenAI (Google Translate) Claude 3 dari AI Unicorn Anthropic Dirilis, Klaim Bisa Mengalahkan OpenAI

Bersama ini kami umumkan rilisnya model bahasa besar baru yang kami klaim sebagai yang paling cerdas di dunia saat ini, mengungguli penawaran dari OpenAI dan Google. Diberi nama Claude 3, model baru dari Anthropic ini hadir dalam tiga versi – Opus, Sonnet, dan Haiku – yang berbeda dalam performa dan harga. Opus, versi paling kuat dan paling mahal dari ketiganya, berhasil mengungguli GPT-4 milik OpenAI dan Gemini 1.0 Ultra milik Google dalam serangkaian tes yang mengukur kecerdasan, demikian perusahaan mengatakan. Opus dan Sonnet, versi menengah, telah tersedia sejak hari Senin, sementara Haiku akan dirilis pada tanggal yang akan diumumkan kemudian.

Dalam sebuah wawancara, pendiri dan CEO Dario Amodei mengatakan bahwa keluarga model ini didesain dengan berbagai kasus penggunaan bisnis dalam pikiran. “Claude 3 Opus, setidaknya menurut evaluasi, dalam banyak hal merupakan model terbaik di dunia dalam berbagai tugas,” tambahnya.

Pada sejumlah subjek uji populer termasuk pengetahuan umum tingkat sarjana (MMLU), matematika sekolah dasar (GSM8K), kode komputer (HumanEval), dan pengetahuan pertanyaan dan jawaban (ARC-Challenge), Claude 3 Opus berhasil mengungguli GPT-4 milik OpenAI dan Gemini 1.0 Ultra milik Google, berdasarkan hasil tes yang perusahaan bagikan. Pada tes pengetahuan umum, Claude 3 Opus juga berhasil melebihi Mistral Large, model teratas yang dirilis oleh Mistral, perusahaan AI open-source unicorn, yang dirilis minggu lalu.

Versi dari Claude 3 yang akan ditampilkan oleh sebagian besar pengguna, Claude 3 Sonnet, sebanding lebih baik dengan GPT-4: unggul dalam beberapa tes, kalah dalam tes lainnya. Dan Amodei mengakui bahwa tes Anthropic tidak memasukkan pembaruan terbaru dari OpenAI dan Google (GPT-4 Turbo dan Gemini 1.5 Pro) karena rekan-rekan mereka belum mempublikasikan evaluasi tes yang sesuai. “Saya akan terkejut jika kami tidak tampil kompetitif,” tuturnya.

Dengan biaya $15 per juta token input – setara dengan teks 2.500 halaman buku – dan $75 per juta token output, Claude 3 Opus lebih mahal dari versi pratinjau GPT-4 Turbo milik OpenAI, yang masing-masing biayanya $10 dan $30 per juta token. Amodei dan rekan pendiri dan saudara perempuannya, Daniela Amodei, mengatakan kepada Forbes bahwa mereka memperkirakan Opus akan digunakan oleh bisnis yang membutuhkan performa terkini untuk fungsi seperti analisis data kompleks dan penelitian biomedis.

Di sisi lain, Claude 3 Sonnet – yang harganya lima kali lebih murah – lebih sesuai untuk sebagian besar tugas, tambah mereka, dengan penggunaannya mulai dari pencarian dan pengambilan data di gudang data besar, ramalan penjualan, pemasaran yang ditargetkan, hingga pembangkitan kode.

Model paling murah, Claude 3 Haiku, akan menawarkan harga yang jauh lebih murah, berguna untuk interaksi langsung dengan pelanggan, moderasi konten, dan manajemen inventaris logistik. Versi Haiku ini tetap unggul sejajar dengan model andalan sebelumnya dari Claude 2, model pendahulunya yang dirilis delapan bulan yang lalu, ungkap Dario Amodei: “Model ini sangat kompetitif dengan model lain dalam kelas yang sama. Ini adalah kemajuan besar.”

Performa uji benchmark yang dilaporkan oleh Anthropic menempatkan Claude 3 Opus di posisi terdepan mengungguli pesaing seperti GPT-4 milik OpenAI. Semua tiga model akan memungkinkan prompts hingga 200.000 token (sekitar ukuran buku), lebih besar dari 128.000 yang didukung oleh GPT-4 Turbo. Pengguna Opus akan bisa meminta batas 1 juta token untuk beberapa kegunaan, kata Anthropic, menyamai batas yang pernah ditawarkan Google kepada beberapa pengguna dari Gemini 1.5 Pro.

Dibentuk oleh tujuh peneliti yang mundur dari OpenAI, Anthropic dari awal telah bertujuan untuk membedakan diri dari pendahulunya dan perusahaan-perusahaan lain di bidang ini melalui fokus yang lebih dalam pada keselamatan AI. Beberapa kalangan industri bertanya-tanya apakah hal ini telah melambatkan perusahaan dan mempertanyakan performa modelnya dalam beberapa bulan terakhir, termasuk di media sosial. Dalam peringkat crowdsourced populer dari evaluator manusia, Claude 1 saat ini mendapatkan rating lebih tinggi dibandingkan dengan penerusnya, Claude 2.0 dan Claude 2.1 yang telah diupdate.

Dario Amodei menganggap rendah rating tersebut hanya sebagai evaluasi manusia dari jumlah tugas yang terbatas. Ia mengakui bahwa meskipun Claude 2 lebih aman daripada pendahulunya dalam cara yang memuaskan para peneliti Anthropic, hal tersebut datang dengan biaya “penolakan yang salah”, atau penolakan prompts yang dipercayai model terlalu dekat dengan penghalang keamanannya. Keluarga Claude 3 tampil jauh lebih baik daripada pendahulunya dalam menghindari penolakan-penolakan tersebut, klaim Anthropic. Prompts yang tidak berbahaya yang mirip dengan batas keamanannya biasanya ditolak sekitar 10% dari waktu, dibandingkan dengan 25% untuk Claude 2.1. “Kini kami membuat kemajuan menuju keseimbangan yang lebih baik antara keduanya, sesuatu yang mendapatkan yang terbaik dari dua dunia,” kata Amodei. “Sangat sulit untuk menarik batas kompleks dengan cara yang benar. Kami selalu berusaha untuk melakukannya dengan lebih baik.”

Sementara perusahaan seperti Inflection, Character.AI, dan bahkan OpenAI lebih fokus pada kasus penggunaan konsumen, Anthropic lebih fokus pada pelanggan bisnis. Pengguna dari chatbot konsumen gratis mereka, juga bernama Claude, sekarang akan mendapatkan akses ke Sonnet, sementara individu yang ingin mencoba Opus harus berlangganan versi berbayar seharga $20 per bulan. Namun, perilisan Claude 3 lebih ditujukan untuk kasus penggunaan bisnis, kata Daniela Amodei. Para pelanggan Claude termasuk perusahaan teknologi Gitlab, Notion, Quora, dan Salesforce (sebagai investor Anthropic); raksasa keuangan Bridgewater dan konglomerat SAP, serta portal penelitian bisnis LexisNexis, telekomunikasi SK Telecom, dan Dana-Farber Cancer Institute.

Di antara pengguna tes awal dari Claude 3, perusahaan perangkat lunak produktivitas Asana menemukan peningkatan 42% dalam waktu respon awal, kata eksekutif fokus AI Eric Pelz dalam pernyataan. Perusahaan perangkat lunak lain, Airtable, mengatakan bahwa mereka telah mengintegrasikan Claude 3 Sonnet ke dalam alat AI mereka sendiri untuk membantu dengan penciptaan konten lebih cepat dan ringkasan data.

Terkait dengan biaya yang diperlukan untuk melatih Claude 3 – berapa banyak komputasi, dan seberapa lama – para pendiri Anthropic menolak untuk memberikan informasi. Meskipun Claude 2 dirilis bulan Juli lalu, Amodei mengatakan bahwa tidak semuanya begitu, karena perusahaan kadang melatih beberapa model sekaligus, tergantung pada ketersediaan klaster unit pemrosesan grafis, atau GPU.

Anthropic – yang baru-baru ini mengumpulkan $750 juta dengan valuasi $18,4 miliar, seperti dilaporkan oleh Forbes – berencana untuk menambahkan fitur-fitur termasuk interpretasi kode, fungsi pencarian, dan kutipan sumber dalam beberapa bulan mendatang. “Kami akan terus meningkatkan model-model kami dan membuatnya lebih cerdas, tetapi juga terus berupaya untuk membuat model-model yang lebih kecil dan lebih murah menjadi lebih pintar dan efisien,” kata Amodei. “Akan ada pembaruan-pembaruan besar dan kecil sepanjang tahun.”