OpenAI Mengungkapkan ChatGPT Baru yang Mendengarkan, Melihat, dan Berbicara

Saat Apple dan Google mengubah asisten suara mereka menjadi chatbot, OpenAI sedang mengubah chatbotnya menjadi asisten suara.

Pada hari Senin, start-up kecerdasan buatan San Francisco memperkenalkan versi baru dari chatbot ChatGPT yang dapat menerima dan merespons perintah suara, gambar, dan video.

Perusahaan mengatakan aplikasi baru ini — berdasarkan sistem kecerdasan buatan bernama GPT-4o — dapat menangani audio, gambar, dan video secara signifikan lebih cepat daripada versi sebelumnya dari teknologi tersebut. Aplikasi ini akan tersedia mulai hari Senin, gratis, untuk smartphone dan komputer desktop.

“Kami sedang melihat masa depan interaksi antara diri kita dan mesin,” kata Mira Murati, kepala teknologi perusahaan.

Aplikasi baru ini adalah bagian dari upaya lebih luas untuk menggabungkan chatbot percakapan seperti ChatGPT dengan asisten suara seperti Google Assistant dan Siri milik Apple. Saat Google menggabungkan chatbot Gemini-nya dengan Google Assistant, Apple sedang mempersiapkan versi baru Siri yang lebih percakapan.

OpenAI mengatakan bahwa mereka akan secara bertahap berbagi teknologi ini dengan pengguna “dalam beberapa minggu mendatang.” Ini adalah pertama kalinya mereka menawarkan ChatGPT sebagai aplikasi desktop.

Perusahaan sebelumnya menawarkan teknologi serupa dari dalam berbagai produk gratis dan berbayar. Sekarang, mereka menggabungkannya menjadi satu sistem yang tersedia di semua produk mereka.

Selama acara yang disiarkan secara daring, Ny. Murati dan rekan-rekannya memperlihatkan aplikasi baru itu saat merespons perintah suara percakapan, menggunakan feed video langsung untuk menganalisis soal matematika yang ditulis pada selembar kertas dan membacakan cerita lucu yang dibuatnya dengan cepat.

Aplikasi baru ini tidak dapat menghasilkan video. Namun, ia dapat menghasilkan gambar diam yang mewakili rangkaian video.

Dengan debut ChatGPT pada akhir 2022, OpenAI menunjukkan bahwa mesin dapat menangani permintaan seperti manusia. Dalam merespons instruksi teks percakapan, ia dapat menjawab pertanyaan, menulis makalah, dan bahkan menghasilkan kode komputer.

ChatGPT tidak didorong oleh seperangkat aturan. Ia mempelajari kemampuannya dengan menganalisis jumlah teks besar yang dikumpulkan dari internet, termasuk artikel Wikipedia, buku, dan log percakapan. Para ahli memuji teknologi ini sebagai alternatif mungkin untuk mesin pencari seperti Google dan asisten suara seperti Siri.

Versi-versi terbaru dari teknologi ini juga belajar dari suara, gambar, dan video. Para peneliti menyebut hal ini sebagai “A.I. multimodal.” Pada dasarnya, perusahaan seperti OpenAI mulai menggabungkan chatbot dengan pembuat gambar, audio, dan video berbasis A.I.

(The New York Times menggugat OpenAI dan mitranya, Microsoft, pada bulan Desember, atas klaim pelanggaran hak cipta konten berita terkait sistem A.I.)

Saat perusahaan menggabungkan chatbot dengan asisten suara, masih banyak rintangan yang harus diatasi. Karena chatbot mempelajari kemampuannya dari data internet, mereka rentan membuat kesalahan. Terkadang, mereka bahkan membuat informasi palsu sepenuhnya — fenomena yang disebut peneliti A.I. sebagai “halusinasi.” Kelemahan-kelemahan tersebut bermigrasi ke dalam asisten suara.

Sementara chatbot dapat menghasilkan bahasa yang meyakinkan, mereka kurang terampil dalam melakukan tindakan seperti menjadwalkan pertemuan atau memesan penerbangan pesawat. Namun, perusahaan seperti OpenAI sedang berusaha untuk mengubahnya menjadi “agen A.I.” yang dapat mengatasi tugas-tugas semacam itu dengan handal.

OpenAI sebelumnya menawarkan versi ChatGPT yang dapat menerima perintah suara dan merespons dengan suara. Namun, itu adalah gabungan dari tiga teknologi A.I. yang berbeda: satu yang mengonversi suara menjadi teks, satu yang menghasilkan respons teks, dan satu yang mengonversi teks ini menjadi suara sintetis.

Aplikasi baru ini didasarkan pada teknologi A.I. tunggal — GPT-4o — yang dapat menerima dan menghasilkan teks, suara, dan gambar. Ini berarti teknologi tersebut lebih efisien, dan perusahaan dapat menyediakannya kepada pengguna secara gratis, kata Ny. Murati.

“Sebelumnya, Anda memiliki semua latensi ini yang merupakan hasil dari tiga model bekerja bersama,” kata Ny. Murati dalam wawancara dengan The Times. “Anda ingin memiliki pengalaman yang kami alami — di mana kami dapat memiliki dialog yang sangat alami.”