Penelitian Menunjukkan Data untuk Pelatihan A.I. Sedang Menghilang dengan Cepat

Selama bertahun-tahun, orang-orang yang membangun sistem kecerdasan buatan yang kuat telah menggunakan gudang besar teks, gambar, dan video yang diambil dari internet untuk melatih model mereka. Sekarang, data tersebut mulai habisnya. Menurut sebuah studi yang diterbitkan minggu ini oleh Data Provenance Initiative, sebuah kelompok penelitian yang dipimpin oleh M.I.T., banyak sumber web yang paling penting yang digunakan untuk melatih model A.I. telah membatasi penggunaan data mereka selama tahun terakhir. Studi tersebut menemukan adanya “krisis persetujuan yang muncul,” karena penerbit dan platform online telah mengambil langkah-langkah untuk mencegah data mereka diambil. Para peneliti memperkirakan bahwa dalam tiga set data tersebut – yang disebut C4, RefinedWeb, dan Dolma, 5 persen dari semua data, dan 25 persen dari data dari sumber-sumber berkualitas tertinggi, telah dibatasi. Batasan-batasan tersebut disusun melalui Protokol Penolakan Robot, sebuah metode yang telah ada selama puluhan tahun bagi pemilik situs web untuk mencegah bot otomatis merayapi halaman mereka menggunakan file yang disebut robots.txt. Studi ini juga menemukan bahwa sebanyak 45 persen data dalam satu set data, C4, telah dibatasi oleh syarat-syarat layanan situs web. “Kami melihat penurunan pesat dalam persetujuan menggunakan data di seluruh web yang akan memiliki dampak tidak hanya bagi perusahaan A.I., tetapi juga bagi peneliti, akademisi, dan entitas nonkomersial,” kata Shayne Longpre, penulis utama studi, dalam sebuah wawancara. Data adalah bahan utama dalam sistem A.I. generatif saat ini, yang diberi makan miliaran contoh teks, gambar, dan video. Banyak data itu diambil dari situs web publik oleh para peneliti dan dikompilasi dalam set data besar, yang dapat diunduh dan digunakan secara bebas, atau ditambah dengan data dari sumber lain. Belajar dari data itu adalah yang memungkinkan alat A.I. generatif seperti ChatGPT dari OpenAI, Gemini dari Google, dan Claude dari Anthropic untuk menulis, mengode, dan menghasilkan gambar dan video. Semakin banyak data berkualitas tinggi yang dimasukkan ke dalam model ini, biasanya semakin baik hasilnya. Selama bertahun-tahun, pengembang A.I. dapat mengumpulkan data dengan cukup mudah. Namun, ledakan A.I. generatif dalam beberapa tahun terakhir telah menyebabkan ketegangan dengan pemilik data tersebut – banyak di antaranya memiliki keraguan tentang digunakan sebagai pakan pelatihan A.I., atau setidaknya ingin dibayar atasnya. Seiring berkembangnya protes, beberapa penerbit telah mendirikan paywall atau mengubah syarat layanan mereka untuk membatasi penggunaan data mereka untuk pelatihan A.I. Yang lain telah memblokir perayap web otomatis yang digunakan oleh perusahaan seperti OpenAI, Anthropic, dan Google. Situs seperti Reddit dan StackOverflow telah mulai mengenakan biaya kepada perusahaan A.I. untuk mengakses data, dan beberapa penerbit telah mengambil tindakan hukum – termasuk The New York Times, yang menggugat OpenAI dan Microsoft atas pelanggaran hak cipta tahun lalu, dengan tuduhan bahwa perusahaan menggunakan artikel berita untuk melatih model mereka tanpa izin. Perusahaan seperti OpenAI, Google, dan Meta telah melakukan upaya ekstrim dalam beberapa tahun terakhir untuk mengumpulkan lebih banyak data untuk meningkatkan sistem mereka, termasuk menuliskan ulang video YouTube dan meluruskan kebijakan data mereka sendiri. Baru-baru ini, beberapa perusahaan A.I. telah membuat kesepakatan dengan penerbit termasuk The Associated Press dan News Corp, pemilik The Wall Street Journal, memberi mereka akses terus-menerus ke konten mereka. Namun, pembatasan data secara luas bisa menjadi ancaman bagi perusahaan A.I., yang membutuhkan pasokan data berkualitas tinggi yang stabil untuk menjaga model mereka tetap segar dan terbaru. Mereka juga dapat menimbulkan masalah bagi perusahaan A.I. kecil dan peneliti akademis yang mengandalkan set data publik, dan tidak mampu untuk mendapatkan lisensi data langsung dari penerbit. Common Crawl, salah satu set data seperti itu yang terdiri dari miliaran halaman konten web dan dipelihara oleh organisasi nirlaba, telah dikutip dalam lebih dari 10.000 studi akademis, kata Longpre. Belum jelas produk A.I. populer mana yang telah dilatih dengan menggunakan sumber-sumber tersebut, karena sedikit pengembang yang mengungkapkan daftar data yang mereka gunakan. Tetapi set data yang berasal dari Common Crawl, termasuk C4 ( yang merupakan singkatan dari Colossal, Cleaned Crawled Corpus) telah digunakan oleh perusahaan seperti Google dan OpenAI untuk melatih versi sebelumnya dari model mereka. Perwakilan dari Google dan OpenAI menolak berkomentar. Yacine Jernite, seorang peneliti pembelajaran mesin di Hugging Face, sebuah perusahaan yang menyediakan alat dan data untuk pengembang A.I., menggambarkan krisis persetujuan sebagai respons alami terhadap praktik pengumpulan data A.I. industri yang agresif. “Tidak mengherankan, kita melihat reaksi balik dari pencipta data setelah teks, gambar, dan video yang mereka bagikan online digunakan untuk mengembangkan sistem komersial yang kadang-kadang langsung mengancam mata pencaharian mereka,” katanya. Tetapi dia memperingatkan bahwa jika semua data pelatihan A.I. perlu diperoleh melalui kesepakatan lisensi, itu akan mengecualikan “peneliti dan masyarakat sipil dari berpartisipasi dalam tata kelola teknologi.” Stella Biderman, direktur eksekutif EleutherAI, sebuah organisasi penelitian A.I. nirlaba, mengulangi ketakutan tersebut. “Perusahaan teknologi besar sudah memiliki semua data,” katanya. “Mengubah lisensi pada data tidak secara retroaktif mencabut izin tersebut, dan dampak utamanya adalah pada para pelaku yang tiba kemudian, yang pada umumnya adalah perusahaan start-up kecil atau peneliti.” Perusahaan A.I. telah mengklaim bahwa penggunaan data web publik mereka dilindungi hukum berdasarkan penggunaan yang adil. Namun, mengumpulkan data baru telah semakin sulit. Beberapa eksekutif A.I. yang saya wawancarai khawatir tentang mencapai “dinding data” – istilah mereka untuk titik di mana semua data pelatihan di internet publik telah habis, dan sisanya disembunyikan di balik paywall, diblokir oleh robots.txt, atau dikunci dalam kesepakatan eksklusif. Beberapa perusahaan percaya bahwa mereka dapat melewati dinding data dengan menggunakan data sintetis – yaitu data yang dihasilkan oleh sistem A.I. itu sendiri – untuk melatih model mereka. Tetapi banyak peneliti meragukan bahwa sistem A.I. saat ini mampu menghasilkan cukup data sintetis berkualitas tinggi untuk menggantikan data yang dibuat oleh manusia yang mereka kehilangan. Tantangan lain adalah bahwa sementara penerbit bisa mencoba menghentikan perusahaan A.I. dari merayap data mereka dengan menempatkan batasan dalam file robots.txt mereka, permintaan tersebut tidak mengikat secara hukum, dan kepatuhan bersifat sukarela. (Bayangkan itu seperti tanda “tidak boleh masuk” untuk data, tetapi satu tanpa kekuatan hukum.) Mesin pencari utama menghormati permintaan keluar ini, dan beberapa perusahaan A.I. terkemuka, termasuk OpenAI dan Anthropic, telah mengatakan secara terbuka bahwa mereka juga melakukannya. Tetapi perusahaan lain, termasuk mesin pencari berbasis A.I. Perplexity, telah dituduh mengabaikannya. Chief executive Perplexity, Aravind Srinivas, mengatakan bahwa perusahaan menghormati pembatasan data penerbit. Dia menambahkan bahwa sementara perusahaan dulu bekerja dengan perayap web pihak ketiga yang tidak selalu mengikuti Protokol Penolakan Robot, mereka telah “mengatur ulang dengan penyedia kami untuk memastikan bahwa mereka mengikuti robots.txt saat merayap atas nama Perplexity.” Longpre mengatakan bahwa salah satu pelajaran besar dari studi ini adalah bahwa kita membutuhkan alat baru untuk memberikan pemilik situs web cara yang lebih tepat untuk mengontrol penggunaan data mereka. Beberapa situs mungkin keberatan dengan gigabes A.I. menggunakan datanya untuk melatih chatbot untuk keuntungan, tetapi mungkin bersedia membiarkan lembaga nirlaba atau pendidikan menggunakan data yang sama, katanya. Saat ini, tidak ada cara yang baik bagi mereka untuk membedakan antara penggunaan tersebut, atau memblokir satu sambil memungkinkan yang lain. Tetapi ada juga pelajaran di sini bagi perusahaan A.I. besar, yang telah memperlakukan internet sebagai “meja prasmanan data sepuasnya” selama bertahun-tahun, tanpa memberikan pemilik data nilai yang berarti sebagai imbalan. Pada akhirnya, jika Anda memanfaatkan web, web akan mulai menutup pintunya.