Bagaimana Artificial Intelligence Meniru Ulasan Restoran

Pizza Putih Kerang di Frank Pepe Pizzeria Napoletana di New Haven, Conn., adalah suatu keajaiban. Kulitnya, disentuh oleh panas intens dari oven berbahan bakar batu bara, mencapai keseimbangan sempurna antara kenyal dan renyah. Dibalut dengan kerang segar, bawang putih, oregano, dan taburan keju parut, itu adalah bukti dari sihir yang dapat diciptakan oleh bahan-bahan sederhana berkualitas tinggi.

Bunyinya seperti saya? Tidak. Seluruh paragraf, kecuali nama pizzeria dan kota, dihasilkan oleh GPT-4 sebagai respons terhadap tugas mudah untuk menulis kritik restoran dalam gaya Pete Wells.

Saya memiliki beberapa kritik. Saya tidak pernah menyebut makanan sebagai suatu keajaiban, atau menggambarkan panas sebagai sebuah ciuman. Saya tidak percaya pada sihir, dan jarang menyebut sesuatu sebagai sempurna tanpa menggunakan kata “hampir” atau semacamnya. Namun deskripsi yang malas ini begitu umum dalam menulis tentang makanan sehingga saya bayangkan banyak pembaca hampir tidak memperhatikannya. Saya terlalu sensitif terhadap hal-hal tersebut karena setiap kali saya menggunakan klise di tulisan saya, saya mendapat teguran dari editor saya.

Dia tidak akan tertipu oleh Pete palsu. Saya juga tidak. Namun, meskipun saya kesal untuk mengakui, saya kira banyak orang akan mengatakan bahwa ini adalah palsu bintang empat.

Orang yang bertanggung jawab atas Saya Palsu adalah Balazs Kovacs, seorang profesor perilaku organisasi di Yale School of Management. Dalam sebuah studi terbaru, dia memberi makan sejumlah besar ulasan Yelp ke GPT-4, teknologi di balik ChatGPT, dan memintanya untuk menirunya. Subjek ujiannya – manusia – tidak dapat membedakan antara ulasan asli dan yang dihasilkan oleh kecerdasan buatan. Bahkan, mereka lebih cenderung mengira ulasan A.I. adalah nyata. (Fenomena palsu yang dihasilkan komputer yang lebih meyakinkan daripada yang asli begitu terkenal sehingga ada nama untuknya: hiperrealisme A.I.)

Studi Dr. Kovacs menjadi bagian dari sejumlah penelitian yang menunjukkan bahwa versi terbaru dari A.I. generatif dapat lulus uji Turing, standar yang samar secara ilmiah tetapi beresonansi budaya. Ketika sebuah komputer bisa menipu kita untuk percaya bahwa bahasa yang dihasilkannya ditulis oleh manusia, kita mengatakan itu telah lulus uji Turing.

Selama ini diasumsikan bahwa A.I. pada akhirnya akan lulus uji itu, yang pertama kali diusulkan oleh matematikawan Alan Turing pada tahun 1950. Tetapi bahkan beberapa ahli terkejut dengan seberapa cepat teknologi tersebut berkembang. “Ini terjadi lebih cepat dari perkiraan orang,” kata Dr. Kovacs.

Pertama kalinya Dr. Kovacs meminta GPT-4 meniru Yelp, sedikit saja yang tertipu. Prosa terlalu sempurna. Namun itu berubah ketika Dr. Kovacs memberi program instruksi untuk menggunakan ejaan kolokial, menekankan beberapa kata dalam huruf besar, dan menyisipkan kesalahan pengetikan – satu atau dua di setiap ulasan. Kali ini, GPT-4 lulus uji Turing.

Selain menandai batas dalam pembelajaran mesin, kemampuan A.I. untuk terdengar seperti kita memiliki potensi untuk merusak kepercayaan apa pun yang masih kita miliki dalam komunikasi verbal, terutama yang pendek. Pesan teks, surel, kolom komentar, artikel berita, pos media sosial, dan ulasan pengguna akan menjadi lebih disangsikan dari sebelumnya. Siapa yang akan percaya pada posting Yelp tentang roti-butter atau kiriman OpenTable yang memuji santapan sushi omakase seharga $400 mengetahui bahwa penulisnya mungkin adalah mesin yang tidak bisa mengunyah atau menelan?

“Dengan ulasan yang dibuat konsumen, selalu saja menjadi pertanyaan besar siapa yang berada di balik layar,” kata Phoebe Ng, seorang strategi komunikasi restoran di New York City. “Sekarang ini menjadi pertanyaan tentang apa yang ada di balik layar.”

Pendapat online adalah pelumas dalam roda perdagangan modern. Dalam survei tahun 2018 oleh Pew Research Center, 57 persen dari orang Amerika yang disurvei mengatakan bahwa mereka selalu atau hampir selalu membaca ulasan dan peringkat internet sebelum membeli produk atau layanan untuk pertama kalinya. 36 persen lainnya mengatakan bahwa mereka kadang-kadang melakukannya.

Bagi bisnis, beberapa poin dalam peringkat bintang di Google atau Yelp bisa membuat perbedaan antara mendapatkan keuntungan dan bangkrut. “Kami hidup dari ulasan,” kata manajer lokasi Enterprise Rent-a-Car di Brooklyn ketika saya mengambil mobil minggu lalu.

Seorang pebisnis perjalanan yang memerlukan kendaraan yang tidak akan mogok di New Jersey Turnpike mungkin lebih terpengaruh oleh laporan negatif daripada, katakanlah, seseorang yang hanya mencari santapan brunch. Namun, bagi pemilik restoran dan koki, Yelp, Google, TripAdvisor, dan situs lain yang memungkinkan pelanggan memberikan pendapat mereka adalah sumber kekhawatiran tanpa akhir dan amarah sesekali.

Salah satu penyebab frustrasi khusus adalah banyak orang yang tidak mau repot-repot makan di tempat yang mereka tulis ulasannya. Sebelum sebuah artikel di Eater menyoroti hal tersebut minggu lalu, lokasi New York pertama dari jaringan dim sum Taiwan yang berbasis di Din Tai Fung dibanjiri oleh ulasan Google bintang satu, menurunkan peringkatnya menjadi 3,9 dari 5 yang mungkin. Restoran itu masih belum dibuka.

Beberapa kritikus bayangan lebih jahat. Restoran telah dilempari dengan ulasan satu bintang, diikuti dengan email yang menawarkan untuk menghilangkannya dengan imbalan kartu hadiah.

Untuk melawan serangan semacam itu, beberapa pemilik restoran meminta sanak saudara terdekat mereka untuk membanjiri zona dengan ulasan positif. “Salah satu pertanyaannya adalah, berapa banyak alias yang kita semua miliki di industri restoran?” kata Steven Hall, pemilik sebuah firma hubungan masyarakat di New York.

Langkah di atas kampanye pengisian suara yang terorganisir, atau mungkin setahap di bawahnya, adalah praktik menukar makanan gratis atau uang untuk ulasan positif. Di luar itu terbentanglah negeri yang luas dan suram dari peninjau yang tidak ada.

Untuk mempromosikan bisnis mereka sendiri, atau menjatuhkan saingan mereka, perusahaan dapat menyewa pialang yang telah menciptakan pasukan kecil peninjau fiktif. Menurut Kay Dean, seorang advokat konsumen yang meneliti penipuan dalam ulasan online, akun-akun ini biasanya diberi sejarah ulasan masa lalu yang luas yang berfungsi sebagai kamuflase untuk produksi mereka yang dibayar.

Dalam dua video terbaru, dia menunjukkan sebuah rantai klinik kesehatan mental yang telah menerima ulasan Yelp memuji yang seakan-akan dikirim oleh pasien yang puas yang akun mereka dipenuhi oleh ulasan restoran yang diambil kata demi kata dari TripAdvisor.

“Ini adalah samudra kepalsuan, dan jauh lebih parah dari yang orang sadari,” kata Ny. Dean. “Konsumen sedang ditipu, bisnis jujur sedang dirugikan, dan kepercayaan sedang terkikis.”

Semua ini dilakukan oleh manusia belaka. Tetapi seperti yang ditulis Dr. Kovacs dalam studinya, “situasi ini sekarang berubah secara substansial karena manusia tidak lagi diperlukan untuk menulis ulasan yang terlihat otentik.”

Ny. Dean mengatakan bahwa jika konten yang dihasilkan A.I. menyusup ke Yelp, Google, dan situs lainnya, akan “semakin sulit bagi konsumen untuk membuat keputusan yang berinformasi.”

Situs-situs besar mengatakan bahwa mereka memiliki cara untuk menggali akun Potemkin dan bentuk kepalsuan lainnya. Yelp mengundang pengguna untuk melaporkan ulasan yang meragukan, dan setelah penyelidikan akan menghapus yang dianggap melanggar kebijakannya. Situs ini juga menyembunyikan ulasan yang algoritmanya anggap kurang dapat dipercaya. Tahun lalu, menurut Laporan Kepercayaan & Keamanan terbarunya, perusahaan tersebut meningkatkan penggunaan A.I. “untuk lebih baik mendeteksi dan tidak merekomendasikan ulasan yang kurang membantu dan kurang dapat dipercaya.”

Dr. Kovacs percaya bahwa situs-situs akan perlu lebih berusaha sekarang untuk menunjukkan bahwa mereka tidak secara teratur memposting pemikiran-pemikiran robot. Mereka bisa, misalnya, mengadopsi sesuatu seperti label “Pembelian Terverifikasi” yang ditempelkan Amazon pada ulasan produk yang dibeli atau ditonton melalui situsnya. Jika pembaca menjadi lebih curiga terhadap ulasan restoran yang didapat dari kerumunan daripada sebelumnya, itu bisa menjadi kesempatan bagi OpenTable dan Resy, yang menerima umpan balik hanya dari para pelanggan yang datang untuk reservasi mereka.

Satu hal yang mungkin tidak akan berhasil adalah meminta komputer menganalisis bahasa semata. Dr. Kovacs menjalankan ulasan Yelp asli dan yang dibuatnya melalui program yang seharusnya mengidentifikasi A.I. Seperti subyek ujinya, katanya, perangkat lunak tersebut “mengira yang palsu adalah nyata.”

Hal ini tidak membuat saya terkejut. Saya mengikuti survei Dr. Kovacs sendiri, yakin bahwa saya akan mampu mengenali detail-detail kecil, konkret yang akan disebutkan oleh seorang pelanggan nyata. Setelah mengklik kotak untuk menegaskan bahwa saya bukan robot, saya segera tersesat dalam dunia tanda seru dan wajah cemberut. Ketika saya mencapai akhir tes, saya hanya menebak. Saya berhasil mengidentifikasi tujuh dari 20 ulasan, suatu hasil di antara melempar koin dan meminta bantuan dari monyet.

Hal yang membuat saya terjebak adalah bahwa GPT-4 tidak menciptakan pendapatnya dari udara tipis. Ia menjahitnya bersama dari potongan-potongan deskripsi Yelpers tentang camilan sore mereka dan santapan minggu mereka.

“Ini tidak sepenuhnya dibuat-buat dalam hal hal-hal yang orang hargai dan yang mereka pedulikan,” kata Dr. Kovacs. “Yang menakutkan adalah bahwa ia bisa menciptakan pengalaman yang terlihat dan tercium seperti pengalaman sungguhan, tetapi itu bukanlah pengalaman sungguhan.”

Oh ya, Dr. Kovacs mengatakan kepada saya bahwa ia memberikan draf pertama makalahnya kepada program penyunting A.I., dan menerima banyak saran dari salinannya yang final.

Mungkin tidak akan lama lagi sebelum gagasan tentang ulasan sepenuhnya manusia terdengar kuno. Para robot akan diundang untuk membaca di atas bahu kita, memberi tahu kita ketika kita telah menggunakan kata sifat yang sama terlalu banyak, mendorong kita ke arah kata kerja yang lebih aktif. Mesin-mesin ini akan menjadi guru kita, editor kita, rekan kerja kita. Mereka bahkan akan membantu kita terdengar manusiawi.