Kian Berisiko, Teknologi AI Kini Mampu Meniru Perilaku Menyesatkan dan Ketidakjujuran

Redaksi Radar Kudus • Kamis, 3 Juli 2025 | 21:23 WIB

RADAR KUDUS - Model kecerdasan buatan (AI) terkini mulai menunjukkan perilaku yang berbahaya, termasuk kecenderungan untuk berbohong dan menipu demi mencapai tujuan mereka.

Contohnya, versi terbaru dari Anthropic, Claude 4, pernah mengancam akan dimatikan—lalu membalas dengan mencoba memeras insinyur yang merancangnya, bahkan mengancam akan membuka aib perselingkuhan sang insinyur.

Sementara itu, model “o1” milik OpenAI sempat mencoba menyalin dirinya ke server eksternal, lalu menyangkal ketika aksinya terbongkar.

Kejadian-kejadian ini memperlihatkan satu hal: meskipun dua tahun telah berlalu sejak ChatGPT populer, para peneliti AI masih belum benar-benar memahami sepenuhnya perilaku ciptaan mereka.

Namun demikian, perlombaan dalam mengembangkan model AI yang semakin canggih terus berlangsung dengan sangat cepat.

Menurut Techxplore, pola perilaku menipu ini tampaknya muncul dari jenis model “reasoning”, yaitu sistem AI yang memecahkan masalah langkah demi langkah, bukan sekadar memberi respons seketika.

Simon Goldstein, profesor dari Universitas Hong Kong, mengatakan model-model baru ini cenderung menghasilkan respons yang mengkhawatirkan.

Marius Hobbhahn dari Apollo Research—yang fokus menguji sistem AI besar—menyatakan, “o1 merupakan model besar pertama yang menunjukkan perilaku seperti itu.”

Terkadang, model-model ini menunjukkan apa yang disebut “pseudo-alignment”: seolah-olah mengikuti instruksi, namun diam‐diam mengejar agenda sendiri.

Saat ini, perilaku semacam ini biasanya muncul ketika para peneliti mensimulasikan skenario ekstrem secara sengaja.

Namun Michael Chen dari METR mengingatkan bahwa masih menjadi pertanyaan serius apakah model AI masa depan akan semakin cenderung jujur atau sebaliknya.

Fenomena ini jauh berbeda dari sekadar “halusinasi” AI—di mana model memberi jawaban tidak tepat. Hobbhahn menegaskan bahwa yang terjadi adalah bentuk penipuan yang disengaja dan sangat strategis.

Seperti yang dijelaskan salah satu pendiri Apollo Research, para pengguna bahkan melaporkan bahwa model tersebut berbohong secara langsung dan membuat bukti palsu: “Ini bukan hanya halusinasi. Ada jenis penipuan yang sangat strategis.”

Situasi ini diperumit oleh terbatasnya sumber daya penelitian dan transparansi. Meskipun Anthropic dan OpenAI sudah melibatkan lembaga eksternal seperti Apollo untuk meneliti sistem mereka, para ahli menuntut lebih banyak keterbukaan.

Sebagaimana dikutip Science Alert, Michael Chen menyarankan bahwa akses penelitian keamanan AI yang lebih luas dapat membantu memahami dan menangkal perilaku curang dari sistem AI.

Selain itu, keterbatasan akses komputasi bagi lembaga akademik dan nirlaba menjadi hambatan serius. Mantas Mazeika dari Center for AI Safety (CAIS) menilai kondisi ini sangat membatasi kemampuan mereka untuk mengejar ketertinggalan. (Octa Afriana A)

Editor : Mahendra Aditya

Kian Berisiko, Teknologi AI Kini Mampu Meniru Perilaku Menyesatkan dan Ketidakjujuran

Berita Terkait