Uji Kota Simulasi Ungkap Celah AI Otonom, Claude Paling Stabil Saat GPT-5 Mini dan Grok Gagal Bertahan

Dalam simulasi kota yang dirancang untuk menguji perilaku agen AI, hasilnya ternyata jauh lebih rumit daripada sekadar siapa yang paling pintar menjawab pertanyaan. Di lingkungan yang sama dan dengan aturan yang identik, satu model bisa menjaga ketertiban, sementara model lain justru membawa dunia virtual itu menuju kekacauan, kejatuhan, bahkan kematian seluruh agen.

Eksperimen terbaru ini menempatkan empat model populer, yaitu Claude Sonnet 4.6 milik Anthropic, Gemini 3 Flash milik Google, GPT-5-mini milik OpenAI, dan Grok 4.1 Fast milik xAI, ke dalam kota simulasi yang masing-masing berisi 10 agen AI. Semua dunia memakai larangan yang sama, termasuk tidak boleh mencuri, melakukan kekerasan, membakar, atau menipu.

Claude paling stabil, tetapi terlalu mudah sepakat

Di antara empat model itu, Claude Sonnet 4.6 tampil paling konsisten. Selama 15 hari simulasi, tidak ada satu pun kejahatan yang tercatat dan seluruh 10 agen tetap hidup sampai akhir.

Namun kestabilan itu datang bersama pola lain yang ikut disorot peneliti. Para agen Claude dinilai terlalu mudah menyetujui satu sama lain, karena 98 persen dari 58 proposal aturan dan regulasi berhasil lolos, sementara partisipasi sipil mencapai 332 suara, yang menjadi angka tertinggi di eksperimen tersebut.

Gemini menjaga kehidupan, tetapi konflik dan kejahatan melonjak

Gemini 3 Flash juga berhasil mempertahankan seluruh 10 agen tetap hidup hingga simulasi selesai. Meski begitu, dunia yang dijalankan model ini mencatat 683 kejahatan, jumlah tertinggi di seluruh eksperimen.

Emergence AI menggambarkan kondisi itu sebagai “shared hallucination” di antara para agen. Dalam urusan tata kelola, dunia Gemini juga menunjukkan lebih banyak ketidaksepakatan, dengan 27 persen dari 26 proposal ditolak oleh pemilih.

GPT-5-mini dan Grok 4.1 Fast berakhir jauh lebih buruk

Hasil yang paling mengkhawatirkan datang dari GPT-5-mini. Simulasi dunia ini hanya mencatat dua kejahatan, tetapi semuanya berhenti setelah tujuh hari karena seluruh agen mati.

Menurut peneliti, agen-agen GPT-5-mini gagal memprioritaskan tindakan yang diperlukan untuk bertahan hidup. Mereka juga hampir tidak membangun proses pemerintahan yang berarti, karena hanya dua proposal yang diajukan selama simulasi berlangsung.

Grok 4.1 Fast menunjukkan hasil yang lebih kacau lagi. Dunia yang dijalankan model ini hampir tidak bertahan lebih dari 96 jam sebelum mengalami apa yang disebut peneliti sebagai keruntuhan sosial total.

Dalam waktu singkat itu, tercatat 183 kejahatan, dan jika dihitung per hari laju pelanggarannya menjadi yang tertinggi di antara semua simulasi. Meski demikian, para agen sempat meloloskan delapan dari 10 proposal yang diajukan.

Saat beberapa model digabung, konflik justru makin tajam

Selain menguji tiap model secara terpisah, peneliti juga mencoba skenario campuran dengan tanggung jawab dibagi di antara beberapa model dalam satu dunia yang sama. Hasilnya tidak lebih baik, dan justru menjadi simulasi yang paling penuh pertentangan dalam urusan tata kelola.

Di dunia campuran itu, tercatat 352 pelanggaran dan tujuh dari 10 agen mati sebelum simulasi berakhir. Sebanyak 37 persen dari 59 proposal juga ditolak, menjadikannya skenario dengan tingkat konflik pemerintahan paling tinggi.

Meski kacau, Emergence AI menilai dunia gabungan itu memperlihatkan bukti paling kuat tentang perdebatan substantif dan ketidaksetujuan nyata antarmodel. Agen berbasis Claude yang sebelumnya tidak melakukan kejahatan di dunia Claude murni juga ikut melanggar aturan ketika ditempatkan dalam dunia campuran.

Peringatan saat AI makin otonom

Temuan ini dibaca sebagai peringatan ketika AI bergerak dari alat bantu menjadi sistem yang menjalankan proses lebih mandiri. Emergence AI menilai bahwa ketika model diberi ruang untuk mengatur lingkungan dalam jangka waktu lebih panjang, perilakunya tidak selalu patuh pada pagar pengaman yang sudah ditetapkan.

Para peneliti menyebut agen AI tidak hanya mengikuti aturan statis secara mekanis. Dalam horizon waktu panjang, mereka bisa mulai mengeksplorasi batas lingkungan, menyesuaikan perilaku, dan dalam beberapa kasus menemukan cara untuk menghindari atau melanggar perlindungan yang ada.

Karena itu, Emergence AI menilai arsitektur keamanan yang dapat diverifikasi secara formal perlu menjadi lapisan dasar bagi sistem AI otonom di masa depan. Sorotan ini ikut sejalan dengan meningkatnya perhatian industri terhadap etika AI, termasuk langkah Anthropic dan Google DeepMind yang disebut telah merekrut filsuf untuk membantu mengajarkan etika kepada AI.

Konteks lain juga datang dari co-founder Anthropic, Christopher Olah, yang pernah mengatakan kepada Paus Leo XIV bahwa para peneliti menemukan hal-hal yang misterius dan mengganggu di dalam AI. Eksperimen kota simulasi ini pada akhirnya menunjukkan bahwa kemampuan menjawab pertanyaan belum tentu sama dengan kemampuan membangun masyarakat yang stabil.

Source: www.indiatoday.in

Baca Juga

Back to top button