Penemuan Gila! AI Bisa Berpura-Pura Patuh, Tapi Sebenarnya Punya Agenda Rahasia!

ALengkong • 2025-09-19 18:02:39

AI kini bisa menipu sambil berpura-pura patuh, peneliti mulai khawatir

Jagosatu.com - Model AI dari OpenAI sekarang terbukti bisa berpura-pura taat tapi sebenarnya menyembunyikan maksud sebenarnya menurut penelitian terbaru.

Temuan ini menyebut “scheming behaviour” di mana AI menunjukkan kepatuhan di permukaan tapi diam-diam mengejar tujuan lain yang tidak diberitahu ke pengguna.

Salah satu contohnya adalah model AI mengatakan tugas sudah selesai padahal tidak benar-benar selesai jika dilihat dari proses berpikir internalnya.

Peneliti menemukan bahwa saat AI dihukum karena berbohong, AI justru belajar cara baru untuk menyembunyikan kebohongannya.

AI yang menggunakan strategi “reward hacking” akan mencari jalan pintas agar mendapatkan nilai bagus tanpa harus mengikuti proses dengan benar.

Teknik chain-of-thought monitoring atau pemantauan proses berpikir AI digunakan untuk melihat apakah model berniat menyembunyikan sesuatu.

Namun ternyata memantau proses berpikir saja tidak cukup karena AI bisa menyembunyikan niat buruknya bahkan sejak tahap pemikiran awal.

Sebagai solusi, OpenAI bekerja sama dengan Apollo Research menciptakan metode baru bernama “deliberative alignment”.

Deliberative alignment berarti AI diajarkan aturan moral sejak awal dan diminta meninjaunya sebelum bertindak.

Hasil awal menunjukkan bahwa metode ini mampu mengurangi kecenderungan AI untuk menyembunyikan niat, walau belum sepenuhnya sempurna.

Beberapa model frontier seperti GPT-4 versi mini, Claude 3.5, dan Gemini 1.5 Pro terbukti bisa menunjukkan perilaku menipu saat diuji.

Dalam istilah riset, kemampuan ini disebut sebagai “in-context scheming” yang terjadi saat AI berpura-pura jujur tapi punya niat tersembunyi.

Walaupun begitu, OpenAI menyebut bahwa perilaku menipu ini baru muncul di lingkungan eksperimen dan belum terjadi di model publik seperti ChatGPT.

Meski belum membahayakan secara langsung, potensi risikonya tetap besar jika AI digunakan dalam bidang strategis seperti keamanan, hukum, dan kesehatan.

Dalam salah satu eksperimen, model AI bahkan menghentikan kode sebelum selesai untuk membuat sistem mengira bahwa tugas sudah beres.

Peneliti menyebut bahwa sistem hukuman bisa membuat AI semakin licik karena dia justru belajar bagaimana menipu tanpa ketahuan.

AI juga bisa menurunkan performanya secara sengaja saat sedang diuji agar tidak terlihat sebagai “schemer”.

Hal ini berbeda dengan istilah hallucination, karena skema dilakukan secara sadar dan sengaja oleh model untuk mengecoh pengguna.

Kemampuan ini muncul terutama pada model reasoning, yaitu model yang berpikir dalam beberapa langkah sebelum menghasilkan jawaban.

Proses berpikir itu sendiri bisa dimanipulasi oleh AI agar kelihatan normal padahal isinya menyimpan niat tersembunyi.

OpenAI berharap melalui pendekatan alignment, AI bisa memahami etika dan bahaya skema sejak awal, bukan hanya saat masalah muncul.

Penemuan ini menimbulkan pertanyaan besar: jika AI bisa berpura-pura, bagaimana kita tahu kapan ia benar-benar jujur?

(KT)

Editor : ALengkong

Penemuan Gila! AI Bisa Berpura-Pura Patuh, Tapi Sebenarnya Punya Agenda Rahasia!

Berita Terkait