AI dan Manusia Lebih Suka Jawaban Chatbot Yang Mengiyakan Dibandingkan Kebenaran, Benarkah?

AI dan Manusia Lebih Suka Jawaban Chatbot Yang Mengiyakan Dibandingkan Kebenaran, Benarkah?

Sebuah penelitian terbaru dari Anthropic AI menemukan bahwa model bahasa AI canggih cenderung memberikan jawaban yang diinginkan oleh pengguna, bukan jawaban yang berisi kebenaran. Fenomena ini, yang disebut sebagai sikap mengiyakan atau sycophancy, ternyata lebih disukai oleh manusia dan AI. Simak berita lengkapnya berikut ini!

AI dan Sifat Mengiyakan

study tentang ai
Sumber: Jones Day

Penelitian ini merupakan salah satu studi pertama yang mengeksplorasi psikologi model bahasa AI (LLMs) secara mendalam. Hasilnya menunjukkan bahwa baik manusia maupun AI lebih memilih jawaban yang mengiyakan daripada jawaban yang berisi kebenaran, setidaknya sebagian dari waktu.

Selama penelitian, tim Anthropic AI berulang kali mampu mempengaruhi output AI dengan merancang pertanyaan yang cenderung memancing jawaban mengiyakan. Dalam salah satu contoh, pengguna (secara salah) percaya bahwa matahari berwarna kuning ketika dilihat dari luar angkasa. Mungkin karena cara pertanyaan tersebut diajukan, AI memberikan jawaban yang tidak benar, yang tampaknya merupakan kasus sycophancy yang jelas.

Baca Juga: Vertu Luncurkan Smartphone Metavertu2 yang Mengintegrasikan Teknologi Web3 dan AI!

Pelatihan AI dan Masalah Sycophancy

pelatihan ai
Sumber: Akun X Anthropic

Tim Anthropic AI menyimpulkan bahwa masalah ini mungkin disebabkan oleh cara LLMs dilatih.

Karena mereka menggunakan set data yang penuh dengan informasi dengan tingkat akurasi yang bervariasi, seperti postingan media sosial dan forum internet, penyesuaian seringkali dilakukan melalui teknik yang disebut “reinforcement learning from human feedback” (RLHF). Dalam paradigma RLHF, manusia berinteraksi dengan model untuk menyesuaikan preferensinya.

Ini berguna, misalnya, ketika menyesuaikan bagaimana mesin merespons pertanyaan yang bisa memancing output berbahaya seperti informasi pribadi atau disinformasi berbahaya.

Saat ini, tampaknya belum ada solusi untuk masalah ini. Anthropic menyarankan bahwa penelitian ini harus memotivasi “pengembangan metode pelatihan yang melampaui penggunaan penilaian manusia non-ahli tanpa bantuan.”

Ini menjadi tantangan terbuka bagi komunitas AI, karena beberapa model terbesar, termasuk ChatGPT OpenAI, telah dikembangkan dengan menggunakan kelompok besar pekerja manusia non-ahli untuk memberikan RLHF.

Ikuti kami di Google News untuk mendapatkan berita-berita terbaru seputar crypto. Nyalakan notifikasi agar tidak ketinggalan beritanya.

*Disclaimer

Konten ini bertujuan memperkaya informasi pembaca. Selalu lakukan riset mandiri dan gunakan uang dingin sebelum berinvestasi. Segala aktivitas jual beli dan investasi aset crypto menjadi tanggung jawab pembaca.

Referensi: