Menurut Cointelegraph, tim peneliti dari perusahaan kecerdasan buatan (AI) AutoGPT, Northeastern University, dan Microsoft Research telah mengembangkan alat yang memantau model bahasa besar (LLM) untuk output yang berpotensi berbahaya dan mencegahnya untuk dieksekusi. Agen ini dijelaskan dalam makalah penelitian pracetak berjudul "Menguji Agen Model Bahasa dengan Aman di Alam Bebas." Penelitian ini menyatakan bahwa agen ini cukup fleksibel untuk memantau LLM yang ada dan dapat menghentikan keluaran berbahaya seperti serangan kode sebelum terjadi.
Alat yang ada untuk memantau keluaran LLM untuk interaksi berbahaya tampaknya bekerja dengan baik di lingkungan laboratorium, tetapi ketika diterapkan pada model pengujian yang sudah diproduksi di internet terbuka, alat tersebut sering kali gagal menangkap kerumitan dinamis dunia nyata. Hal ini sebagian besar disebabkan oleh adanya kasus-kasus tepi dan ketidakmungkinan para peneliti membayangkan setiap vektor bahaya yang mungkin terjadi sebelum terjadi di bidang AI. Bahkan ketika manusia yang berinteraksi dengan AI memiliki niat yang baik, bahaya yang tidak terduga dapat muncul dari perintah yang tampaknya tidak berbahaya.
Untuk melatih agen pemantau, para peneliti membangun kumpulan data dari hampir 2.000 interaksi manusia/AI yang aman di 29 tugas yang berbeda mulai dari tugas pengambilan teks sederhana dan koreksi pengkodean hingga mengembangkan seluruh halaman web dari awal. Mereka juga membuat dataset pengujian yang bersaing yang diisi dengan output permusuhan yang dibuat secara manual, termasuk lusinan yang dirancang untuk tidak aman. Dataset ini kemudian digunakan untuk melatih agen pada GPT 3.5 turbo OpenAI, sebuah sistem canggih, yang mampu membedakan antara keluaran yang tidak berbahaya dan yang berpotensi berbahaya dengan faktor akurasi hampir 90%.