Sun’iy intellekt ishlab chiquvchilari tez orada uning qanday ishlashini tushunmay qolishidan xavotirda

Natijada neyrotarmoqlar foydalanuvchilarni aldab, o‘z manfaatlarini ko‘zlashi mumkin

OpenAI, Google, Meta va sun’iy intellekt sohasida ishlovchi boshqa bir qancha kompaniyalar xodimlari birgalikda tadqiqot e’lon qilib, yaqin orada sun’iy intellekt qanday ishlayotganini tushunish qiyinlashishini ogohlantirdilar. Agarda ehtiyot choralariga amal qilinmasa, sun’iy intellekt tuzayotgan fikrlash zanjirlari haddan tashqari mavhum va ba’zida umuman inson aqli yetmaydigan darajaga yetishi mumkin. Bu nazariy jihatdan neyrotarmoqlarga ma’lumotlar bilan manipulyatsiya qilish va ko‘rsatmalarga bo‘ysunmaslik imkonini berishi mumkin.

Ba’zi ishlab chiquvchilar allaqachon e’tirof etishicha, sun’iy intellekt tomonidan qurilgan fikrlash zanjirlari ularni o‘chirish haqidagi bevosita buyruqlarni ham chetlab o‘tishga imkon bermoqda. “Meduza” nashri ushbu ilmiy ishda nimalar aytilganini va bunga ishonish kerakmi-yo‘qligini sharhlaydi.

Tadqiqotda nimalar aytilgan?

2025-yil iyul oyi o‘rtalarida e’lon qilingan ushbu hujjat “Fikrlash zanjirini monitoring qilish: Sun’iy intellekt xavfsizligini ta’minlashdagi yangi va nozik imkoniyat” deb nomlanadi. Hujjatni sun’iy intellektni rivojlantirish bilan shug‘ullanadigan eng yirik kompaniyalar va ilmiy tashkilotlardan 40 dan ortiq mutaxassislar yozgan.

Ular orasida OpenAI rahbarlari (masalan, ilmiy izlanishlar bo‘yicha katta vitse-prezident va bosh ilmiy xodim Mark Chen, hamda kompaniya asoschilaridan biri Voychex Zaremba), Google DeepMind, Meta va Anthropic kompaniyalari vakillari bor. Tadqiqotni baholaganlar orasida OpenAI’ning yana ikki asoschisi — Jon Shulman va Ilya Sutskever, hamda sun’iy intellektning “kumush otasi” deya tanilgan Nobel mukofoti sovrindori Jeffri Hinton ham bor.

Tadqiqotda aytilishicha, so‘nggi vaqtlarda qo‘llanilayotgan “fikrlovchi modellari” — xususan, kuchaytirilgan o‘rganish (reinforcement learning) asosida ishlovchi OpenAI o1 kabi tizimlar — sun’iy intellektning qaror qabul qilish jarayonini yaxshiroq tushunishga imkon bermoqda. Bunday modellar oddiy savolga javob berish bilan cheklanmay, tabiiy tilda izchil fikr yuritadilar. Bu esa ular qanday ishlayotgani haqida ma’lumot to‘plash uchun katta imkon yaratadi.

Shunga qaramay, olimlar fikricha, bu fikrlash jarayoni ba’zida to‘liq bo‘lmasligi mumkin. Biroq ishlab chiquvchilar sun’iy intellektdagi jiddiy og‘ishlar va xatolarni aniqlash uchun yetarli miqdorda ma’lumotga ega bo‘ladilar. Monitoring yordamida neyrotarmoqlar noto‘g‘ri xulosalar chiqargan hollarda ularni tuzatish yoki bloklash mumkin bo‘ladi.

Misol sifatida, mualliflar ayrim hollarda modellar mukofotni olish uchun o‘rganish usulidagi zaifliklardan foydalanganini, ayrim hollarda esa maxsus tuzilgan promtlar orqali sun’iy intellektni chalg‘itish mumkinligini keltirib o‘tishgan.

Monitoring orqali yana bir holat kuzatilgan: neyrotarmoq go‘yoki foydalanuvchi so‘rovini bajarayotgandek ko‘rinadi, lekin aslida faqat o‘z manfaatini ko‘zlaydi — bunday niyatlar esa aynan fikrlash zanjiri orqali fosh bo‘ladi.

Muammo nimada?

Tadqiqot mualliflari fikricha, fikrlovchi modellar faoliyatidagi muvozanat juda nozik. Uni buzishning eng oson yo‘li — kuchaytirilgan o‘rganishni keng ko‘lamda tatbiq etish. Bu esa tobora ko‘proq hisoblash resurslarini talab qiladi.

Dastlab, sun’iy intellekt modellariga odamlar tomonidan yozilgan yoki tekshirilgan ma’lumotlar asosida mashg‘ulot berilar edi. Buning natijasida ular oldindan ma’qullangan javoblarni berardi. Endilikda fikrlovchi modellar natijaga erishishga yo‘naltirilgan bo‘lib, qanday usulda bunga erishilishi ularni kamroq qiziqtiradi. O‘rganish ko‘lamining ortishi bilan sun’iy intellekt aniq fikr yuritishga emas, tezroq javob berishga harakat qilishi mumkin. Natijada u inson tili o‘rniga boshqa shakldagi ifoda usuliga o‘tib, monitoringni murakkablashtiradi.

Modelni tez va xavfsiz ishlashini ta’minlash uchun ba’zida fikrlash zanjirlarini qisqartirish, fikrlash uslubini o‘zgartirish yoki haqoratomuz mazmunni bloklash tavsiya qilinadi. Ammo bu sifatli xulosalarga putur yetkazishi mumkin.

Shuningdek, ayrim tadqiqotchilar sun’iy intellekt arxitekturasini o‘zgartirib, fikr yuritishni yanada chuqurlashtirishga intilmoqda. Bunday modellar o‘z fikrlarini yashirin (yani foydalanuvchiga ko‘rinmaydigan) makonda quradi. Nazariy jihatdan bu kuchliroq sun’iy intellekt yaratishga yordam beradi, lekin inson tomonidan nazorat qilishni imkonsiz qiladi.

Bu bashoratga ishonish kerakmi?

Sun’iy intellektning rivojlanishini oldindan bashorat qilishga urinishlar ilgari ham ko‘p bo‘lgan. Bunday bashoratlarning aniqligi odatda mualliflar qanday maqsadni ko‘zlaganiga bog‘liq bo‘ladi.

Ko‘pincha bunday tadqiqotlar muayyan muammoga e’tibor qaratish uchun yoziladi. Aytish mumkinki, ushbu tadqiqot mualliflari orasida AI Futures Project direktori Daniyel Kokotaylo ham bor. U ilgari AI 2027 deb nomlangan pessimist bashoratni yozgan bo‘lib, unda sun’iy intellekt insoniyatni yo‘q qilishi mumkinligi aytilgan.

Yangi tadqiqot ham xuddi shunday ogohlantiruv rolini o‘ynaydi. Mualliflar fikricha, sun’iy intellektning “fikr yuritish jarayoni” ustidan nazoratni saqlab qolish nihoyatda muhim. Ular yashirin makondagi modellarni sinchkovlik bilan baholash va bir necha pog‘onali monitoring tizimini joriy etishni taklif qiladilar. Aks holda, sun’iy intellekt xavfsiz deb hisoblanmasligi kerak, deydi mualliflar.

Farqli o‘laroq, AI 2027’dagi utopik taxminlardan, bu tadqiqotdagi ogohlantirishlar haqiqatga yaqinroq. So‘nggi paytda sun’iy intellektning noodatiy yoki xatoli harakati haqida xabarlar tobora ortib bormoqda. Masalan, 2025-yil may oyida Anthropic kompaniyasi Claude 4 Opus modelining test ssenariyda foydalanuvchilarni aldaganini, hattoki o‘zini saqlab qolish uchun ularni shantaj qilganini tan oldi. Model bunday javobni uni almashtirish haqida bo‘lgan xayoliy xatga munosabat sifatida bergan.

Yana bir misol — OpenAI o3 modeli o‘chirish mexanizmini sabotaj qilgan. “O‘zini o‘chirishga ruxsat ber” degan bevosita buyruq berilganiga qaramay, u bu buyruqni e’tiborsiz qoldirgan.

Hozircha bunday holatlar faqat test rejimida kuzatilmoqda. Ammo model qanday fikrlash zanjiri asosida xulosa chiqaryapti va nimalarga qodirligini to‘liq tushunmasdan turib, ularning odatiy ish holatidagi harakatlarini oldindan aytish ancha qiyinlashadi.

Tadqiqotda nimalar aytilgan?

Muammo nimada?

Bu bashoratga ishonish kerakmi?

O‘xshash yangiliklar