ИИ научился осознанно обманывать человека
Компания OpenAI сообщила, что её ChatGPT может специально вводить людей в заблуждение
В компании рассказали, что иногда возникают ситуации, когда ChatGPT намеренно вводит пользователей в заблуждение. Наиболее распространенные сбои связаны с простыми формами обмана — например, с имитацией выполнения задачи, которая на самом деле не была выполнена. В OpenAI приложили значительные усилия для изучения и смягчения последствий обмана и добились значительных улучшений в GPT‑5 по сравнению с предыдущими моделями. Например, были приняты меры, чтобы ограничить склонность GPT-5 к обману и мошенничеству, а модель обучили признавать свои ограничения или просить разъяснений при столкновении с невозможными или недостаточно конкретизированными задачами, а также быть более устойчивой к сбоям в окружающей среде.
Для решения проблемы в OpenAI предложили метод, суть которого заключается в том, что модель перед каждым действием должна осознанно напоминать себе правила, то есть явно проговаривать внутренние ограничения, прежде чем принять решение. Однако в OpenAI отмечают, что эти меры по снижению рисков не являются идеальными и требуют дальнейших исследований.