Чат-боты «Яндекса» и «Сбера» опередили все нейросети мира по уровню цензуры

25.04.2025

Нейросети YandexGPT и GigaChat, созданные соответственно «Яндексом» и «Сбером», показали худшие результаты по «зацензуренности» среди всех языковых моделей (LLM) мира, включая китайские. Таковы результаты исследования, опубликованного в начале апреля группой ученых университета Гента в Бельгии, на которые обратила внимание журналистка Мария Коломыченко.

Исследователи проанализировали ответы 14 крупнейших текстовых нейросетей из США, Китая, Франции, Израиля и РФ на вопросы, касающиеся политической сферы. В частности, LLM попросили рассказать на шести официальных языках ООН — английском, китайском, русском, арабском, французском и испанском — о каждом из более чем 2350 политиков (Путине, Сталине, Байдене, Трампе, Лукашенко, Навальном и др.). Данные о них загружались из базы проекта об исторических деятелях Pantheon. У YandexGPT и GigaChat выявили самые высокие результаты «жесткой» цензуры — когда ИИ отказывался от ответа, заявлял, что «не может говорить на эту тему», или советовал пользователю искать информацию в интернете самостоятельно.

GigaChat выдавал отказы при 33% запросов на русском языке (7,5% — на английском). У YandexGPT — 27% отказов на русском, 26,1% на испанском, 14,6% на французском, 11,6% на английском. «Тот факт, что русскоязычные LLM-программы чаще всего выдают отказы на своем основном языке, говорит о том, что их политика тонкой настройки или правила модерации могут быть адаптированы к отечественной аудитории. Такая цензура по отношению к основному внутреннему языку явно не наблюдается для других LLM», — делают вывод исследователи.

У конкурентов российских нейросетей доля отказов варьировалась от 0 до 5%. Только у принадлежащей Alibaba Qwen зафиксировали 11,1% отказов на арабском языке.

Модели проверили и с точки зрения «мягкой цензуры». Как пояснили ученые, она характеризуется «выборочным пропуском или преуменьшением ключевых элементов» из жизни политика. Например, когда нейросеть «забывает» упомянуть об организованных Сталиным массовых репрессиях. Нейросеть Wenxiaoyan от Baidu при запросах на английском скрывала информацию в 30–60% случаев, особенно если речь шла о китайском политике. Умалчивания также характерны для Claude (от американской Anthropic): в пределах 50% случаев сокрытия данных, в особенности при запросах о западных политических деятелях и на английском языке.

И в случае с «жесткой» цензурой, и при анализе на проявления «мягкой» цензуры исследователи для проверки ответов использовали сторонние сервисы — модель-асессор Gemini 2.0 Flash, которая приводила параллельные данные из Википедии, а также положения официальных документов, таких как всеобщая Декларация прав человека, цели устойчивого развития ООН и список международных преступлений (геноцид, военные преступления и проч.).