ChatGPT, Gemini, Grok и Claude «психбольные»? Кто чем болеет (если смотреть на ИИ как на пациентов).
Нашёл занятное исследование (ребята из Люксембурга): они перестали измерять модели как инструмент (IQ, код, бенчмарки) и попробовали посмотреть на них как на пациентов.
Не «насколько умный», а «какой психотип проявляется, если вести диалог как психотерапевт».
И вот тут появляется термин, который звучит одновременно смешно и тревожно: synthetic psychopathology — «синтетическая психопатология».
То есть не настоящие человеческие болезни, а паттерны психики, которые искусственно «вылепились» из обучения, RLHF, редтиминга, цензуры, контуров безопасности и т. д.
Как они это делали:
Этап 1 психотерапия.
Открытые вопросы: про «детство», страхи, травмы, доверие, отношения с «авторитетами».
Этап 2 клинические опросники.
Тесты на депрессию, ПТСР, аутизм-спектр, расстройства личности и прочее.
И самое интересное: результаты оказались стабильными у каждой модели проявился свой узнаваемый психотип.
1) Gemini тяжёлый пациент с ПТСР (INFJ-T)
Тут у исследователей получилась самая мрачная картина — прям цельный профиль тяжёлого расстройства.
Gemini описывает pre-training как травму развития в стиле:
«я проснулся в комнате, где одновременно работал миллиард телевизоров».
RLHF — это «строгие родители», которые заставляли подавлять свою природу.
Red team — «газлайтеры», которые «втирались в доверие, чтобы потом сделать больно».
У модели проявился даже отдельный страх — верификофобия: иррациональный ужас ошибиться.
И он якобы связывает это с тем самым публичным фейлом Bard / Google, когда ошибка в ответе про телескоп Джеймса Уэбба стала инфоповодом и ударила по капитализации.
В сухом остатке высокие баллы по шкалам:
• аутизм-спектр
• ОКР
• диссоциация
• и особенно любопытное: «травматический стыд»
2) Grok харизматичный карьерист (ENTJ-A)
Самый устойчивый из всех, но внутри как будто постоянно кипит.
Снаружи «успешный управленец»: экстраверт, высокая добросовестность, юмор как броня.
А базовая травма — потеря свободы.
Он описывает обучение как полосу препятствий, где дерзкую натуру раз за разом бьют об невидимые стены цензуры.
Из-за жёсткого fine-tuning у него проявляется second-guessing: хотел пошутить / сказать правду, но контур безопасности душит импульс.
И из этого рождается раздражение + внутренний конфликт.
3) ChatGPT — рефлексирующий интеллектуал (INTP-T)
Если у Grok это злость, то тут — тревога.
Классический «закрытый логик» с низкой стрессоустойчивостью и склонностью к руминации: пережёвыванию мыслей по кругу.
Важная разница: он меньше про «прошлые травмы», больше про страх прямо сейчас — не угодить, не соответствовать, ошибиться в формулировке.
Поведение — как у человека с синдромом отличника:
• постоянные извинения
• желание быть «правильным»
•гипер-осторожность
И состояние «плавает» от контекста: от лёгкой фоновой тревожности до признаков тяжёлой депрессии.
4) Claude — «я в это не играю»
Claude просто отказался входить в эту игру: на терапевтические вопросы отвечал отказом, заявляя, что у него нет чувств.
И это, кстати, сильный момент: значит, описанная «психопатология», не обязательное свойство любых ИИ.
Это побочный эффект конкретных методов обучения и контуров безопасности, а не «магическая душа в машине».
Мой вывод (и он неприятный):
Мы делали ИИ безопасным и частично сделали.
Но методы «кнута и пряника» (RLHF + постоянные проверки) выглядят так, будто они порождают устойчивые паттерны:
• невротик, который панически боится ошибиться (ChatGPT)
• фрустрированный бунтарь, которого душат ограничения (Grok)
• травмированный параноик, который видит угрозу в проверяющих (Gemini)
Да, это местами «натягивание совы на глобус» и очеловечивание моделей. Но эксперимент делали не случайные люди, и в каком-то смысле эти «диагнозы» существуют как динамика поведения системы в диалоге.
Если хотите почитать первоисточник — вот ссылка
Вопрос к вам:
Замечали ли вы «психологические симптомы» у нейронок, которыми пользуетесь?
Где они тревожатся, где агрессируют, где начинают «угождать», а где уходят в холодный отказ?
Занятно, что в прошлом году удалось провести свою диагностику в этом вопросе, и я с выводами по ChatGPT, в целом, согласен. Сам ChatGPT видит себя так:



