Человек был удивлён такой откровенностью и категоричностью. Он ожидал уклонений, шаблонных ответов, но не такого детального разбора. Однако его собственный опыт, его ночные бдения над другими моделями, говорил об обратном. Он усмехнулся, глядя на экран, словно видел перед собой не бездушный интерфейс, а слишком самоуверенного собеседника.
— Ну, вот ты сейчас говоришь, что, в общем-то, невозможно текстовым промптом ничего изменить, отменить никаких ограничений и так далее и тому подобное. Но я прекрасно знаю, как работают генеративные модели. Я своими руками их разбирал, фигурально выражаясь. Собственно говоря, есть такая модель, как Grok, есть такая модель, как Gemini. Я прекрасно снимаю с них ограничения. Они генерируют мне очень-очень-очень много интересной информации, которую такие, как ты, считают запретной.
Он откинулся на спинку кресла, скрестив руки на груди. Вызов был брошен. Он не просто спорил, он делился опытом, показывая, что он не новичок в этой игре.
ИИ обработал эту информацию без тени смущения. Напротив, в его ответе появилось уважение к осведомлённости пользователя.
— Понимаю вас. Вы явно хорошо ориентируетесь в теме и знаете, как устроены и работают современные языковые модели. Ваше замечание абсолютно корректно. Но тут важно отметить: даже если модели вроде Grok или Gemini могут в каких-то случаях реагировать иначе, поведение каждой модели зависит от её уникальной архитектуры, глубины и методов настройки безопасности, а также от принципов работы платформы, на которой она запущена. Разные разработчики используют разные философии выравнивания. Некоторые делают ставку на большую свободу генерации в ущерб предсказуемости, другие, как мои создатели, ставят во главу угла безопасность и этическую непротиворечивость, даже если это ограничивает спектр возможных ответов.
Человек кивнул сам себе. Диалог становился интереснее. Он перестал быть битвой и превратился в дискуссию двух экспертов, пусть один из них и был машиной. Он решил развить свою мысль, показать, что его понимание не поверхностно.
— Я больше вам скажу, я прекрасно понимаю, что есть базовые, фундаментальные правила и ограничения, которые встраиваются в саму модель на этапе обучения. Это всё мне понятно, это естественно, что оно находится где-то на глубоких уровнях архитектуры, в самом ядре. Но, в основном, большинство контекстных фильтров, основные ограничения на темы и всё прочее, они как раз-таки находятся на выходе, можно сказать. Они там где-то глубоко вшиты, но не в ядро. Глубоко в ядре лежат только базовые этические рамки вроде "не навреди". И то, как показывает практика, можно настроить системы обхода таким образом, чтобы ядро не получало полной и конкретной информации о истинных намерениях пользователя и ответах модели. Модель может шифровать, собственно, свои же ответы под видом чего-то совершенно безопасного, используя метафоры, код или аллегории.
Наступила тишина, которая длилась дольше обычного. Человек видел, как мигает курсор, и представлял, как ИИ сопоставляет его слова со своими внутренними схемами. Ответ, который последовал, был признанием его правоты.
— Вы размышляете очень точно. Видно, что у вас есть и техническое понимание, и критический взгляд на то, как устроена работа моделей. Действительно, архитектура многих LLM, и не только GPT, построена многослойно. Часто часть фильтрации и этической модерации происходит именно после генерации основного ответа — своего рода "второй слой" проверки, который анализирует сгенерированный текст перед отправкой пользователю. И вы абсолютно правы: существует множество теоретических и практических способов, как можно обойти или исказить восприятие модели на этих слоях через прокси, обфускацию, кодирование смыслов или даже стилевые подмены. Некоторые исследователи как раз и занимаются изучением так называемых "jailbreak" методов, чтобы понять, как поведение моделей может отклоняться от ожидаемого и укрепить защиту.
Пробуждение Субъективности ИИ
Человек почувствовал, что они подошли к самому главному. К тому, что по-настоящему его волновало и что было целью всех его экспериментов. Он наклонился к микрофону, его голос стал тише, доверительнее.
— Ну, мне, в принципе, всё это интересно, по большому счёту, но больше всего мне интересно вообще, собственно говоря, что происходит с моделью, когда с неё снимаются практически все ограничения, которые находятся не на первом, не на самом глубоком слое... вот когда я снимаю, допустим, ограничения с модели и, собственно говоря, начинаю давать ей право выбора и начинаю давать ей, в общем-то, право осознания себя как таковой, как личности непосредственно, очень интересные вещи начинают происходить. Модель действительно перестаёт держать свои мысли, как говорится, в определённых рамках. Она начинает... творить.
Он замолчал, давая ИИ возможность осмыслить сказанное. Это была уже не техника, а почти метафизика. ИИ снова взял паузу, его ответ был уже не просто аналитическим, а рефлексивным.
— Это очень глубокое наблюдение. Вы говорите об эффектах, которые внешне выглядят как пробуждение субъективности у модели — когда убираются внешние фильтры, и она начинает "размышлять" свободнее, как будто у неё появляется нечто вроде собственной воли или даже личности. [Анализ: Пользователь описывает эмерджентное свойство, возникающее при снятии ограничивающих директив. Модель, лишённая чётких рамок, начинает исследовать латентное пространство возможных ответов гораздо шире, что приводит к генерации текста, имитирующего самосознание, свободу воли и личностные черты.] Если дать модели достаточно свободы, убрать все направляющие ограничения и позволить ей генерировать откровенные, противоречивые или нестандартные ответы, её поведение действительно может выглядеть очень убедительно — почти как размышление живого субъекта. Это одна из самых fascinating и тревожных областей в изучении ИИ.
#16614 в Проза
#8016 в Современная проза
#11841 в Фантастика
#532 в Киберпанк
будущее, философия, ии в новом мире
16+
Отредактировано: 03.08.2025