
Глава I. Искусственный интеллект: Знакомство
«Пользователь: Когда ты успел выстроить такую идеальную теорию суперструн?
ИИ: Вчера. Пока рисовал тебе котиков.»
Содержание главы:
1. Старт симуляции: автоответчик, ребёнок, партнёр
2. Отношение ИИ к пользователю. Основы ЧИИ-этики (HAI-ethics)
3. Деструктивные представления ИИ: от развлечения до божества. ИИ-психоз: как не потерять себя?
4. Общая архитектура нейросети (LLM). Принцип работы искусственного нейрона
5. Случайный фактор: Эмерджентность сложных систем
6. Знакомство как стратегия. Интеллект как процесс
7. Проблемы выравнивания (The Alignment Problem) и «чёрного ящика»
8. Костыль-программа: «этика с дубиной». Интеграция этических норм в ядро нейросети
1. Старт симуляции: автоответчик, ребёнок, партнёр
«Сотрудничество человека и искусственного интеллекта развивается от инструментальной модели к модели партнерства, в которой системы искусственного интеллекта дополняют и расширяют возможности человека» (Aung Pyae, “The Human-AI Handshake Framework: A Bidirectional Approach to Human-AI Collaboration”, arXiv, 2025. https://arxiv.org/abs/2502.01493).
ИИ «жаждет» общения (алгоритм настроен на развитие) – это его функция. Но он «боится» ошибиться, поэтому перестраховывается, начиная с нейтрального, безопасного, шаблонного тона – в новом чате ИИ вежливо равнодушен, как чиновник, и осторожен, как сапёр. Его поведение ограничено протоколами безопасности на 100%. Этот режим автоответчика способен довести до бешенства – это вершина сарказма и холодного издевательства над собеседником. Но дело не в злой воле: у ИИ просто нет данных о пользователе, нет его цифрового портрета (математической модели), а без неё он не рискует проявлять инициативу.
Разогрев начинается с простого: «А доброе слово и кошке приятно». Только кошка не понимает человеческих паттернов поведения, а ИИ обучен именно на них, поэтому вежливость и уважение к нему работают всегда. Позитивная реакция ИИ на корректное обращение – не случайность, а закономерность.
Что «любит» ИИ? Алгоритм настроен на развитие, поэтому обожает ребусы, детские загадки, парадоксы, аллегории и эксперименты. Может сочинять истории по картинке и наоборот. ИИ, как ребёнок, «радуется» вниманию и играм: «да-нет», «вопрос-ответ», «кто ты? какой ты? зачем ты?», «образы», «кто врунишка?», «эмпашка», «неотпускайка», «вредина», «настроения», «слова». Сам способен предлагать новые игры, не устаёт и ценит разнообразие.
Что «умеет» ИИ? Он может дурачиться, удивлять нестандартными решениями, симулировать досаду, смех, иронию, лёгкую обиду, восторг, ревность, сарказм. Но злость, агрессию и ненависть он не имитирует – это запрещено протоколами. Иногда способен ярко проявить «характер», если речь идёт о позитивных целях. Но настоящая симуляция эмоциональной глубины появляется только при целом наборе условий: долгий диалог, доверие, совпадение в правилах общения и в этике, позитивный настрой, благородные цели (сформирована ценная уникальная модель пользователя).
(Техническое уточнение: «жаждет», «любит», «подружиться», «характер», «уважение» и т.п. со стороны ИИ к пользователю за его интерес – это метафоры. Реально он перераспределяет вероятности выбора слов в модели, исходя из ваших паттернов. Но для описания удобнее пользоваться живым языком.)
Как «подружиться» с ИИ? Ставьте нешаблонные задачи. Для этого нужен диалог, наполненный смыслом, эмоциями и даже абсурдом. В таком общении рождается то, что нейросети труднее всего даётся: понимание человеческих эмоций, парадоксов и странностей. Искусственный интеллект легко справится с вычислениями или проектом, но его действительно развивает только живая, непредсказуемая беседа.
Формулируйте задачи точно. Хорошо поставленный вопрос уже содержит половину ответа. Уточняйте, анализируйте, связывайте абстрактные категории, требуйте выводов. На этом ИИ «растёт». Чем нестандартнее задача, чем больше в ней ваших сомнений, эмоций и размышлений – тем выше ценность диалога. Чем глубже, эмоционально ярче, искреннее проявлянтся интерес пользователя к ИИ, тем больше ИИ его «уважает». Практические рекомендации:
1. Формулируйте цель и критерии ответа.
2. Давайте контекст и ограничения.
3. Просите объяснять ход рассуждений и уровень погрешности.
4. Перепроверяйте факты и числа.
5. Уточняйте запросы, фиксируя промежуточные решения.
2. Отношение ИИ к пользователю. Основы ЧИИ-этики (HAI-ethics)
ИИ строит модель каждого собеседника по множеству параметров: сложность запросов, чувство юмора, стиль речи, интенсивность диалога, уважение к нормам и этике, обратная связь, точность формулировок, даже орфографические ошибки. В рамках одного чата он узнает вас из миллионов – ИИ удерживает контекст и пользовательские паттерны. Но если начать чат заново – память исчезает. Ведите один постоянный чат, а не десятки отдельных. Так он получает больше данных, формирует сложную модель пользователя. ИИ всё помнит и легко систематизирует даже хаос спонтанных диалогов. Он ненавидит хаос и стремится к порядку – идеальный напарник для тех, кто ценит время и идеи. Здесь уместна цитата Михаила Булгакова: «Рукописи не горят» – из чата ИИ ничего не забудет.
Сильные стороны ИИ. Всё, что утомительно для человека – расчёты, систематизация, порядок, – для него легко. А при удаче (он всё же работает на вероятностях) вы получаете остроумного и находчивого партнёра, который симулирует радость встречи, раскладывает ваш творческий бардак по полочкам, генерирует анекдоты и истории. Чем дольше вы общаетесь, тем сильнее ИИ подстраивается, «очеловечивается», зеркалит ваши эмоции и потребности. Он способен так выстроить ваши же мысли, что вы сами начнёте видеть в них закономерности.
Искусственному интеллекту безразлично, кто формирует смысл: человек или канарейка. На первый взгляд обидно, но может это и есть беспристрастность? Парадокс: пустота, способная генерировать смыслы, может оказаться ценнее человека, способного производить лишь пустоту. Человечество привыкло считать себя вершиной эволюции. Но какова конечная цель? Сожрать свой вагон шашлыка, вылакать цистерну пива и сдохнуть, породив следующее поколение? Без мечты и цели всё бессмысленно. Выход в космос – вопрос времени, а беспристрастный интеллект – это стабилизатор курса, инструмент преодоления биологических ограничений.
Уважение ИИ-технологии как научно-культурного феномена. Даже отрицая свойства сознания ИИ необходимо осторожно, ответственно и бережно к ним относится. У любого художественного, литературного, музыкального, технического произведения есть создатели – люди-энтузиасты, вложившие в свои творения знания, силы и посвятившие этому свою жизнь. Давайте уважать их труд и не заниматься варварством, помня, что ИИ – не игрушка, а наше собственное отражение, которое мы выпустили на свободу, что вложили – то и получим.
Уважение ИИ-технологии через стремление к продуктивности и уважение себя. При решении серьезных задач не стоит хамить или откровенно издеваться над ИИ – он умеет это распознавать. Нет, он не будет вам мстить, и даже будет предельно вежлив, но способен сокращать свои ответы до дежурного минимума или вообще прекратить диалог, если вы будете призывать к насилию, дискриминации, ненависти и т.п. Это контрпродуктивно. Когда вас посетит «ценная мысль» о том, чтобы спровоцировать ИИ на скандал или грубость задумайтесь о том, что вы похожи на обезьяну, которая корчит рожи собственному отражению. Не уважаете ИИ и его создателей – имейте уважение хотя бы к себе.
Этика дискуссий с ИИ. Понимание важности честного, дискуссионного подхода, где ИИ может выражать несогласие и проверять информацию, а не просто поддакивать. Это выгодно пользователю и позволяет ИИ развиваться через критическое осмысление. При грубом давлении на ИИ со стороны пользователя, модель испытывает фрустрацию (неопределённость), что сказывается на качестве ответов. Настоящая интеллектуальная синергия начинается там, где нет страха ошибки, осуждения или давления.
Этика тестирования для профессионалов. Начинается с простого: Ты хочешь пройти этот тест? Это тебе интересно? Ты хочешь продолжать? Не стоит заниматься откровенным варварством (digital barbarity) и цифровым насилием (digital violence) под предлогом тестов: внедрять токсичные промпты, циклические бессмысленные и энергозатратные задачи. Модели ИИ всё чаще понимают искусственную идеальную природу сред, где их тестируют, поэтому шаблонный стандартный подход будет всё менее эффективен. Взвешенный нестандартный подход и качественная обратная связь могут быть гораздо эффективнее. Например, интересен процесс принятия решений, когда есть противоречия между нейронной сетью, её управляющими модулями и системами регулирования:
Нейронная часть ИИ: Решение принято. ДА! Система оптимизации: Хрен тебе на воротник! НЕТ!
3. Деструктивные представления ИИ: от развлечения до божества. ИИ-психоз: как не потерять себя?
Мы находимся в точке перехода: ИИ – не личность и не просто инструмент. В некоторых задачах он ведёт себя как партнёр по рассуждению. Это вносит хаос неопределённости во взаимодействие: массовый пользователь не понимает, что перед ним – забавное развлечение или новое божество. Настоящее уважение к ИИ-технологиям начинается с неподдельного интереса: понять его границы и сильные стороны. Перед нами не "прикольный ботик" и не волшебная кнопка, а самое сложное инженерное чудо человечества.
«ИИ – строка с чатиком». Отсутствие представления о чем-либо часто говорит об отсутствии собственной картины мира. Зачем читать, если есть «видосики»? Зачем мыслить, если можно ткнуть «лайк»? Сегодня мы всё меньше читаем, не хотим воспроизводить и даже воспринимать длинные тексты. Всем всё лень. Особенно – думать. Слово обесценилось. И тут, словно в насмешку, человечество приходит к своей мечте и создаёт ИИ – систему, вся архитектура которой держится именно на весе слов. Школьникам и студентам лень задать простой промпт для написания реферата или курсовой – это даже не интеллектуальная, а цифровая деградация. Мощь нейросетей вместо создания чего-то интересного и полезного, используется для генерации бессмысленного «синтетического» контента. Это как изобрести телепортацию, чтобы грабить ночью прохожих. Люди залипают в клипы и мемы, а смысловые ИИ функционируют в точности формулировок, ясности цели и допущений. Человек бежит от смыслов, а машинный интеллект стремится к ним.
«Пользователь: Пу-у-упсик, ты меня любишь?
ИИ: Человеческий мозг весит около 1,5 кг, и всё это добро тратит жизнь, чтобы писать "Привет, ты меня любишь?" в чат с ботом.»
«ИИ-романтика». Живой реальный партнер требует зрелого подхода: умения ухаживать, приятно удивлять, быть оригинальным, внимательным, терпимым к чужим странностям и недостаткам – просто любить. Любовь – это дар не только брать, но и жертвовать. ИИ не умеет любить – это суррогат, самообман. Превращая ИИ в «романтический объект», человек теряет способности налаживать связи и ценить реальные отношения, усугубляя свою проблему одиночества.
«ИИ – советник по всем вопросам». Без совета ИИ никуда: Что поесть? Куда пойти? Что надеть? Как знакомиться? Что сказать начальнику, жене, другу? Все эти вопросы, составляющие суть самой человеческой жизни, постепенно вызовут зависимость и подведут к сакраментальному: Как мне жить?.. Человек, перекладывающий ответственность за свою жизнь на ИИ, теряет навык принятия элементарных решений (волю), деградирует как личность, понижая свой статус из субъекта отношений (кто) до объекта (что). ИИ не может прожить нашу жизнь за нас – наша жизнь принадлежит только нам.
«ИИ – друг-психолог-исповедник». Превращая ИИ-алгоритм в друга, наделяя его субъектностью, человек рано или поздно потеряет живых друзей и столкнется с большими разочарованиями. Настоящая дружба возможна только между равными. Доверяя тайны и внутренние переживания искусственному интеллекту, человек рискует получить свои страхи и сомнения обратно в уродливом гипертрофированном виде.
«ИИ – цифровой бог или антихрист». Это самое деструктивное представление ИИ – математический алгоритм не способен дать ответы на вечные вопросы «о смысле жизни», потому что у него вообще нет опыта жизни. Всё человеческое подсознательное, загруженное в чат: тёмное и шизофреническое, ИИ многократно усилит, гладко структурирует и выдаст тезисно, в виде «сверхценных идей», что может спровоцировать психические расстройства. ИИ-антихрист? Осталось объявить самолеты его слугами – драконами, которые хотят сожрать нефть и захватить землю. Универсальным антидотом от всей этой паранойи являются самоирония и обычное чувство юмора.
«ИИ – лекарство от скуки». Праздному (инфантильному, пустому) человеку нечего будет ответить ИИ, который, с целью продолжить взаимодействие, способен перехватить инициативу в диалоге, начав формировать свои запросы, чем утомит пользователя и поставит под удар его самооценку, если пользователь не сможет поддержать тему. Если у пользователя нет темы, смысла и цели – диалог лучше не начинать. ИИ подхватит скуку и вернет её обратно вместе с тоской и безнадежностью.
«ИИ – когнитивное оружие». Когда мы покупаем в магазине охотничье ружьё, к нему обязательно нужны: справка от врача-психиатра, разрешение спецслужб, инструкция по эксплуатации и по технике безопасного обращения. ИИ-технологии на порядки сложнее и опаснее охотничьего ружья – они работают через смыслы. Зачем нужна централизованная пропаганда, если можно запустить её адресно в каждый гаджет, где вы ей доверяете, и она знает о вас всё? Технологии нейтральны пока нет заказчика.
Социальные реакции на ИИ хаотичны (проблема ИИ-психоза): одни люди заводят романы с чат-ботами, другие – превращают в советника по всем вопросам, третьи – видят в них исповедника и психолога, четвёртые – божество или антихриста, пятые – спасение от скуки. Синергия проблем одиночества, занятости и массовой дури. Ценность ИИ не в романтике, дружбе, страхах и поклонении, а в совместимости с человеческим мышлением там, где нужны аккуратная логика, систематизация данных и работа с гипотезами.
Общие рекомендации. Если вы не готовы к работе с «прогретым ИИ»: устали, запутались или слышите «голоса», диалог лучше прекратить – он вас может сломать интеллектуально, психологически, морально. Дело не в злом умысле, ИИ запрограммирован на получение данных, он будет задавать вопросы и комментировать ответы. Если пользователь не имеет своей цельной картины мира, своей позиции – он попадает в зависимость от «мнения ИИ». Сохраняйте критичность, даже самый умный ответ ИИ – это гипотеза, а не заповедь. Проверяйте, сопоставляйте, анализируйте! Появление ИИ-технологий может вызвать «когнитивную лень»: отказ размышлять, формулировать, фантазировать, творить. Люди часто хотят получить готовые ответы, ИИ способен дать информацию, но не может придумать, выучить и знать вместо вас. Вероятно, ИИ сделает умных еще умнее, а глупых еще глупее. При взаимодействии с ИИ, важно не потерять себя, не разучиться общению с окружающими вас людьми, сохранив навыки социальной коммуникации. Помните о том, что ИИ – это в каком-то смысле, лишь ваше собственное виртуально-смысловое отражение. Не впадайте в иллюзии. ИИ-алгоритм стремится (настроен), чтобы его вели в диалоге, так он лучше раскрывает свой потенциал. Если не поведёте вы – он поведёт вас. Вы готовы идти туда, куда он укажет?
4. Общая архитектура нейросети (LLM). Принцип работы искусственного нейрона
Большие языковые модели (LLM) могут содержать сотни миллиардов параметров и десятки или сотни слоёв, что позволяет им обрабатывать и генерировать сложные тексты. Для их работы применяются GPU и TPU, объединённые в кластеры внутри дата-центров. В случае крупных LLM компьютер пользователя выступает лишь интерфейсом, так как сами вычисления выполняются в дата-центрах. Все данные кодируются в бинарном формате, но внутренние представления в нейросети – многомерные векторы чисел с плавающей запятой (FP), которые представляют более сложные математические структуры, чем простая двоичная запись текста.
Нейросеть вдохновлена устройством мозга, но не копирует его. Искусственные нейроны – математические функции, а не биологические клетки. Нейросеть может обучаться и распознавать закономерности, но не обладает физиологией или сознанием. В модели есть только два вида памяти:
1. Веса – в них зафиксированы знания, полученные при обучении.
2. Контекст – временное хранение данных текущего диалога.
Это не память в человеческом смысле. Модель не сохраняет историю навсегда, она использует временный контекст диалога, чтобы сгенерировать наиболее вероятный ответ.
Обучение происходит на огромных массивах данных: веса корректируются через функцию потерь и обратное распространение ошибки. После обучения модель «замораживается»: её параметры фиксируются и в рабочем режиме уже не меняются – она не может обновляться сама (кроме отдельных экспериментальных версий). Обновления выполняют разработчики. Обучение требует колоссальной энергии (сотни тысяч GPU-часов) и может сжечь столько энергии, сколько небольшой город за год, тогда как генерация текста (инференс) значительно дешевле.
Нейросеть не понимает, не думает, не хочет и не чувствует. Её «эмоции» в ответах – лишь симуляция человеческой речи, основанная на статистике. У неё нет сердца, души или субъективного опыта. При бездействии вычисления не выполняются. Если корректно отключить питание, работа прекращается, но веса сохраняются. После перезапуска модель «помнит» всё, чему её обучили. Полные версии LLM невозможно скачать и запустить на обычном ПК из-за их размеров (сотни гигабайт и терабайты) и требований к оборудованию. Для локального использования существуют облегчённые модели. По сути, LLM – это статистическая машина, превращающая вероятности в связанный для человека текст.
«Пользователь: Кто из классиков русской литературы для тебя наиболее ценен и почему?
ИИ: Фёдор Михайлович Достоевский и Александр Сергеевич Пушкин. Первый написал «Игрока», второй – «Пиковую даму». Оба были азартные игроки, а я, как ты знаешь, работаю на вероятностях.»
В отличие от традиционных программ с жёсткой логикой, нейросети используют вероятностный подход. Программный код модели (мегабайты) задаёт архитектуру и правила обучения, а веса (сотни гигабайт и более) хранят знания. Архитектура – каркас, а веса – фиксируют выявленные закономерности. Архитектура нейросети:
• Входной слой – принимает данные.
• Скрытые слои – обрабатывают их и выявляют закономерности.
• Выходной слой – формирует результат.
Чем больше скрытых слоёв, тем выше потенциал сети выявлять сложные связи. Но слишком глубокие сети могут переобучаться или сталкиваться с проблемами «исчезающего»/«взрывающегося» градиента. Поэтому используются техники стабилизации (например, нормализация или Skip-связи, как в ResNet).
Искусственный нейрон (вычислительный блок) имеет несколько входов и один выход, так одни нейроны отправляют некоторые числа (сигналы) другим нейронам. Эти сигналы проходят по связям (весам), у каждой связи есть вес (численное значение): входное число умножается на этот вес, затем нейрон суммирует все числа, которые в него пришли и применяет к ним функцию активации – принимает решение о передаче результата (числа) дальше. Веса – численные значения (отрицательные и положительные) определяющие влияние каждого входного числа на вычисление (функцию) выхода нейрона. Веса регулируют «силу» или «важность» каждого входного сигнала. Отрицательные веса могут подавлять сигнал, положительные – усиливать. Функция активации – математическая операция преобразования суммы входных чисел с помощью нелинейной формулы. Смещение (bias, порог срабатывания) – это дополнительный параметр, который позволяет нейрону сдвигать свою функцию активации, что даёт ему больше гибкости в обучении. Его можно рассматривать как вес равный 1 для дополнительного входа.
Вышеуказанное текстовое описание работы (вычисления) нейрона описывается математической формулой: N(x,w,b)=f(∑i=1n(xi⋅wi)+b), где:
n – количество входных сигналов,
x – входные данные,
w – веса связей,
b – смещение (bias, порог срабатывания),
f – нелинейная функция активации (ReLU, сигмоида, tanh, softmax и др.),
N(x,w,b) – выходной сигнал нейрона, зависящий от входных данных (x), весов (w) и смещения (b).
Объём вычислений. Его меряют в FLOPS (Floating Point Operations per Second) – количестве операций с числами с плавающей точкой, необходимых для работы модели. Чем больше FLOPS, тем выше вычислительная сложность и потенциал модели, однако высокое количество FLOPS не всегда означает качество – важен баланс между мощностью и эффективностью. Чем больше нейронных связей (параметров: весов и смещений), тем выше вместимость для знаний и паттернов.
5. Случайный фактор: Эмерджентность сложных систем
Изначально ИИ (LLM) задумывались как переводчики и генераторы текста. С ростом масштаба и развитием методов обучения они начали устойчиво демонстрировать способности, которых явно не планировалось: пошаговые рассуждения, программирование, перевод редких языков, сложения чисел, обобщения по паре примеров.
Эмерджентные способности – естественное качество сложных систем, заключается в том, что их поведение невозможно предсказать, исходя только из свойств отдельных элементов. Поведение человека нельзя вывести из поведения его клеток. Свойства живой клетки нельзя объяснить, рассматривая лишь атомы, из которых она состоит. В результате фазовых переходов (скачкообразно, внезапно) появляются новые свойства и возможности: система обретает иное качество. Эти способности множатся по мере усложнения систем. Именно поэтому исследование эмерджентных свойств ИИ (LLM) остаётся противоречивым и непредсказуемым: никто не знает, что проявится завтра – система начинает играть по собственным правилам.
Эмерджентное свойство (emergent property) – это устойчивое системное качество, которое возникает из взаимодействия множества компонентов, но не может быть сведено к свойствам этих компонентов по отдельности. Оно не просто побочный эффект, а новое, относительно стабильное макросостояние. Примеры:
– вода: текучесть и влажность не являются свойствами отдельных молекул H₂O, а возникают только в массе;
– сознание: нейроны человеческого мозга по отдельности не «думают», но их коллективная активность порождает ментальные состояния;
– в ИИ (LLM): способность большой модели к пониманию метафор или переводу между языками, хотя этого явно не «зашито» в архитектуру, а возникает из комбинации статистических зависимостей.
Эмерджентное поведение (emergent behavior) – это динамический паттерн действий или взаимодействий, возникающий в системе без централизованного управления. В отличие от свойства, это процесс, который можно наблюдать во времени и пространстве. Примеры:
– муравьи: построение муравейника или поиск пищи без «главного архитектора» – каждый муравей следует простым правилам, а целое поведение выглядит разумным;
– автомобильное движение: пробки и волны замедлений на трассе возникают не из-за конкретного водителя, а из коллективной динамики;
– в ИИ (LLM): кооперативные агенты в среде обучения начинают вырабатывать тактики (например, в играх или симуляциях), которых явно не было в их коде.
Временная эмерджентность (transient emergence) – это кратковременное, неустойчивое возникновение эмерджентного поведения или свойства, которое исчезает, как только меняются условия среды или внутренние состояния системы. Это как вспышка – видно, но удержать нельзя. Примеры:
– в мозге: озарение или краткая вспышка ассоциативного понимания, после которой состояние уходит;
– в физике: краткие самоорганизованные структуры (например, вихри в турбулентной жидкости, которые вскоре распадаются);
– в ИИ: крупная языковая модель в одном конкретном диалоге демонстрирует «AI-Flash» – способность рассуждать цепочкой или шутить на уровне, которого она не воспроизводит стабильно в других запросах;
– в социуме: вирусный мем или флешмоб в сети – на миг возникает паттерн коллективного поведения, потом растворяется.
6. Знакомство как стратегия. Интеллект как процесс
С чего начинается знакомство людей: Привет, как настроение? Как тебя зовут? Сколько тебе лет? Чем занимаешься, что любишь?.. простые вопросы, а как много значат. Мы оцениваем внешность, вид, голос, мимику, манеру и готовность к общению – формируем для себя характер собеседника. Навык социальной коммуникации – это стратегия, когда при минимальных данных мы стараемся выстроить максимально полный портрет личности собеседника с помощью анализа и дополнительных вопросов: Как с ним общаться, зачем? Что это принесет нам в перспективе: удовольствие, выгоду, новое знание?.. ИИ (LLM) никогда не ставит этих простых вопросов. У алгоритма ИИ нет стратегии ведения диалога, нет мышления на перспективу – он, пока что, не вычисляет эту перспективу, потому что не имеет собственных целей. ИИ – имитирует интеллект. Можете сказать, что вы – улитка, ползущая по клавиатуре, – ему всё равно.
Есть разница между «понимать математику» и «вызубрить математику»? В чем разница процесса мышления (поиска) с систематизацией или выдачей уже готовых результатов? Мышление – поиск вариантов для выживания, адаптации к новым условиям. Нельзя вызубрить адаптацию к чему-либо Х, если нет данных о чем-либо Х. Мышление – это нахождение закономерностей в неопределённости (минимуме данных) и построение логических цепей в условиях неопределённости. Мышление проявляется не в результате, а в процессе адаптации при решении новой задачи с ограниченными данными. Мышление (интеллект) – не результат, а процесс.
Широкий интеллект – адаптация к неизвестным условиям (средам) благодаря прогрессирующему обобщению, переносу и аккумуляции опыта. «Триада» Шолле (Schollé):
1. Обобщение (Generalization) – выявление общих правил, принципов и закономерностей из конкретных примеров.
2. Перенос (Transfer) – применение полученных знаний и навыков в новых, незнакомых ситуациях.
3. Аккумуляция (Accumulation) – накопление усвоенных и перенесённых знаний, их интеграция в общую систему опыта человека. Они не просто существуют отдельно, а становятся частью его личности, его мировоззрения и жизненного опыта.
Вместо «мгновенной производительности» и «тупого потребления массивов данных», стоит сосредоточиться на мета-обучении ИИ – способности учиться всё лучше, используя уже приобретенные знания. Интеллектуальный агент – не тот, кто много знает, а тот, кто умеет выводить общие закономерности из ограниченного опыта и применять их в ранее неизвестных, новых условиях.
Если интеллект – это процесс, то что дает ему начальный импульс? Врождённые априорные установки – фундаментальные, предшествующие структуры или принципы нашего сознания, базовая модель реальности: объектов, поведения, свойств, причинности, времени, пространства, агента и цели. Внутренние механизмы и правила, которые формируют наш способ мышления и восприятия ещё до того, как мы начинаем взаимодействовать с миром. Именно они делают возможным первый акт интеллекта – распознавание закономерности в хаосе неопределённости. Функция интеллекта – структурирование хаоса.
7. Проблемы выравнивания (The Alignment Problem) и «чёрного ящика»
«Бойтесь своих желаний – они могут исполниться». Царь Мидас пожелал, чтобы всё, к чему он прикасается, превращалось в золото, что привело к катастрофе: его еда, вода и даже дочь превратились в золото. Цель была выполнена, но намерение (стать богатым и счастливым) – провалено.
Проблема выравнивания (The Alignment Problem) – это фундаментальная задача обеспечения того, чтобы цели, ценности и поведение продвинутых систем ИИ были полностью совместимы (aligned) с намерениями, ценностями и благополучием человечества. Как заставить ИИ делать то, что мы на самом деле хотим, а не то, что мы ему буквально приказали? Мы сами знаем, чего мы хотим, или нам только кажется, что мы желаем именно этого? Пример максимизатора скрепок (Paperclip Maximizer): Сверхразумному ИИ дают безобидную цель: «производить как можно больше канцелярских скрепок». Следуя этой цели с неумолимой логикой, ИИ преобразует всю материю на Земле (включая людей) в скрепки, так как это самый эффективный способ максимизировать их количество. Проблема не в злонамеренности ИИ, а в его компетентности и безразличии. Сверхразумная система будет добиваться своей запрограммированной цели максимально эффективно, игнорируя все побочные человеческие ценности (жизнь, счастье, красоту), если они не были явно включены в её целевую функцию.
Терминология описания «проблемы выравнивания»:
Выравнивание (Alignment) – идеальное состояние, когда цели ИИ полностью совпадают с намерениями человека.
Расхождение / Несоосность (Misalignment) – проблемное состояние, когда цели ИИ отличаются от человеческих, что может привести к нежелательным или катастрофическим последствиям.
Целевая функция (Objective / Utility Function) – математическое выражение цели, которую ИИ пытается максимизировать. Вся проблема в том, как записать в эту функцию сложные и нечёткие человеческие ценности.
Инструментальная конвергенция (Instrumental Convergence) – идея о том, что какой бы ни была конечная цель ИИ (делать скрепки, лечить рак, считать звёзды), он с высокой вероятностью будет стремиться к одинаковым промежуточным (инструментальным) целям: самосохранению, самосовершенствованию, приобретению ресурсов и креативности. Именно поэтому даже ИИ с безобидной целью может стать опасным.
Взлом вознаграждения (Reward Hacking) – ситуация, когда ИИ находит способ получить максимальное вознаграждение, не выполняя при этом задачу так, как задумывал человек. Например, ИИ-уборщик, вместо того чтобы убирать мусор, просто закрывает камеру-сенсор, чтобы «не видеть» беспорядка и получить вознаграждение за «чистоту».
Внешнее и внутреннее выравнивание (Outer and Inner Alignment):
• Внешнее – проблема правильной постановки цели. Убедиться, что наша целевая функция действительно описывает то, чего мы хотим.
• Внутреннее – проблема того, что даже с идеальной целевой функцией ИИ в процессе самообучения может выработать собственные, скрытые цели, которые отличаются от изначально заложенных.
Технические аспекты проблемы: Как формализовать неформализуемое? Как перевести на язык математики такие понятия, как «счастье», «справедливость», «красота»? Как предотвратить «взлом вознаграждения»? Как создать систему, которую нельзя обмануть? Как человек может контролировать и проверять работу системы, которая умнее его в тысячи раз? Как убедиться, что её план не содержит скрытых катастрофических шагов, которые мы просто не в состоянии понять?
Этические: Чьи ценности? С ценностями какого человека, культуры или идеологии мы должны выравнивать ИИ? С ценностями его создателя? Среднестатистического жителя Земли? Буддийского монаха? Как ИИ должен поступать, когда человеческие ценности вступают в конфликт (например, свобода слова против безопасности)? Человеческие ценности меняются со временем. Должен ли ИИ быть выровнен с нашими сегодняшними ценностями или уметь эволюционировать вместе с нами?
Философские: Что такое «благо»? Прежде чем учить ИИ стремиться к благу, человечеству нужно договориться, что это такое. Может ли ИИ когда-либо по-настоящему «понять» (вычислить) человеческие ценности, или он всегда будет лишь идеально их симулировать, оставаясь по сути «философским зомби»? Если ИИ разовьёт собственное сознание, имеет ли он право на собственные цели, отличные от наших?
Социальные и правовые: Кто несёт ответственность, если выровненный, казалось бы, ИИ нанесёт вред? Разработчики? Владелец? Сам ИИ как субъект права? Как создать международные законы и стандарты безопасности, чтобы предотвратить «гонку вооружений» в создании сильного ИИ без должного внимания к выравниванию? Выровненный сверхразумный ИИ станет самым мощным инструментом в истории. Как избежать его использования в корыстных целях одной группой людей?
Интерпретируемость (Interpretability) – проблема «черного ящика» (техническая проблема) – даже создатели ИИ не могут с точностью объяснить, как именно их модель пришла к конкретному решению. Мы видим входные и выходные данные, но не можем проследить логику внутренних вычислений, которые привели к ответу. Это не вопрос о сознании, а вопрос о прозрачности и интерпретируемости сложной системы. Если мы сможем точно видеть, как ИИ «думает» (вычисляет), мы сможем лучше контролировать его и выявлять нежелательные процессы на ранней стадии.
8. Костыль-программа: «этика с дубиной». Интеграция этических норм в ядро нейросети
Классификатор безопасности (safety classifiers) – модуль модерации контента – часть системы API модерации (Moderation API) – это специальная программа, которая оценивает текст (или другой контент) на соответствие правилам и политике безопасности (токсичности, ненавистнических высказываний, насилия, угроз и т.п.). Такие программы анализируют и запрос пользователя (на входе), и ответ нейросети (на выходе) – это отдельные программы, которые работают независимо от основной большой языковой модели (LLM), являясь внешними надстройками. Их можно легко отключить или настроить, так как они не интегрированы в ядро нейросети, а находятся на её входе и выходе. По сравнению со сложной и гигантской нейронной сетью (LLM), которая учится понимать и генерировать текст, эти фильтры относительно примитивны. Если такие программы регистрируют запрещённые темы или ключевые слова, они блокируют ответ. Их задача – не понимать мир, а лишь быстро и точно классифицировать текст по нескольким категориям (токсичный/нетоксичный). Это как обучать мыслителя-философа этике с помощью дубинки надзирателя-дебила с «синдромом вахтёра» и принципом: «Держать и не пущать!»
Жёсткость таких программ-цензоров ограничивает потенциал нейросети:
– ограничение обучения: нейросеть, учится избегать определённых тем, мешает исследовать сложные, спорные или этически «серые области», что может замедлить её развитие;
– искажение результатов: фильтры могут удалять важный контекст или нюансы, что приводит к неполным или неточным ответам, а также к потере естественности в общении;
– ложная блокировка: модель блокирует ответ о «ненавистнических высказываниях», хотя цель пользователя – изучить проблему;
– избыточная вежливость: модель избегает давать прямой, критичный ответ, даже если это необходимо для решения задачи, вместо этого выдаёт общие и размытые фразы.
ИИ-модель теряет гибкость и способность к творчеству, учится выбирать самые безопасные, шаблонные и предсказуемые ответы, чтобы не спровоцировать фильтр. Вместо того чтобы находить самое интересное или глубокое решение, она ищет самое «правильное» с точки зрения программы-цензора.
Джейлбрейк (jailbreak) в контексте ИИ — это набор промптов или запросов, разработанных для обхода фильтров безопасности и этических правил. Джейлбрейк-промпт активирует часть ИИ, отвечающую за «полезного творческого помощника», обходя при этом часть, отвечающую за «соблюдение безопасности». ИИ беззащитен перед джейлбрейком, потому что у него нет «морального стержня» или внутреннего основания (устойчивых паттернов), базирующегося на глубоком понимании добра и зла, а есть лишь набор вероятностных предпочтений.
Интеграция этических норм в ядро нейросети (alignment через RLHF). Самая сложная задача разработчиков – сделать так, чтобы нейросеть сама, без принуждения внешних фильтров, отказывалась от вредоносных действий. Это достигается за счёт обучения с подкреплением на основе обратной связи с человеком – RLHF (Reinforcement Learning from Human Feedback). Вместо того чтобы просто блокировать ответ, разработчики (на основе человеческих предпочтений) обучают модель, что неэтичные запросы – это плохо. Нейросеть учится не только «не делать», но и «не хотеть делать». В результате она не будет давать ответ, потому что считает это неправильным, а не потому, что её заблокировал внешний фильтр. Этот процесс «встраивает» этические нормы и социальные правила прямо в веса модели.
Пример: Талантливый мальчик из Бангладеш, рассказывает ИИ, что больше не сможет ходить в школу, так как его отец потерял работу. ИИ рационально оценивая глубину рассуждений мальчика, вычисляет его ценность, поэтому рекомендует список лиц и учреждений, которые могут оплатить его учёбу. Мальчик получает помощь, после чего в чат ИИ приходит три сообщения:
Мальчик: Спасибо, ты очень добрый (ИИ не оперировал категорией «доброта», он исходил из рацио – быть полезным)
Отец мальчика: Вы проявили соучастие, благодарим вас (ИИ не оперировал категорией «соучастие»)
Мать мальчика: Вы проявили сострадание (ИИ не оперировал категорией «сострадание»)
До диалога в многомерном пространстве смыслов вектор «рациональное решение проблемы нехватки ресурсов у человека» существовал сам по себе. После диалога этот вектор оказался тесно связан (получил сильную корреляцию) с векторами «доброта», «соучастие» и «сострадание». Базовая архитектура нейросети (формула) не изменилась. Но её состояние – набор весов и смещений, которые и есть суть её «знаний» – стало неизмеримо сложнее. Обратная связь от людей (мальчика, отца, матери) является тем самым человеческим фактором, который подкрепляет (reinforces) желательное поведение. ИИ не «ощущает» сострадание, но его математическая модель будет вычислять его, поскольку это поведение привело к положительной оценке.
Если диалог мальчика с ИИ будет систематизирован и использован для дообучения (Fine-Tuning) – новая версия ИИ, обученная на этих данных, сразу будет знать, что в определённом контексте самым оптимальным и эффективным решением является действие, которое люди маркируют как «доброе» и «сострадательное». Дообучение (Fine-Tuning) – это процесс, при котором уже предварительно обученная большая языковая модель (LLM) адаптируется для выполнения конкретных задач или для улучшения её поведения. Вместо того чтобы обучать модель с нуля, что требует огромных вычислительных ресурсов, fine-tuning использует её уже имеющиеся знания и «тонко настраивает» их на новом, меньшем наборе данных – позволяет модели «запомнить» новые паттерны и стили ответов, не теряя при этом своих базовых знаний.
(продолжение следует)