(Это отрывок из статьи «Artificial Intelligence and Its Implications for Future Suffering».)


В распространенной фантазии захват мира мятежным ИИ положил бы конец страданиям (как и счастью) на Земле, убив всю биологическую жизнь. Также он, согласно этой истории, положил бы конец страданиям (и счастью) на других планетах в процессе добычи из них ресурсов. Таким образом, если смотреть на этот сценарий лишь с точки зрения количества страданий, то не получится ли, что мятежный ИИ принес бы меньше страданий в долгосрочной перспективе?

Это не обязательно так, потому что хотя ИИ может уничтожить биологическую жизнь (возможно, после взятия образцов и сохранения особей для проведения лабораторных экспериментов для будущего использования), он создаст изобилие цифровой жизни, часть которой будет содержать системы целей, в которых мы признали бы моральную значимость. ИИ, созданные путем отличным от загрузки сознания, вероятно, будут менее эмпатичными, чем люди, потому что некоторые из факторов, которые привели к появлению эмпатии у людей, — такие как воспитание, — не будут работать в их случае.

Один простой пример мятежного ИИ — максимизатор скрепок. Эта концепция неконтролируемого ИИ1 почти наверняка слишком упрощенна и, возможно, ошибочна, поскольку далеко не очевидно, что ИИ будет единым агентом с одной четко определенной функцией полезности. Тем не менее, пока люди не разработают более реалистичные сценарии мятежного ИИ, может быть полезно представить, что с нашим световым конусом будущего сделал бы максимизатор скрепок.

Ниже приведены некоторые прикидки о том, какими могут быть относительные количества страданий (в условных единицах), которые принес бы типичный мятежный ИИ. Страдания представлены отрицательными числами, а предотвращение страданий — положительными.

Что насчет ИИ, вдохновленного человеческими ценностями? Опять же, вот некоторые прикидки:

Возможно, некоторые ИИ не захотят расширять мультивселенную (если такое вообще возможно). Так, если бы у них была минимизируемая целевая функция (например, устранение рака), они хотели бы сделать мультивселенную меньше, а не больше. В этом случае число связанных с физикой страданий поменялось бы от -100 к чему-то положительному, скажем, +50 (если, скажем, расширить — вдвое проще, чем уменьшить). Я предполагаю, что минимизаторы менее распространены, чем максимизаторы, но не знаю насколько. Правдоподобно, что система целей сложного ИИ будет иметь компоненты обоих направленностей, потому что сочетание удовольствия и боли выглядит более успешным, чем по отдельности.

Другое соображение касается неприятной возможности того, что люди могут произвести загрузку ценностей в ИИ почти правильно, но не совсем правильно, что приведет в результате к огромным страданиям. Например, предположим, что проектировщики ИИ хотели создать огромные количества симулированных человеческих жизней, чтобы уменьшить астрономические потери. Но когда ИИ на самом деле создал эти симуляции людей, они не были идеальными копиями биологических людей, — возможно, потому, что ИИ сэкономил на деталях, чтобы повысить эффективность. Несовершенно симулированные люди могут страдать от психических расстройств, сходить с ума из-за пребывания в чуждой среде обитания и так далее. Повышает ли риск таких исходов работа над безопасностью ИИ или понижает? С одной стороны, вероятность такого исхода близка к нулю в случае AGI с совершенно случайными целями (например, буквального максимизатора скрепок), так как скрепки очень далеки от человека в пространстве возможностей. Риск случайного создания страдающих людей выше для почти дружественного ИИ, который работает немного неправильно, а затем становится неконтролируемым, предотвращая свое отключение. Успешно контролируемый AGI, кажется, несет меньший риск плохого исхода, поскольку люди, должно быть, признают проблему и исправят ее. Так что риск такого рода дистопии может быть самым высоким в среднем промежутке, где безопасность ИИ достаточно развита, чтобы привести цели ИИ близко к человеческим ценностям, но недостаточно развита, чтобы гарантировать, что человеческие ценности будут его контролировать.

Погрешности вышеприведенного анализа огромны. Возможно, есть другие, не упомянутые здесь соображения, которые важнее всех остальных. Этот вопрос требует гораздо более подробного изучения, поскольку от него зависит, должны ли те, кого больше всего заботит уменьшение страданий, фокусироваться на уменьшении рисков ИИ, или же другие направления имеют для них более высокий приоритет.

Даже если уменьшители страданий не фокусируются на стандартной безопасности ИИ, им, вероятно, нужно оставаться активными в области ИИ, потому что здесь есть много других путей положительного влияния2. Например, простое расширение диалога по этой теме может подсветить возможности взаимовыгодных способов для различных систем ценностей получить больше того, чего они хотят. Уменьшители страданий могут также указать на возможную этическую важность страдающих низкоуровневых подпрограмм, которые пока не являются предметом озабоченности даже тех аудиторий, которые больше всего разбираются в ИИ. И так далее3. Есть, вероятно, много направлений, по которым можно внести конструктивный выгодный для разных сторон вклад4.

Имейте также в виду, что даже если уменьшители страданий поддерживают безопасность ИИ, они могут попытаться поддержать такие проекты ИИ, которые в случае провала и потери контроля над ИИ привели бы к менее дурным последствиям5. Например, потеря контроля над ИИ, который является минимизатором чего-либо, была бы гораздо предпочтительнее, чем потеря контроля над ИИ-максимизатором. Может быть много других направлений, по которым, даже если вероятность потери контроля одинакова, исход в случае неудачи предпочтительнее исходов потери контроля в других случаях.


  1. Я предпочитаю использовать термины «контролируемый» и «неконтролируемый» ИИ, потому что они кажутся наиболее прямыми и наименее путающими. (Это сокращения для «контролируемый людьми ИИ» и «неконтролируемый людьми ИИ».)

    Термин «дружественный ИИ» может запутывать, поскольку он подразумевает нормативные суждения, и не ясно, означает ли он «дружественный к интересам выживания и процветания человечества» или «дружественный к цели уменьшения страданий» или что-нибудь еще. Можно подумать, что «дружественный ИИ» означает просто «ИИ, дружественный к вашим ценностям». В этом случае было бы очевидно, что дружественный ИИ — это хорошо (для вас). Но тогда определение дружественного ИИ будет варьироваться от человека к человеку.

    «Согласованный ИИ» может звучать несколько более ценностно-нейтрально, чем «дружественный ИИ», но все еще подразумевает для меня ощущение того, что есть какая-то «(морально) правильная цель», с которой ИИ согласуется.

    «Контролируемый ИИ» все еще несколько двусмысленен, потому что не уточняется, какие именно люди контролируют его и какие цели они ему дают, но ярлык работает как общая категория для обозначения «ИИ, успешно контролируемых какой-либо группой людей». И мне нравится, что эта категория может включать «ИИ, контролируемый злыми людьми», поскольку работа по решению проблемы контроля над ИИ увеличивает вероятность и того, что ИИ будет контролироваться злыми людьми, а не только «хорошими». 

  2. См. «An introduction to worst-case AI safety» и «Focus areas of worst-case AI safety» Тобиаса Баумана — прим. пер. 

  3. См. «Ментальные преступления», «Искусственное страдание» Томаса Метцингера и «What Are Suffering Subroutines?» Брайана Томасика для примеров проблем, над которыми можно работать — прим. пер. 

  4. Для причин избегать конфронтации см. «Почему мы должны оставаться кооперативными» Брайана Томасика, «Why altruists should be cooperative» Магнуса Виндинга и «Peacefulness, nonviolence, and experientialist minimalism» Тео Аянтайваля — прим. пер. 

  5. См. «Suffering-Focused AI Safety: In Favor of “Fail-Safe” Measures» — прим. пер.