Больше страданий: от контролируемого людьми ИИ или мятежного?

(Это отрывок из статьи «Artificial Intelligence and Its Implications for Future Suffering».)

В распространенной фантазии захват мира мятежным ИИ положил бы конец страданиям (как и счастью) на Земле, убив всю биологическую жизнь. Также он, согласно этой истории, положил бы конец страданиям (и счастью) на других планетах в процессе добычи из них ресурсов. Таким образом, если смотреть на этот сценарий лишь с точки зрения количества страданий, то не получится ли, что мятежный ИИ принес бы меньше страданий в долгосрочной перспективе?

Это не обязательно так, потому что хотя ИИ может уничтожить биологическую жизнь (возможно, после взятия образцов и сохранения особей для проведения лабораторных экспериментов для будущего использования), он создаст изобилие цифровой жизни, часть которой будет содержать системы целей, в которых мы признали бы моральную значимость. ИИ, созданные путем отличным от загрузки сознания, вероятно, будут менее эмпатичными, чем люди, потому что некоторые из факторов, которые привели к появлению эмпатии у людей, — такие как воспитание, — не будут работать в их случае.

Один простой пример мятежного ИИ — максимизатор скрепок. Эта концепция неконтролируемого¹ ИИ почти наверняка слишком упрощенна и, возможно, ошибочна, поскольку далеко не очевидно, что ИИ будет единым агентом с одной четко определенной функцией полезности. Тем не менее, пока люди не разработают более реалистичные сценарии мятежного ИИ, может быть полезно представить, что с нашим световым конусом будущего сделал бы максимизатор скрепок.

Ниже приведены некоторые прикидки о том, какими могут быть относительные количества страданий (в условных единицах), которые принес бы типичный мятежный ИИ. Страдания представлены отрицательными числами, а предотвращение страданий — положительными.

-20 за счет страдающих подпрограмм у роботов-работников, виртуальных ученых, внутренних вычислительных подкомпонентов ИИ и т.д.
-80 за счет лабораторных экспериментов, научных исследований и исследований пространства возможных умов без использования цифрового эквивалента анестезии. Одна из причин думать, что ИИ потребуется проводить много детальных симуляций, — это принцип вычислительной нередуцируемости Стивена Вольфрама. Экосистемы, мозг и другие системы, о которых важно знать ИИ, могут оказаться слишком сложными для аккуратного изучения с помощью только лишь простых моделей; вместо этого может потребоваться большое количество их симуляций с мельчайшими деталями.
-10? за счет возможности того, что неконтролируемый ИИ будет делать вещи, которые люди считают безумными или экстремальными. Например, тратить все свои ресурсы на изучение физики, чтобы определить, существует ли «кнопка», нажатие которой дало бы астрономически больше полезности, чем любые другие вещи. Люди менее склонны к странному поведению такого рода. Конечно, большинство вариантов такого странного поведения не были бы такими уж плохими в плане страданий, но, возможно, несколько вариантов могли бы оказаться чрезвычайно плохими, — как, например, проведение астрономического количества болезненных научных симуляций для определения ответа на какой-то вопрос. (Конечно, нас должно беспокоить и то, могут ли люди проводить экстремальные вычисления, — возможно, их экстремальные вычисления с большей вероятностью будут полны страданий, потому что люди больше заинтересованы в симуляциях агентов с человекоподобными умами, чем произвольный ИИ.)
-100 в среднем за счет возможности чёрных лебедей, в которых ИИ может манипулировать физикой с целью сделать так, чтобы мультивселенная стала больше, жила дольше, содержала гораздо больше вычислений и т.д.

Что насчет ИИ, вдохновленного человеческими ценностями? Опять же, вот некоторые прикидки:

-30 за счет страдающих подпрограмм. Одна из причин думать, что с ними будет не так плохо в будущем, контролируемом людьми, состоит в том, что человеческая эмпатия может благоволить более гуманным алгоритмам. С другой стороны, контролируемые человеком ИИ могут нуждаться в большем количестве интеллектуальных и сентиентных подпроцессов, поскольку человеческие ценности более сложны и разнообразны, чем производство скрепок. Кроме того, человеческие ценности обычно требуют непрерывных вычислений (например, для имитации эвдемонического опыта), в то время как скрепки, как только их произвели, остаются довольно инертными и могут существовать долгое время, прежде чем износятся и потребуют воссоздания. (Конечно, большинство неконтролируемых ИИ не будут производить буквальные скрепки. Некоторые будут оптимизировать ценности, которые все же потребуют постоянных вычислений.)
-60 за счет лабораторных экспериментов, научных исследований и т.д. (опять же, из-за наличия эмпатии — не так много, как у мятежного ИИ; для сравнения — людьми предпринимаются усилия для уменьшения боли в экспериментах на животных).
-0.2 в случае, если защитники окружающей среды настоят на сохранении земных и внеземных страданий диких животных.
-3 за счет симуляций природы, запускаемых энвайронменталистами.
-100 за счет внутренне ценимых людьми симуляций, которые могут содержать скверные вещи. Среди них могут быть, например, жестокие видеоигры, предлагающие убивать монстров, обладающих сознанием. Или побочные страдания, на которые людям наплевать (например, насекомых могут поедать пауки на потолке комнаты, в которой идет вечеринка). Это число большое не потому, что я думаю, что большинство создаваемых по желанию людей симуляций будут содержать сильные страдания, а потому, что в некоторых сценариях может оказаться очень много внутренне ценимых людьми симуляций, часть из которых могут содержать ужасающие переживания. По сравнению с ИИ, имеющим случайные ценности, люди с большей вероятностью захотят запустить много симуляций, содержащих сознание. В этом видео обсуждается одна из многих возможных причин того, почему созданные человеком симуляции могут содержать значительные страдания.
-15, если к вычислительным мощностям получат доступ садисты (ведь люди не только более эмпатичны, но и более склонны к садизму, чем большинство ИИ).
-70 в среднем за счет черных лебедей, позволяющих увеличить объем существующей физики (люди, похоже, хотели бы сделать это, хотя некоторые могут возражать против, например, воссоздания Холокоста в новых частях космоса).
+50 за счет открытия способов уменьшить страдания, которые мы сейчас не можем себе представить («черные лебеди, которые не являются палками о двух концах»). К сожалению, люди могут также воспользоваться некоторыми черными лебедями хуже, чем неконтролируемые ИИ — например, создавая большее суммарное число умов животного типа.

Возможно, некоторые ИИ не захотят расширять мультивселенную (если такое вообще возможно). Так, если бы у них была минимизируемая целевая функция (например, устранение рака), они хотели бы сделать мультивселенную меньше, а не больше. В этом случае число связанных с физикой страданий поменялось бы от -100 к чему-то положительному, скажем, +50 (если, скажем, расширить — вдвое проще, чем уменьшить). Я предполагаю, что минимизаторы менее распространены, чем максимизаторы, но не знаю насколько. Правдоподобно, что система целей сложного ИИ будет иметь компоненты обоих направленностей, потому что сочетание удовольствия и боли выглядит более успешным, чем по отдельности.

Другое соображение касается неприятной возможности того, что люди могут произвести загрузку ценностей в ИИ почти правильно, но не совсем правильно, что приведет в результате к огромным страданиям. Например, предположим, что проектировщики ИИ хотели создать огромные количества симулированных человеческих жизней, чтобы уменьшить астрономические потери. Но когда ИИ на самом деле создал эти симуляции людей, они не были идеальными копиями биологических людей, — возможно, потому, что ИИ сэкономил на деталях, чтобы повысить эффективность. Несовершенно симулированные люди могут страдать от психических расстройств, сходить с ума из-за пребывания в чуждой среде обитания и так далее. Повышает ли риск таких исходов работа над безопасностью ИИ или понижает? С одной стороны, вероятность такого исхода близка к нулю в случае AGI с совершенно случайными целями (например, буквального максимизатора скрепок), так как скрепки очень далеки от человека в пространстве возможностей. Риск случайного создания страдающих людей выше для почти дружественного ИИ, который работает немного неправильно, а затем становится неконтролируемым, предотвращая свое отключение. Успешно контролируемый AGI, кажется, несет меньший риск плохого исхода, поскольку люди, должно быть, признают проблему и исправят ее. Так что риск такого рода дистопии может быть самым высоким в среднем промежутке, где безопасность ИИ достаточно развита, чтобы привести цели ИИ близко к человеческим ценностям, но недостаточно развита, чтобы гарантировать, что человеческие ценности будут его контролировать.

Погрешности вышеприведенного анализа огромны. Возможно, есть другие, не упомянутые здесь соображения, которые важнее всех остальных. Этот вопрос требует гораздо более подробного изучения, поскольку от него зависит, должны ли те, кого больше всего заботит уменьшение страданий, фокусироваться на уменьшении рисков ИИ, или же другие направления имеют для них более высокий приоритет.

Даже если уменьшители страданий не фокусируются на стандартной безопасности ИИ, им, вероятно, нужно оставаться активными в области ИИ, потому что здесь есть много других путей положительного влияния². Например, простое расширение диалога по этой теме может подсветить возможности взаимовыгодных способов для различных систем ценностей получить больше того, чего они хотят. Уменьшители страданий могут также указать на возможную этическую важность страдающих низкоуровневых подпрограмм, которые пока не являются предметом озабоченности даже тех аудиторий, которые больше всего разбираются в ИИ. И так далее³. Есть, вероятно, много направлений, по которым можно внести конструктивный выгодный для разных сторон вклад⁴.

Имейте также в виду, что даже если уменьшители страданий поддерживают безопасность ИИ, они могут попытаться поддержать такие проекты ИИ, которые в случае провала и потери контроля над ИИ привели бы к менее дурным последствиям⁵. Например, потеря контроля над ИИ, который является минимизатором чего-либо, была бы гораздо предпочтительнее, чем потеря контроля над ИИ-максимизатором. Может быть много других направлений, по которым, даже если вероятность потери контроля одинакова, исход в случае неудачи предпочтительнее исходов потери контроля в других случаях.

Я предпочитаю использовать термины «контролируемый» и «неконтролируемый» ИИ, потому что они кажутся наиболее прямыми и наименее путающими. (Это сокращения для «контролируемый людьми ИИ» и «неконтролируемый людьми ИИ».)

Термин «дружественный ИИ» может запутывать, поскольку он подразумевает нормативные суждения, и не ясно, означает ли он «дружественный к интересам выживания и процветания человечества» или «дружественный к цели уменьшения страданий» или что-нибудь еще. Можно подумать, что «дружественный ИИ» означает просто «ИИ, дружественный к вашим ценностям». В этом случае было бы очевидно, что дружественный ИИ — это хорошо (для вас). Но тогда определение дружественного ИИ будет варьироваться от человека к человеку.

«Согласованный ИИ» может звучать несколько более ценностно-нейтрально, чем «дружественный ИИ», но все еще подразумевает для меня ощущение того, что есть какая-то «(морально) правильная цель», с которой ИИ согласуется.

«Контролируемый ИИ» все еще несколько двусмысленен, потому что не уточняется, какие именно люди контролируют его и какие цели они ему дают, но ярлык работает как общая категория для обозначения «ИИ, успешно контролируемых какой-либо группой людей». И мне нравится, что эта категория может включать «ИИ, контролируемый плохими людьми», поскольку работа по решению проблемы контроля над ИИ увеличивает вероятность и того, что ИИ будет контролироваться плохими людьми, а не только «хорошими». ↩
См. «An introduction to worst-case AI safety» и «Focus areas of worst-case AI safety» Тобиаса Баумана — прим. пер. ↩
См. «Ментальные преступления», «Искусственное страдание» Томаса Метцингера и «What Are Suffering Subroutines?» Брайана Томасика как примеры проблем, над которыми можно работать — прим. пер. ↩
Для причин избегать конфронтации см. «Почему мы должны оставаться кооперативными» Брайана Томасика, «Почему альтруисты должны быть кооперативными» Магнуса Виндинга и «Peacefulness, nonviolence, and experientialist minimalism» Тео Аянтайваля — прим. пер. ↩
См. «Suffering-Focused AI Safety: In Favor of “Fail-Safe” Measures» — прим. пер. ↩

	Reducing Suffering
	главная · блог · поиск · ссылки

Reducing Suffering

Больше страданий: от контролируемого людьми ИИ или мятежного?