Аннотация

Стандартная байесовская теория принятия решений диктует нам максимизировать ожидаемую полезность наших действийa. К примеру, предположим, что мы видим несколько котят, застрявших на деревьях, и решаем, что спасти n котят в n раз лучше, чем спасти одного котенка. Тогда, если мы окажемся перед выбором: либо точно спасти одного котенка, либо иметь шансы 50 на 50 спасти трех котят (где, если мы потерпим неудачу, мы не спасем ни одного), мы должны попытаться спасти трех котят, потому что при этом ожидаемая полезность равна 1.5 (= 3*0.5 + 0*0.5), в то время как ожидаемая полезность спасения одного котенка равна 1 (= 1*1). Но почему именно ожидаемое значение полезности? Почему бы вместо этого не максимизировать какую-нибудь другую функцию от вероятностей и полезностей исходов? В этой статье я привожу два интуитивных аргумента в пользу ожидаемого значения. Во-первых, в определенных ситуациях максимизация ожидаемого числа организмов, которым будет оказана помощь, эквивалентна максимизации вероятности того, что любому конкретному организму будет оказана помощь. Во-вторых, даже в тех случаях, когда это не так, закон больших чисел часто гарантирует лучший результат в долгосрочной перспективе.

Содержание


Вымышленный пример

Неизвестная болезнь вспыхнула среди 20 000 жителей небольшого острова. Болезнь очень заразна: она распространилась на всех жителей острова еще до того, как ее кто-либо обнаружил. К счастью, поскольку остров изолирован, нет опасности распространения болезни на другие части мира. К несчастью для самих островитян, болезнь еще и 100% смертельна, и жить каждому из них теперь осталось лишь три дня.

Мировое медицинское сообщество не располагает лекарствами, способными вылечить это заболевание или хотя бы предотвратить его смертельные побочные эффекты. Тем не менее, на остров направляются медицинские бригады для оказания паллиативной помощи. Медицинские бригады располагают ограниченным бюджетом в 10 000 долларов, на которые можно купить анальгетики, которые, в случае успеха, облегчат болезненность смерти от этой болезни. Вы, руководитель медицинской бригады, решаете, какое из двух возможных лекарств купить.

Поскольку вы считаете, что бессмысленные страдания перед смертью одинаково плохи независимо от того, кто из островитян их испытает, вы придерживаетесь мнения, что успешное лечение n человек в n раз лучше, чем успешное лечение одного человека. Вы рассуждаете следующим образом: «Если мы купим ТочноОблегчин, мы гарантированно предотвратим страдания 10000/2.04 = 4900 человек. Если мы выберем ДешевоОблегчин, то сможем оплатить 10 000 лечений, но неясно, скольким людям это поможет. Поскольку каждое лечение имеет 50% шанс на успех, ожидаемое значение числа людей, которым мы поможем, составляет 10000*0.5 + 0*0.5 = 5000. Это больше, чем 4900, значит нам следует купить ДешевоОблегчин».

Но что, если окажется, что неудачу потерпят гораздо больше лечений, чем ожидалось? Что если, скажем, из них сработают только 4800? Тогда мы «проиграем» лечения, которые могли бы помочь 100 людям. Не лучше ли придерживаться безопасной ставки?

Соображение 1: Голосование

Предположим, что мы не решаем заранее, кто из островитян получит лечение, которое мы купим. Значит, если у нас есть t лекарств, вероятность того, что любой конкретный человек получит лекарство, равна t/20000. Тогда мы проведем опрос жителей острова, чтобы узнать, предпочли бы они, чтобы медицинская бригада купила все ТочноОблегчины, все ДешевоОблегчины или какую-то комбинацию тех и других.

Если островитяне голосуют за тот вариант, который максимизирует вероятность их успешного лечения, то все они проголосуют за покупку всего ДешевоОблегчина. Это следует из простой теоремы:

Теорема: Предположим, есть N организмов, которые испытают жестокую боль, если им не оказать помощь. Пусть Tслучайная величина, означающая количество тех случайно выбранных из N организмов, которые успешно избегут болезненного опыта, получив помощь. Тогда вероятность того, что любой организм избежит боли, равна E(T)/N, где за E(T) обозначено ожидаемое значение величины T. В частности, вероятность избежать боли всегда увеличивается по мере увеличения E(T), независимо от дисперсии T.

Доказательство:
Prob(помогли) = Σt Prob(T=t) * Prob(помогли | T=t)
= Σt Prob(T=t) * t / N
= (Σt Prob(T=t) * t) / N
= E(T) / N.

Мы можем применить эту идею и к предыдущему примеру с котятами. Предположим, вы — один из котят, и решаете, хотите ли вы, чтобы ваш потенциальный спасатель спас одного из троих, или попытался спасти всех троих с шансом 50 на 50. В первом случае вероятность того, что вы спасетесь, равна 1/3. Во втором случае вероятность того, что вы спасетесь, равна 1, если спасатель добьется успеха, и 0, если нет. Поскольку вероятности его успеха и провала одинаковы, общая вероятность вашего спасения равна (1/2)*1 + (1/2)*0 = 1/2, что больше 1/3.

Я должен отметить, что на практике люди в таких ситуациях, как ситуация с островитянами, могут на самом деле не выбирать тот вариант, который максимизировал бы вероятность получения ими помощи, – возможно, из-за неприятия неопределеннности, как было показано в парадоксе Эллсберга. Незнание того, сколько всего лечений пройдет успешно, может соответствовать более высокой неопределенности, чем знание количества успешных лечений при неуверенности лишь в том, кто именно их получит.

Соображение 2: Закон больших чисел

Вышеупомянутое соображение хорошо работает в тех ситуациях, в которых распределяется одна и та же потенциальная выгода, так что людей волнует только вероятность ее получения. Но что насчет тех ситуаций, в которых потенциальные выгоды различны – например, предотвращение простуды и предотвращение заражения малярией? Очевидно, что людям нежелательно просто выбирать вариант, который максимизирует вероятность получения ими того или иного лечения, – потому что, например, вероятность 1/2 избежать простуды явно не лучше, чем вероятность 1/3 избежать малярии. Нам нужно наложить на разные исходы некоторую функцию полезности, которая определяла бы, насколько лучше предотвращение малярии, чем предотвращение простуды.

Если мы случайным образом распределяем средства для предотвращения простуды и малярии в группе людей, которые максимизируют ожидаемую индивидуальную полезность, то нетрудно показать, что они предпочли бы тот метод лечения, который максимизирует ожидаемую полезность для всей группы. Но возникает вопрос: нам нужно понять, почему люди вообще хотели бы максимизировать ожидаемую индивидуальную полезность.

Причина, которую обычно называют, заключается в том, что когда решения в отношении какого-то случайного события принимаются неоднократно, максимизация ожидаемого значения делает вероятным, что на длительных промежутках времени вы будете максимизировать фактическое среднее значение. Это следует из закона больших чисел, который гласит, что если мы проведем достаточное количество некоррелированных случайных испытаний (например, подбросим монету достаточное количество раз), мы можем быть сколь угодно уверенными в том, что фактическое среднее значение, которое мы наблюдаем в наших испытаниях (например, среднее значение бросков кубиков, которые мы делаем) будет настолько близко к ожидаемому значению (которое в данном случае составляет 3.5 = 1*(1/6) + 2*(1/6) + … + 6*(1/6)), насколько мы хотелиb.

В примере с болезнью на острове количество людей, успешно прошедших лечение ДешевоОблегчином, представляет собой сумму из 10 000 случайных исходов. Это «большое число», что значит, что вероятность того, что фактическое число успешно пролечившихся людей значительно отклонится от 5000 – мала. Фактически, вероятность того, что ДешевоОблегчин успешно вылечит меньше людей, чем ТочноОблегчин, составляет лишь 2.3%c.

Что насчет смешанных стратегий?

Например, почему бы не потратить 5000 долларов на ТочноОблегчин и 5000 долларов на ДешевоОблегчин? По этой стратегии вы сможете купить 2450 лечений ТочноОблегчином и 5000 лечений ДешевоОблегчином. Ожидаемое количество людей, которым будет оказана помощь, составляет 2450 + 0.5*5000 = 4950. Тут мы купили небольшую «страховку» от ситуаций, в которых помощь получило бы слишком малое число людей, но за счет возможности реально помочь большему числу людей. Даже здесь вероятность того, что наша смешанная стратегия поможет большему числу людей, чем более рискованная стратегия, составляет лишь 21%d.

Если бы мы потратили на ТочноОблегчин меньше 50% нашего бюджета, этот разрыв в ожидаемых значениях сократился бы, но вместе с ним уменьшилась бы и наша страховка. Я не вижу причин предпочитать смешанную стратегию: если покупка некоторого количества ДешевоОблегчина поможет больше, чем отказ от покупки ДешевоОблегчина, то покупка всех ДешевоОблегчинов будет еще лучше. Если на 10 000 людях вам сложно увидеть улучшение от покупки всего ДешевоОблегчина по сравнению с покупкой в основном ДешевоОблегчина, то рассмотрите 10 триллионов или 10 гуголов людей. В этих случаях вы практически гарантированно поможете большему числу людей, если купите все ДешевоОблегчины.

Следствие

Теперь рассмотрим следующую ситуацию. Вы снова директор медицинского проекта и обнаруживаете, что получили дополнительное пожертвование в размере 51 доллара, на которое можно купить больше лекарств. Если вы купите ТочноОблегчин, вы гарантированно поможете 51/2.04 = 25 людям. Если вы купите ДешевоОблегчин, ожидаемое количество людей, которым вы поможете, составит 25.5. Но теперь есть 44% вероятность того, что ДешевоОблегчин поможет меньшему числу людей, – возможно, даже сильно меньшему. Вы решите, что, в отличие от предыдущего случая, это дело слишком рискованное, поэтому лучше перестраховаться?

Надеюсь, что нет. Дополнительные 51 доллар не являются изолированными; это часть общего бюджета. Если бы вы начали с бюджета в 10 051 доллар, приведенный выше аргумент против смешанных стратегий говорил бы о том, что вам следует использовать все эти деньги для покупки ДешевоОблегчина, потому что это почти гарантирует лучший результат, – возможно, намного лучший.

Бесконечные исходы

Как отмечает Уильям Феллер в книге «Введение в теорию вероятностей и ее приложения» (William Feller, An Introduction to Probability Theory and Its Applications, p. 251), слабый закон больших чисел не работает для случайных величин с бесконечным математическим ожиданием, поэтому аргумент о долгосрочном среднем не работает. Теорема фон Неймана и Моргенштерна об ожидаемой полезности, к которой тоже иногда обращаются, опирается на аксиому непрерывности, которая тоже нарушается, если мы допускаем бесконечно большие значения полезности (не допуская в то же время бесконечно малых вероятностей).

Что насчет изолированных действий?

Идея долгосрочного среднего применима к случаям, когда наши пожертвования или действия являются частью более крупного ансамбля действий. Но что, если это не так? Что, если мы столкнемся с одиночной ситуацией «все или ничего», в которой мы не можем быть уверены, что за счет закона больших чисел все в целом пойдет хорошо?

Сценарий. Вы – единственный сентиентный организм во Вселенной, но вы узнаете, что завтра в 5 часов вечера 2 миллиона человек появятся на час, подвергнутся жестоким пыткам, а потом снова исчезнут. Никаких других сентиентных организмов после этого существовать не будет.

Вы обнаруживаете некую коробку с двумя кнопками – красной и синей. Красная Кнопка, если ее нажать, имеет шанс один на миллион предотвратить пытки всех двух миллионов человек; вместо этого они появятся на час и прочитают газету, прежде чем исчезнуть. Если нажать Синюю Кнопку, это позволит ровно одному человеку из двух миллионов точно избежать пыток и вместо них прочитать газету. Вы можете нажать только одну кнопку, потому что как только одна из этих двух кнопок будет нажата, коробка навсегда исчезнет.

Здесь аргумент о долгосрочных средних значениях, похоже, не применим, потому что событие не повторяется. Аргумент «голосования» был бы применим, если бы мы могли заранее опросить 2 миллиона человек, которые появятся на свет. Но можно придумать и более сложные мысленные эксперименты, в которых это соображение тоже перестанет работать. На этом этапе я был бы готов просто принять критерий ожидаемой полезности как аксиоматическую интуицию: потенциальное благо, достигаемое Красной Кнопкой, настолько велико, что нельзя упускать шанс на него. Однако ниже я рассматриваю два дополнительных аргумента.

Аргумент 1: Многомировая интерпретация квантовой механики

Многомировая интерпретация (ММИ) квантовой механики пользуется сравнительно большой поддержкой среди определенных групп физиков и представляет, как я считаю, более последовательную точку зрения, чем копенгагенская интерпретация. Согласно ММИ выглядящие случайными квантовые события не определяют конкретный результат измерения; вместо этого все возможные исходы реализуются в разных параллельных мирах. Например, если мы поместим кота в коробку, подключенную к машине с ядовитым газом, запускаемой счетчиком Гейгера, это не значит, что кот погибнет с вероятностью 50%; это значит, что есть два разных мира-ветви, в одном из которых кот действительно умирает. Таким образом, ожидаемое значение (расчитанное с использованием распределения вероятностей, соответствующего долям различных реализующихся миров) не просто отражает то, что может произойти: оно фактически подсчитывает то, что происходит на самом деле. Значит если эффективность Красной Кнопки в предыдущем примере определяется квантовым исходом, тот факт, что это действие «однократно», не имеет значения: в небольшой части миров вы действительно предотвращаете все 2 миллиона случаев пыток!

Есть две оговорки. Во-первых, наивная картина подсчета «количества миров» не совсем верна — см., например, «Understanding Deutsch’s Probability in a Deterministic Multiverse» Хилари Гривс (2004), разд. 5.3. Что на самом деле подсчитывается, так это меры, заданные правилом Борна. Но тут возникает вопрос о том, что же такое мера и как обосновать использование борновских вероятностей вместо каких-либо других мер (например, основанной на нечетном количестве носков — см. разд. 3.2). В самом деле, Гривc (2004) делает вывод, что использование вероятностей Борна в теории принятия решений, возможно, нужно воспринимать просто «как нечто вроде примитива» (стр. 34), что возвращает нас к исходному вопросу (почему именно ожидаемое значение?), если только не могут быть представлены какие-то другие интуиции, основанные на ММИ.

Во-вторых, даже если мы согласимся с тем, что нам следует использовать вероятности по правилу Борна, это применимо только к физическим неопределенностям, — например, будет ли электрон измерен со спином вверх или вниз, или сработают ли нейроны в моем мозгу так, чтобы заставить меня съехать на обочину дороги. В идеале мы хотели бы максимизировать «ожидаемые значения», рассчитанные в соответствии с истинными мерами разных миров по правилу Борна. Но наши распределения вероятностей не идеальны: большая часть нашей неопределенности в отношении будущего связана не с квантовым расщеплением, а просто с нашим собственным невежеством, которое может и близко не соответствовать истинному распределению меры на исходах. Более того, мы можем назначать вероятности чему-либо на мета-уровне, и они вообще не относятся к конкретным исходам (Например, какова вероятность того, что ММИ ложна? Или насколько вероятно, что тот или иной закон физики верен?). Обоснование максимизации ожидаемого значения с помощью ММИ справедливо лишь в той степени, в какой наши субъективные распределения вероятностей соответствуют истинным квантовым мерам.

Аргумент 2: Утилитаризм правил

Как правило, если бы все следовали совету выбирать действие с максимальной ожидаемой полезностью, то из закона больших чисел следовало бы, что это будет иметь наилучшие последствия, даже если какое-то отдельное действие не приводит к желаемому результату. Мы должны быть тем изменением, которое хотим видеть в мире, и подавать пример, сами следуя этому правилу.

Применительно к предыдущему примеру с Красной Кнопкой мы можем сказать, что даже если это единственный раз, когда у вас будет возможность нажать кнопку и тем самым потенциально предотвратить пытки, вам хотелось бы, чтобы другие в подобных ситуациях вели себя так же, как и вы, потому что в совокупности по всем таким ситуациям это предотвратит пытки большего количества людей.

Соответственно, мы должны хвалить людей за то, что они в тот или иной момент считали действием, имеющим наибольшую ожидаемую полезность, даже если им не повезло с фактическим результатом.

Логическая неопределенность

Приведенные выше аргументы не охватывают все случаи неопределенности. Так, вы можете не быть уверены в логической истине вроде P = NP, но ответ одинаков при любых обстоятельствах, для каждого человека, в любом возможном мире. Большие числа, квантовая неопределенность и утилитаризм правил здесь не помогут.

Конечно, нужно помнить, что нет такой вещи, как объективная вероятность: «реальная» вероятность равна 1 для того, какой мультивселенная является и 0 для всего, чем она не является. Вероятности — это инструменты, которые мы используем для выражения нашего собственного невежества, и о них удобно думать так, как будто они представляют собой «реальную случайность» различных результатов (хотя нет такой вещи как «реальная случайность»). Таким образом, даже если вы сделаете ставку, основанную на возможности того, что P = NP, и предположение окажется ложным, это может быть скомпенсировано тем, что кто-то другой в другом мире сделает другую ставку, основанную на возможности того, что гипотеза Римана ложна, когда в реальности она окажется правдой. (Это всего лишь примеры. Ни один из этих вопросов до сих пор не решен.) Устроит ли вас такой обмен логическими ошибками, отчасти зависит от того, сколько поставлено на карту на основе логической ставки и насколько эти ставки коррелируют между мирами.

Лично я считаю просто интуитивно понятным, что величина важности чего-либо должна линейно зависеть от его вероятности. С этой точки зрения максимизация ожидаемой полезности не нуждается в дальнейшем обосновании; ожидаемая полезность это просто то, насколько для меня важен возможный исход.

Кроме того, аргумент «голосования», приведенный в начале этой статьи, все еще применим к таким случаям, как ставка на P = NP, — по крайней мере, если «вероятность того, что вам помогут» оценивается с использованием субъективной вероятности того, что P = NP с точки зрения того, кто помогает. Например, предположим, что вероятность того, что P = NP, равна 5%. Действие A помогло бы каждому из 100 человек получить некоторую фиксированную сумму, если P = NP, и никому не помогло бы, если P != NP. Действие B помогло бы двум людям на ту же самую фиксированную сумму, если P != NP, и не помогло бы никому, если P = NP. Из большого числа N людей, нуждающихся в помощи, вероятность того, что человеку поможет действие A, равна 5% * (100/N) = 5/N. Вероятность того, что человеку поможет действие B, составляет всего 95% * (2/N) = 1.9/N.


Сноски

a. На математическом языке это означает, что мы рассматриваем пространство элементарных событий из возможных миров (например, в одном возможном мире может быть котенок, спасенный с дерева, тогда как в другом возможном мире тот же котенок не будет спасен). Дальше мы строим целевую функцию, которая отображает наше пространство элементарных событий во множество вещественных чисел (или, может быть, гипервещественных, или в другое упорядоченное поле). Затем мы рассматриваем некоторый набор (для простоты предполагающийся конечным) возможных действий, которые мы можем предпринять. Для каждого действия мы присваиваем нашему пространству элементарных событий субъективное распределение вероятностей, которое учитывает разные возможные результаты выполнения этого действия (например, если наше действие — вызов пожарных, то распределение вероятностей будет говорить о том, насколько вероятно, что они спасут котенка). Итак, для каждого действия наша целевая функция становится случайной величиной. Стандартная теория принятия решений гласит следующее: если для каждого действия целевая функция имеет конечное математическое ожидание, то выбирайте действие, ожидание которого максимально («ожидаемое значение» случайной величины — это тоже самое, что ее «математическое ожидание» — прим. пер.).

Если мы гедонистические утилитаристы, то наша целевая функция отображает множество возможных миров во множество кардинальных значений полезности (конкретно в этом случае полезность будет определяется через благополучие сентиентных существ; но вообще говоря, термин «полезность» в теориях принятия решений применяется в более широком смысле, просто численно выражая важность последствий с точки зрения агента — прим. пер.). (назад)

b. Технически это слабый закон больших чисел, который справедлив в большем количестве случаев, чем сильный закон. (назад)

c. Это число легко вычисляется с помощью нормального приближения к биномиальному распределению. При использовании ДешевоОблегчина, mu = 0.5*10000 = 5000, sigma = [10000*0.5*(1-0.5)](1/2) = 50, z = (4900 - 5000)/50 = -2. Вероятность того, что стандартная нормальная случайная величина будет меньше -2, составляет 2.3%. (назад)

d. Рассмотрим разницу двух случайных величин: одной биномиальной (10 000, 0.5) и другой биномиальной (5 000, 0.5). Вероятность того, что смешанная стратегия окажется лучше, равна вероятности того, что разница между этими двумя величинами будет меньше 2450. Аппроксимируем обе как независимые нормально распределенные величины. Разница между ними имеет дисперсию, равную сумме их дисперсий: 10000*0.5*(1-0.5) + 5000*0.5*(1-0.5), откуда следует что sigma = 61.2, mu = 2500. Наша вероятность — это вероятность того, что стандартная нормальная случайная величина будет меньше -0.816. (назад)