Ожидаемая ценность информации

«Ожидаемая ценность информации» в просторечии определяется как ожидаемая полезность после изучения данной порции информации минус ожидаемая полезность до изучения этой порции информации. Эта формулировка немного неточна. Например, предположим, что сейчас мы думаем, что лучший из наших вариантов действий имеет ожидаемую полезность +10, а затем мы узнаем новую информацию, которая подсказывает нам, что новый лучший из вариантов действий имеет ожидаемую полезность +5. Очевидно, что ценность информации не была равна -5. Ниже я привожу простую явную формулу для определения ценности информации.

Для простоты предположим, что есть конечное число возможных миров, проиндексированных $j$, которым мы приписываем ненулевую вероятность. Эти возможные миры представляют собой полные описания всех фактов в конкретной вселенной. Так что, например, мир, в котором рыбы сентиентны, отличается от мира, в котором рыбы не сентиентны. Пусть $P(j)$ обозначает нашу субъективную вероятность оказаться в возможном мире $j$. Пусть $i$ — индекс для нашего (предполагаемого конечным) набора возможных действий, и пусть $U(i, j)$ обозначает полезность выполнения действия $i$ при условии, что мы находимся в мире $j$. (Обратите внимание, что это не ожидаемая полезность, а просто полезность — поскольку возможный мир, в котором мы находимся, уже дает полное описание всех фактов, т. е. нет никакой неопределенности.) Ожидаемая полезность действия $i$ равна

\[EU(i) := \sum_j P(j) U(i,j).\]

Утилитаристы выбирают действие $\text{argmax}_i EU(i)$ (т. е. действие, ожидаемая полезность которого максимальна — прим. пер.).

Предположим, что мы размышляем, стоит ли тратить ресурсы на получение дополнительной информации. Если бы мы знали наверняка результат $k$ получения этой информации, мы могли бы обновить наше распределение вероятностей на возможных мирах. Пусть $P(j,k)$ обозначает вероятность возможного мира $j$ при наличии информации $k$. Используя эту информацию, мы вычисляем новые ожидаемые полезности:

\[EU(i,k) := \sum_j P(j,k) U(i,j),\]

и теперь мы выбираем действие $\text{argmax}_i EU(i,k)$.

Что дала нам полученная информация? Вместо действия $\text{argmax}_i EU(i)$ мы выполняем действие $\text{argmax}_i EU(i,k)$. (Конечно, действие может оказаться тем же самым, и в этом случае наша информация не будет иметь никакой ценности). Ожидаемая полезность этого изменения действия равна

\[EU(\text{argmax}_i EU(i,k),k) – EU(\text{argmax}_i EU(i),k),\]

т. е. мы пересчитываем ожидаемую полезность нашего старого действия $\text{argmax}_i EU(i)$ на основе нашей новой информации (и отнимаем от ожидаемой полезности нового лучшего варианта — прим. пер.). Это выражение можно переписать как

\[\max_i EU(i,k) – EU(\text{argmax}_i EU(i),k).\]

Конечно, на самом деле мы не знаем, какую информацию мы получим; лучшее, что у нас есть, — это субъективное распределение вероятностей на вариантах того, какой окажется эта информация (предположим, что число возможностей конечно). Пусть $Q_k$ — вероятность получения информации $k$. Тогда ожидаемая полезность получения новой информации равна

\[\sum_k Q_k [\max_i EU(i,k) – EU(\text{argmax}_i EU(i),k)].\]

	Reducing Suffering
	главная · блог · поиск · ссылки

Reducing Suffering

Ожидаемая ценность информации