В математических обозначениях «максимин для А» выражается mахiminj aij , аналогично, «минимакс для В» есть minjmахi a ij, причем, очевидно, имеет место mахi minj aij ≤ minjmахi aij . В случае, когда имеет место равенство, т.е. mахi minj aij = minjmахi aij = а i0j0, соответствующие чистые стратегии (i0 для игрока А и j0 для В) будут оптимальными, а про игру говорят, что она имеет седловую точку.
Тогда а i0j0 является значением игры . Легко видеть, что игра имеет седловую точку тогда и только тогда, когда в платежной матрице имеется элемент а i0j0, наименьший для всех элементов своей строки i0 и наибольший для всех элементов своего столбца j0. При отсутствии седловой точки невозможно получить оптимальное решение, пользуясь чистыми стратегиями. В этом случае для получения решения игры будем пользоваться смешанными стратегиями, которые заключаются в применении чистых стратегий с некоторыми частотами (вероятностями). Пусть р 1, р 2,.., р n и q 1, q 2,.., q m – наборы вероятностей, с которыми игроки А и В соответственно выбирают свои чистые стратегии. Естественно ∑∑ == = m j j n i iqp 11 =1, рi , qj ≥0 для всех i и j. Если игрок А выбирает свои чистые стратегии с вероятностями рi , то его ожидаемый выигрыш должен составить
a 11 р 1+ a 21 р 2+…+ a n1 рn , при ответном выборе игроком В своей первой чистой стратегии,
a 12 р 1+ a 22 р 2+…+ a n2 рn , при ответном выборе игроком В своей второй чистой стратегии, и т.д.
234
a 1m р 1+ a 2m р 2+…+ a nm рn
при выборе игроком В m-й чистой стратегии. С другой стороны, если игрок В выбирает свои чистые стратегии с вероятностями qj , то его ожидаемый проигрыш должен составить
a 11 q 1+ a 12 q 2+…+ a 1m q m , если игрок A выберет свою первую чистую стратегию,
a 21 q 1+ a 22 q 2+…+ a 2m q m, если игрок A выберет свою вторую чистую стратегию и
a n1 q 1+ a n2 q 2+…+ a nm qm , при выборе игроком A n-й чистой стратегии. Если игрок А выбрал стратегию ( р 1, р 2,.., рn ) и при этом игрок В выбрал ( q 1, q 2,.., q m), то ожидаемый выигрыш игрока А (он же проигрыш игрока В) составит g= ∑∑ == m j jiij n i qpa 11 . Тогда игрок А при выборе р i стремится максимизировать свой наименьший ожидаемый выигрыш по столбцам, тогда как игрок В выбирает q j с целью минимизировать наибольший ожидаемый проигрыш по строкам. Справедлива теорема фон.Неймана, которую мы примем без доказательств, утверждающая, что для любой конечной игры существуют оптимальные стратегии игроков А ( р 1*, р 2*,.., рn *) и В ( q 1*, q 2*,.., qm *), при этом максимум наименьшего ожидаемого выигрыша игрока А совпадает с минимумом наибольшего ожидаемого проигрыша игрока В (обозначим это значение игры через g). Таким образом, математическую модель конечной игры для игрока А можно представить в следующем виде: Найти такие рi ≥0, для которых выполняются соотношения
р 1+ р 2+…+ рn =1,
a 11 р 1+ a 21 р 2+…+ a n1 рn ≥ g,
a 12 р 1+ a 22 р 2+…+ a n2 рn ≥g, (2.7.1) ……………………. ……
a 1m р 1+ a 2m р 2+…+ a nm рn ≥ g, и функция Z=g принимает максимальное значение. Упростим полученную задачу, разделив все ограничения (2.7.1) на значение игры g > 0 и положив х i = рi /g для всех i. (Проведение аналогичных рассуждений для случая g ≤ 0 предоставляется читателю). В силу того, что max g =min 1/g = min( р 1/g+ р 2/g+…+ рn /g) = min( x 1+ x 2+…+ x n) задача принимает вид минимизировать Z= x 1+ x 2+…+ x n
235 при ограничениях
a 11 x 1+ a 21 x 2+…+ a n1 x n ≥ 1,
a 12 x 1+ a 22 x 2+…+ a n2 x n ≥ 1, (2.7.2) ……………………. ……
a 1m x 1+ a 2m x 2+…+ a nm x n≥ 1,
x 1, x 2,…, x n ≥ 0. Мы получили задачу линейного программирования (см. 2.2). Решая ее (например, симплекс–методом), находим оптимальное решение x 1*, x 2*,…, x n*, откуда, разделив на Z*= x 1*+ x 2*+…+ x n*, получаем оптимальную стратегию для игрока А ( р 1*, р 2*,.., рn *), которая заключается в применении i-й чистой стратегии с частотой рi *= хi */ Z*. Двойственная ЗЛП – максимизировать F = y 1+ y 2+ … + y m→max; при ограничениях a 11 y 1+ a 12 y 2+ …+ a 1m y m ≤1; a 21 y 1+ a 22 y 2+ …+ a 2m y m ≤1; (7.2.3) ………………………….. a n1 y 1+ a n2 y 2+ …+ an m y m ≤1; y 1≥0; y 2≥0; …
y m ≥0. Здесь строка ограничения формируется из строки платежной матрицы. Решая данную ЗЛП, находим оптимальное решение у 1*, у 2*,…, у m*, откуда, разделив на F *= y 1*+ y 2*+…+ y m*, получаем оптимальную стратегию для игрока B ( q 1*, q 2*,.., qm *), которая заключается в применении j-й чистой стратегии с частотой qj *= yj */ F *. Затем находим цену игры g =1/ Z* =1 /F*.
Правила упрощения платежной матрицы: Если к каждому элементу платежной матрицы прибавить одно и то же число, то решение ( р 1*, р 2*,.., рm *) не изменится, а цена игры изменится ровно на добавленную величину. Если каждый элемент платежной матрицы умножить на одно и то же число (не 0), то решение ( р 1*, р 2*,.., рm *) не изменится, а цена игры изменится ровно во столько же раз. Если какая-либо строка платежной матрицы доминирует над другой строкой (или линейной комбинацией строк), то доминируемые строки не войдут в оптимальную смешанную стратегию и их можно удалить. Проиллюстрируем использование рассмотренных методов при описании и решении некоторых состязательных задач.
236 Пример 2.7.1. Рассмотрим тотализатор на ипподроме. Пусть выплаты в случае победы одной из трех лошадей относятся к ставке как 1:1, 3:1 и 4:1. Тогда платежная матрица игрока на скачках примет вид: 1 –1 –1 Если прибавить к каждому элементу матрицы число К, то А=–1 3 –1 оптимальные стратегии не изменятся, а значение игры –1 –1 4 увеличится на К. Для упрощения матрицы добавим К=1, тогда получим: 2 0 0 В соответствие с (2.7.2) задача принимает вид: А= 0 4 0 минимизировать Z= x 1+ x 2+ x 3 0 0 5 при ограничениях 2 x 1+ 0 x 2+0 x 3 ≥ 1, 0 x 1+ 4 x 2+0 x 3 ≥ 1, 0 x 1+ 0 x 2+5 x 3≥ 1,
x 1, x 2, x 3 ≥ 0. Легко заметить, что решение этой задачи:
x 1*=1/2, x 2*=1/4, x 3* =1/5. Значение упрощенной игры 1/Z*=1/( x 1*+ x 2*+ x 3*)=20/19, откуда (при К=1) значение исходной игры равно 20/19 – 1 = 1/19, р 1*= х 1*/Z*=10/19, р 2*= х 2*/Z*=5/19, р 3*= х 3*/Z*=4/19. Таким образом, оптимальная стратегия игрока на скачках в данном примере заключается в смешанной стратегии делать ставки на всех трех лошадей в пропорции 10:5:4, при этом выигрыш игрока (игра имеет положительное значение!) будет равным 1/19 суммы его ставок, независимо от результата гонок. (Если цена игры отрицательна, то не следует в нее играть, так как даже при оптимальной стратегии гарантирован проигрыш, правда, минимальный). Пример 2.7.2. Предлагается три варианта инвестиций в сельское хозяйство и прогноз получения доходов за год (дивиденды и повышение стоимости капитала) при различных перспективах на урожай. Перспективы на урожай Варианты инвестиций хорошиесредние плохие 1. АО «Сельхозтехника» 40 30 20 2. АО «Агроимпорт» 0 100 250 3. АО «Агроэкспорт» 150 50 –50 Доходы в платежной матрице приведены в процентах от вложенного капитала. Как распорядиться капиталом, чтобы получить
237 наибольший доход? Рассматриваем «игру» против природных сил, руководствуясь максиминным принципом, т.е. хотим получить максимальный доход, принимая во внимание наихудшее, что может случиться. Искомые переменные р 1, р 2, р 3 определяют пропорции вложений. Заметим, что элементы первой строки платежной матрицы меньше средних арифметических соответствующих элементов второй и третьей строк, и она может быть удалена (первый вариант инвестиций заведомо неэффективен по сравнению с комбинацией второго и третьего вариантов – вкладывать деньги поровну во второй и третий проект). Получаем задачу линейного программирования минимизировать Z= x 2+ x 3 при ограничениях 0 x 2 + 150 x 3 ≥ 1, 100 x 2+50 x 3 ≥ 1, 250 x 2 – 50 x 3≥ 1,
x 1=0, x 2, x 3 ≥ 0. Решая данную задачу стандартными средствами (см.2.2) получим следующее решение
x 1*=0, x 2*=1/150, x 3* =1/150. Значение игры 1/Z*=1/( x 1*+ x 2*+ x 3*)=150/2=75, откуда
р 1*=0, р 2*= х 2*/Z*=75/150=1/2, р 3*= х 3*/Z*=75/150=1/2. Таким образом, оптимальной стратегией является вложение капитала равными долями во второй и третий варианты, при этом гарантированный доход составит 75%.
Ви переглядаєте статтю (реферат): «Математическая модель игры» з дисципліни «Математична економіка»