Индустрия · песочница математики аукциона

Каждый ход — это EV-расчёт

Четыре игрока, восемь карт, четыре диска у каждого. Наведи на пустой слот — увидишь формулу. Под столом — дерево решений активного игрока с топ-5 ходов. Под игроками — боксплот распределения по 500 партиям. Внизу — параметры мира.

уголь металл нефть деньги
готов
игрок 1 ●
игрок 2 ●
игрок 3 ●
игрок 4 ●

стол готов

нажми «шаг ▶», чтобы запустить ходы.

Дерево решений активного игрока

Все доступные ходы активного игрока, отсортированные по его функции выбора. Зазор между #1 и #2 — мера уверенности алгоритма: маленький зазор означает «решение на грани», большой — «уверенный выбор».

Стратегии

4 архетипа принятия решений

Четыре стратегии в песочнице — не «характеры ботов», а архетипы того, как алгоритм принимает решения в условиях неопределённости. Каждая работает в своих условиях и проваливается в других.

Ж
Жадная
Максимизирует ценность карты, игнорирует риск и диск
выбор: argmax V
простая, не требует расчёта вероятностей. Работает, когда конкуренция за карты низкая.
ставит максимальный диск на лучшую карту, не учитывает, что соперник может перебить. Все диски на одной карте для неё эквивалентны.
в жизни оптимизация одной метрики (LTV, выручка) без учёта рисков и упущенных возможностей. Классическая ловушка product manager'а: «давай гнать главный KPI, разберёмся потом».
Б
Балансированная (EV)
Считает математическое ожидание для каждой пары (карта, диск)
выбор: argmax [P(win)·V + P(lose)·C·k]
учитывает и победу, и компенсацию, и риск проигрыша. Различает диски: ставит большой туда, где победа важна, маленький — где главное не проиграть слишком много.
зависит от качества модели P(победа). Если оценка вероятности плохая, EV считает «оптимально», но в неправильном направлении. Перфекционист по природе.
в жизни нормальная инвестиционная логика. Расчёт ожидаемого дохода с учётом вероятности успеха. Так работают A/B-тесты, оценка рисков, портфельная теория.
К
Компенсаторная
Цепляет компенсации, не пытается выигрывать карты
выбор: argmax (C × k)
гарантированный доход: компенсация даётся независимо от того, что делают другие. Стабильнее жадной — никогда не остаётся ни с чем.
добровольно отказывается от выигрыша карт — основного источника дохода. Игнорирует, что у разных карт разная ценность V.
в жизни стратегия избегания неопределённости. «Возьму скучную работу с гарантированной зарплатой вместо стартапа с шансом на 10×». Иногда правильно — но в долгую почти всегда проигрывает.
·
Случайная
Не моделирует ничего, выбирает любой допустимый ход
выбор: random(legal moves)
базовая линия. Если стратегия проигрывает случайной — она хуже отсутствия стратегии.
очевидно слабая. Не использует никакой информации о состоянии.
в жизни иногда лучше плохой модели. «Не моделировать вообще» предпочтительнее «моделировать неправильно с уверенностью». Baseline в любом эксперименте.

Распределение дохода по 500 партиям

50% партий (Q1–Q3) медиана текущая партия последние 10 партий

параметры мира

раунд этой партии1
первый раунд: карта впереди отработает 4 раза.
базовый доход карты, $5
доход средней карты за одно срабатывание.
множитель апгрейда×1.8
апгрейд увеличивает доход в 1.8 раза.
стоимость апгрейда, $4
апгрейд стоит 1 уголь + 1 жетон ≈ 4 $.

Глоссарий терминов

11 терминов