獎金模型解釋:解決淘汰賽錦標賽
- Tombos21

- 7月23日
- 讀畢需時 7 分鐘
我們剛剛推出了一項革命性的更新!您現在可以找到針對任何錦標賽格式的博弈論最優(GTO)翻牌後ICM策略,包括經典凍結賽(freezeouts)、衛星賽(satellites)、漸進式淘汰賽(Progressive Knockouts, PKO)、常規淘汰賽(Knockouts, KO)和神秘獎金賽(Mystery Bounties)。了解更多關於更新的信息!
為了實現這一點,我們開發了新的方法來精確建模獎金(bounties)的價值。這涉及創建算法來計算在當前手牌和未來手牌中淘汰玩家的期望值(EV)。在本文中,我們將揭示使解決這些獎金格式成為可能的工程解決方案!
目錄
獎金錦標賽的範圍
GTO Wizard AI如何建模獎金
獎金期望值
未來獎金期望值
您的籌碼ICM價值
將所有部分整合
總結
獎金錦標賽的範圍
讓我們先簡要總結什麼是獎金錦標賽(bounty tournaments),然後再深入細節。
在淘汰賽錦標賽(knockout tournaments)中,獎金(bounty)是您每淘汰一名玩家可贏得的獎勵。主要有三種類型的淘汰賽錦標賽:
常規淘汰賽(Standard Knockout, KO) – 在KO中,當您淘汰一名玩家時,您獲得他們的全部獎金。這將立即添加到您的資金中。買入通常分為50%用於獎金池(prize pool),50%用於您的獎金。
漸進式淘汰賽(Progressive Knockout, PKO) – 在PKO中,當您淘汰一名玩家時,您兌現他們獎金的一半。另一半獎金將添加到您自己的頭上(head),由淘汰您的人獲得。唯一的例外是如果您贏得錦標賽,則您解鎖自己的獎金。買入通常分為50%用於獎金,25%用於可兌現獎金(capturable bounty),25%添加到您自己的頭上。
神秘獎金賽(Mystery Bounty) – 本質上,這只是一個獎金價值隨機且在比賽期間未知的KO錦標賽。這可以建模為使用平均獎金價值的常規淘汰賽。平均獎金通常只是總獎金池除以參賽人數的一半。
您可以閱讀更多關於淘汰賽格式以及如何策略性地應對每一種格式的信息。
GTO Wizard AI如何建模獎金
最新的更新允許您輸入任何籌碼量、分配獎金、設置任意獎金結構。我們面臨的一個主要工程挑戰是找到一種方法來建模淘汰賽錦標賽中獎金的價值。
乍看之下,這似乎是一個簡單的問題。如果一名玩家淘汰另一名玩家,他們獲得該玩家獎金的一部分。解決方案看起來很直接。只要在玩家淘汰某人時將獎金價值添加到他們的期望值(EV)中即可。
別急!這裡有兩個障礙:
淘汰概率(Knockout probabilities) – 在不知道未來街(future streets)策略的情况下,您如何估計一名玩家淘汰另一名玩家的可能性?
未來獎金期望值(Future bounty EV) – 如果您有大籌碼(big stack),您未來收集獎金的可能性更高。我們如何建模贏得未來獎金的價值?
讓我們尋找解決這個翻牌後ICM+獎金難題所需的拼圖碎片。
獎金期望值
要計算任何事物的期望值(EV),您需要兩條信息:
結果的價值
這些結果的概率
在這種情況下,結果 = 淘汰(knockouts)
傳統的反事實遺憾最小化求解器(CFR solvers)會計算到河牌(river)。這意味著每個牌面(runout)和下注路線(betting line)的玩家策略都是已知且明確定義的。這些信息使得計算一名玩家淘汰另一名玩家的頻率變得容易,因此淘汰的期望值(EV)對於計算機來說是微不足道的。然而,GTO Wizard AI一次僅解決一條街(street)。
然而,傳統求解器(solvers)的工作可能需要數分鐘或數小時才能完成一個翻牌(flop);在像GTO Wizard這樣的網絡應用程式上這是不可行的。我們使用一種捷徑,使解決場景比傳統求解器快數千倍。我們不計算到河牌的整個策略,GTO Wizard AI計算:
當前街
然後使用AI估計未來街手中牌的價值
數小時的求解壓縮到幾秒鐘!
雖然這種加速很棒,但也意味著如果您解決一個轉牌(turn)場景,它不會計算河牌策略。未來街被抽象化,因此無法直接計算淘汰概率。我們需要一種新方法!
我們利用了人工智能的強大功能來解決這個問題。我們通過讓我們的傳統(CFR)求解器與自身對抗,生成數億手牌的歷史記錄,涵蓋各種場景。然後,我們在這些數據上訓練一個神經網絡(neural network),直接估計淘汰的期望值。換句話說,我們使用AI來預測贏得獎金的期望值。無需解決並迭代整個遊戲樹(game tree)來找到獎金的期望值,我們只需將數據輸入神經網絡。簡單、快速、有效!
請記住,這種AI估計僅用於較早的街(earlier streets)。到河牌時,我們可以直接計算一名玩家淘汰另一名玩家的頻率。
未來獎金期望值
淘汰概率僅處理當前手牌中立即淘汰某人的可能性。但正如任何多桌錦標賽(MTT)專業玩家所知,您的籌碼量對您未來積累獎金的能力有巨大影響。如果您覆蓋許多玩家(cover many players),那麼您有更多機會搶奪獎金。如果您是短籌碼(short-stacked),則有被淘汰的風險,收集獎金的可能性較低。
那麼,我們如何考慮未來獎金的價值?我們使用比例獎金模型(Proportional Bounty Model)。
比例獎金模型認為,玩家在未來獎金中的份額與他們在錦標賽中的籌碼份額成正比。
Future Bounty EV = Chip Share × Remaining Bounty Prizes
其中:
籌碼份額(Chip Share) = 您的籌碼量除以錦標賽中所有籌碼量(your chips / all chips in the tournament)
剩餘獎金(Remaining Bounty Prizes) = 錦標賽中剩餘的獎金池鎖定的金額(the amount of money locked up in bounty prizes remaining in the tournament)
例如,如果您的籌碼份額增加1%,而剩餘獎金為10,000美元,這意味著您預計將再贏得100美元的獎金。
敏銳的讀者會意識到,這本質上只是一個籌碼期望值(Chip EV)計算。比例獎金模型聲稱您在未來獎金中的份額與您的籌碼份額成正比,這正是籌碼期望值模型所主張的。研究表明,比例獎金方法(proportional bounty method)是對您真實獎金期望值(bounty EV)的極其接近的近似。
請注意,比例獎金模型並非新創。這種方法至少自2018年起(可能更早)就存在。在此之前,PKO玩家一直在使用獎金力量(Bounty Power)——一種獎金價值的籌碼期望值近似,自2018年之前就已使用。
您的籌碼ICM價值
到目前為止,我們知道了獎金的價值。
最後一塊拼圖是使用獨立籌碼模型(ICM)估計籌碼的價值——這是一個將您的錦標賽籌碼轉換為貨幣價值的數學公式。
過去,計算大場錦標賽的ICM價值是一個漫長而繁瑣的過程。ICM可以通過上述鏈接文章中概述的基本方法直接計算,也可以使用蒙特卡洛模擬(Monte Carlo simulation)計算。問題在於,對於大場錦標賽,基本方法計算複雜度太高,而蒙特卡洛方法收斂時間太長。
☑ 不是 獎金的價值
☐ 籌碼的價值
因此,我們開發了一種新的數學方法來計算(而不是估計)ICM值。這種新技術使我們能夠比傳統方法快100倍到1000倍地解決大場錦標賽!這意味著您可以為即使是最大的多桌錦標賽(MTTs)找到最優策略。我們無法公開所有的秘密配方,但您可以閱讀更多關於我們ICM突破的信息。
讓我們回顧一下。您正在模擬一個PKO翻牌後場景。我們使用AI預測本手牌獲得獎金的期望值(EV)。我們使用比例模型(proportional model)來計算您未來將獲得多少獎金。我們使用ICM來計算您的籌碼價值多少獎金。有了這三塊信息,我們可以非常精確地預測任何翻牌後多桌錦標賽場景的最優策略。
將所有部分整合
讓我們通過一個簡單的例子來展示這一切是如何運作的。
這是一場PKO的第一手牌。某個瘋狂玩家(maniac player)開牌全壓(open-shoves)。
200美元(無抽水)買入(100美元用於獎金池,50美元可兌現獎金,50美元用於淘汰某人的頭上獎金)
100名玩家
100大盲起始籌碼
前10%的玩家進入獎金圈
您用AA跟注全壓並淘汰他們。恭喜您贏得了他們的獎金!但您獲得了多少價值?我們可以量化這一點嗎?讓我們比較您在淘汰他們前後的價值,簡單起見。
淘汰前
在手牌開始前,您投資了200美元參加這場PKO,並且與其他玩家的籌碼份額相等。忽略任何技術優勢,您預計贏得100美元的獎金和100美元的獎金。換句話說,在第一手牌之前,您的籌碼價值正好是您支付的200美元進入多桌錦標賽(MTT)。
淘汰後
在淘汰瘋狂玩家後,您立即從他們的獎金中贏得50美元。
您加倍了籌碼,所以您擁有200大盲,總共有10,000大盲,即所有籌碼的2%。剩餘獎金為9950美元,您預計贏得其中的2%,因此您的未來獎金期望值(future bounty EV)為199美元。這是一個簡單的籌碼期望值(Chip EV)計算。
最後,我們計算您籌碼的ICM價值。使用籌碼期望值近似,您預計贏得未動用的10,000美元獎金池的2%。然而,獨立籌碼模型(ICM)對籌碼的估值並非線性。加倍您的籌碼不會完全加倍其價值。畢竟,淘汰那個瘋狂玩家不僅惠及您,也略微惠及其他剩餘玩家,因為他們距離獎金圈更近一步。因此,您的籌碼ICM價值更接近195美元。(這根據獎金結構略有幾個百分點的變化)。
總計,您獲得了大約244美元的總價值!

總結
在當今的遊戲中,建模獎金的價值對於解決最優錦標賽策略至關重要。回顧一下,我們將問題分解為三部分:
獎金期望值(Bounty EV) – 本手牌贏得對手獎金的期望值。在翻牌(flops)和轉牌(turns)(當玩家未全壓時)使用神經網絡預測獎金期望值,在河牌(river)上精確計算。
未來獎金期望值(Future Bounty EV) – 未來手牌贏得獎金的期望值。使用比例獎金模型(proportional bounty model)計算,該模型預測您的獎金份額與您的籌碼份額成正比。
您的籌碼ICM價值 – 由獨立籌碼模型(ICM)預測,採用GTO Wizard ICM提供支持。
為了精確起見,我們的神經網絡在一步中預測當前和未來獎金期望值。
有了這三塊拼圖,我們擁有一個完整的圖景,可以精確預測錦標賽中的籌碼效用(chip utility),使多桌錦標賽(MTT)玩家能夠解決所有格式的翻牌後最優策略,並將他們的遊戲提升到新水平。




留言