動態下注:GTO突破
- Tombos21

- 7月17日
- 讀畢需時 5 分鐘
更新:我們已改進動態下注算法(dynamic sizing algorithm),以提供更準確且一致的策略。
動態下注(Dynamic Sizing)是一種革命性的新撲克算法,能在每個決策點自動簡化您的策略,選擇期望值(EV)最高的下注大小!
簡單策略執行得好,總會優於複雜策略執行得差。
自從基於瀏覽器的學習工具引入以來,學習具有過多下注大小的博弈論最優(GTO)解決方案一直是撲克玩家的重大挑戰。複雜的GTO策略難以解讀且幾乎無法實施。較簡單的解決方案更容易學習,但不夠穩健,且無法告訴您最優下注大小或如何應對不同的下注大小。
我們利用人工智能的力量開發了一個優雅的解決方案來應對這個問題。有了動態下注,您可以兼得兩全其美!

目錄
功能概述
動態與自動
問題所在
如何找到最優下注大小
基準測試
功能概述
動態下注(Dynamic Sizing)產生乾淨且簡單的策略,無不必要的下注大小,同時確保您關心的每個下注大小已在起始參數中考慮。
動態下注具有以下幾個關鍵功能:
在每個決策點自動簡化為最優下注或加注大小。
選擇您想要的下注大小數量。
可選地定義求解器(solver)選擇的大小列表。
指定求解器應在何時何地使用動態下注。
即時重新求解節點(nodes),使用不同的下注大小。
針對您的自定義解決方案進行訓練。
使用動態下注功能時,您無需輸入任何下注大小或手動創建下注樹(betting tree),即可看到特定場景中期望值最高的下注大小。如果您要求2個下注大小,您是在要求求解器從廣泛的選項列表中精確使用兩個下注大小,您也可以自定義這些選項。
輸入您在遊戲中喜歡使用的確切下注大小,讓GTO Wizard AI告訴您每個場景的最佳大小。您會看到不同牌面結構(board textures)選擇了不同的大小,這意味著您可以通過關注動態推薦來學習如何改進您的下注和加注大小選擇。
使用動態下注的訓練體驗(Trainer experience)也是一個驚人的升級,因為您會獲得適合您所玩場景的適當下注大小,並可以重玩手牌或切換到學習模式以探索完整範圍策略(full range strategy)。當下注選項已被精選到特定場景時,跟踪您計劃執行的策略顯著更容易。
動態與自動
GTO Wizard有兩種自動簡化方法:動態(Dynamic)和自動(Automatic)。這兩者基本上是相同的算法。在兩種情況下,求解器從預定義的下注或加注大小列表中搜索,找到每個節點(node)的最優下注大小。關鍵區別在於,動態模式(Dynamic Mode)讓用戶控制應考慮哪些下注大小,以及每個決策點應使用多少個下注大小。
自動(Automatic):GTO Wizard決定您應使用多少個下注大小,並根據底池籌碼比(SPR)調整預定義大小列表。求解器自動簡化為每個決策點的最優下注或加注大小。這通常是新用戶的最佳選擇。
動態(Dynamic):您選擇想要多少個下注或加注大小,以及求解器應考慮哪些大小。求解器自動簡化為每個決策點的最優下注大小。此選項為您提供更多控制。
問題所在
對於不熟悉求解器(solvers)的人來說,這甚至是一個問題可能看起來很奇怪。畢竟,為什麼傳統求解器不能直接告訴我們最優下注大小?
問題在於撲克是一個極其複雜的遊戲,因此我們需要抽象化下注樹(betting tree)使其可計算。在經典求解器中,人類操作者必須精確定義允許的下注大小。您可以在這裡了解更多關於
傳統求解器如何運作的內容。
但您如何知道給求解器哪些下注大小?這是問題的核心。
經典簡化方法涉及先解決具有許多下注大小的複雜策略,然後使用求解器最常選擇的大小(頻率分析,frequency analysis)重新求解,或分別重新求解每個大小,選擇相較於複雜策略損失最少期望值(EV analysis)的大小。然而,這個過程冗長且繁瑣。一個單一的翻牌後樹(postflop tree)需要重新求解數千次才能優化每個決策點的下注和加注大小。因此,撲克玩家依賴經驗法則(rules of thumb)和啟發式方法(heuristics)來優化他們的下注樹。顯然,撲克界需要一種新方法。這就是為什麼我們開發了動態下注算法!
動態求解(Dynamic Solving)旨在通過在每個決策點利用最優下注大小來簡化您的策略。目標是找到對抗盡力懲罰您簡化的剝削性對手(exploitative opponent)最具期望值(EV)的下注或加注大小。重要的是,它需要快速完成這一點。
如何找到最優下注大小
動態算法(Dynamic Algorithm)掃描所有可用大小,消除對您的策略價值貢獻最小的下注或加注大小。這個算法不斷重複,持續移除價值最小的下注大小,直到僅保留所需數量的下注大小。
通常這將是一個非常長的計算。然而,借助人工智能的力量,我們可以極快地近似每種下注策略的價值。

為了找到最優下注大小,我們比較每個可用下注大小的頻率(frequency)、期望值(EV)和移除遺憾值(removal regret),生成一組用作專有機器學習算法輸入的特徵。該算法的輸出告訴我們應移除哪個大小。然後我們使用GTO Wizard AI重新求解下注樹,重複這個過程,直到僅保留最具價值的大小。最終結果是一個高效、簡單且最優的下注策略。
基準測試
下一個問題是:這個算法有多準確?我們進行了廣泛的基準測試來找出答案!這裡我們展示了我們的發現總結,但請務必查看完整的動態基準文章!
動態求解算法在河牌(river)上的平均期望值損失僅為0.05%底池,相較於最佳單一大小策略。它平均僅損失0.30%期望值,相較於使用8種不同大小的複雜河牌策略,優於任何固定單一大小策略。


我們很高興發現,在與Slumbot對戰時,表現最好的150,000手試驗是使用單一大小動態下注的試驗,這意味著我們每個節點僅使用一個下注大小。理論上,複雜策略應優於簡單策略,但7秒的行動時間限制使更簡單的方法達到了更高的精確度,且表現高出50%,同時比賽中的波動(variance)更少!

撲克玩家有時擔心簡化策略會損失期望值(EV),但我們可以從經驗中自信地說,事實恰恰相反。請放心,簡化策略會改善您的學習體驗和勝率。隨著您開始從遊戲中剔除不必要的複雜性並專注於最重要的部分,您的精確度和信心都將提升。




留言