top of page

動態下注基準

更新:我們已改進動態下注算法(dynamic sizing algorithm),以提供更準確且一致的策略。請注意,這些基準是針對早期版本的動態下注算法進行的。查看更新基準:點擊這裡


動態下注(Dynamic Sizing)是一種革命性的新撲克算法,能在每個決策點自動簡化您的策略,選擇期望值(EV)最高的下注大小!


動態下注使用機器學習算法(machine learning algorithm)來估計最優下注大小這引出了一個問題——這個算法有多準確?它多常能找到最佳下注大小?我們如何衡量其表現?我們進行了廣泛的基準測試來找出答案!


目錄

  • 表現總結

  • 方法論

  • 動態表現:與複雜策略比較

  • 動態表現:與單一大小策略比較

  • 河牌最優下注大小是多少?

  • 對Slumbot的基準測試

  • 結論


表現總結

  • 動態下注相較於最優單一大小下注策略(optimal one-size betting strategy),捕捉了99.95%的可用河牌期望值(river EV)。

  • 動態下注95%的時間找到近乎最優(期望值損失少於0.25%)的下注大小。

  • 動態下注優於任何固定大小策略(fixed sizing strategy)。

  • 動態下注相較於使用非常複雜策略(complicated strategy)捕捉了99.7%的可用河牌期望值。

  • 當考慮時間/收斂(time/convergence)因素時,動態下注在實踐中優於更複雜的策略。

  • 動態策略(Dynamic strategies)比複雜策略更容易學習、實施,且噪音更少。


所有測試均在河牌進行,我們預期簡化在此會導致最大的期望值損失。動態下注算法在早期街(earlier streets)應表現更好!


方法論


我們模擬了數百手100大盲(bb)單挑(Heads Up)牌局,使用自我對弈(self-play)並對500個河牌場景進行基準測試。使用自我對弈來抽樣河牌的好處是,較常見的場景在數據中更有代表性。為評估表現,我們首先測量了雙方玩家擁有8個下注大小和5個加注大小的複雜策略(complex strategy)的期望值(EV)。然後,我們讓一名玩家使用簡化的單一大小策略(one-size strategy),重新求解並測量期望值損失。我們分別對兩個位置重複此過程。河牌使用反事實遺憾最小化(CFR)求解,精確度達到0.05%底池。非位置(OOP)計算中排除了領先下注(Donk bet)場景。


動態下注算法在河牌上的平均期望值損失僅為0.05%底池,相較於最佳單一大小策略。

它平均僅損失0.30%期望值,相較於使用8種不同大小的複雜河牌策略,優於任何固定單一大小策略!


ree
  • 最佳單一大小(Single Best Size)表示相對於最佳單一大小策略的表現。

  • 複雜策略(Complex Strategy)表示相對於使用8個下注大小的複雜策略的表現。

  • 在所有情況下,英雄(Hero)對抗的是一個複雜的剝削性對手(exploitative opponent),盡其所能懲罰我們的簡化。


動態表現:與複雜策略比較


我們的第一個測試是檢視單一大小動態策略相較於更複雜策略的表現。請記住,將8個大小簡化為1個總會帶來一些理論上的期望值損失,即使您總是選擇最佳大小。


下圖顯示了動態算法(Dynamic Algorithm)相較於更複雜策略實現的不同期望值損失(水平軸⇆)的頻率(垂直軸⇅):

ree

我們很高興發現,單一大小動態策略平均捕捉了99.7%的河牌期望值。期望值損失大多在0.1%–0.5%底池範圍內,很少超過底池的1%。


動態表現:與單一大小策略比較


最公平的表現測試是測量相對於我們可能選擇的最佳單一大小的期望值損失。


下圖顯示了動態算法相較於最佳單一大小策略實現的不同期望值損失(水平軸⇆)的頻率(垂直軸⇅):

ree

動態算法在78%的時間選擇了最優河牌下注大小,並在95%的時間選擇了損失少於0.25%期望值的近乎最優下注大小。


在許多大小產生相似回報的場景中,動態下注的變異性(variability)更大。在某些場景中,一個大小明顯更優,這是動態下注最可能選擇最優下注大小的情況。


河牌最優下注大小是多少?


如果您將河牌下注策略簡化為一個大小,哪個大小表現最佳?


我們測量了使用單一大小河牌策略的期望值損失。再次,這是相對於對抗一個複雜剝削性對手(exploitative opponent)測量的,該對手盡其所能懲罰我們的簡化。下圖顯示了在河牌使用單一固定下注大小的期望值損失。您可以按位置過濾!


ree

這裡的每個數據點表示僅使用該下注大小或檢查(check)在河牌的期望值損失。例如,下注100%意味著我們測量了僅使用底池大小下注或檢查的期望值損失。最優固定河牌下注大小似乎在位置內(IP)為75%-100%底池,非位置(OOP)約為50%底池。我們驚訝地發現,相較於使用8大小的複雜策略,固定大小的期望值損失相對較低。這數據表明,您可以在河牌上僅玩50%非位置和75%位置內底池,就能獲得相當強的固定下注大小策略。


ree

這引出了一些有趣的理論問題,關於為什麼非位置偏好較小的下注大小而位置內不然。一個解釋是,位置內下注時重新開啟行動(reopens the action),意味著他們應使用更大大小的更極化策略(polarized strategy)。另一方面,非位置不下注時不重新開啟行動,有更多動機進行阻斷下注(block-bet),甚至可以用被跟注時略落後的手牌進行價值下注,因為檢查的期望值較低。但這是另一篇文章的討論!


對Slumbot的基準測試


我們很高興發現,在與Slumbot對戰時,表現最好的150,000手試驗是使用單一大小動態下注的試驗,這意味著我們每個節點僅使用一個下注大小。理論上,複雜策略應優於簡單策略,但7秒的行動時間限制使更簡單的方法達到了更高的精確度。


ree

這裡您可以查看對Slumbot的兩場比賽圖表。在兩種情況下,Ruse(現為GTO Wizard AI)顯著優於Slumbot,但動態算法的勝率高出50%,且比賽中的波動(variance)更少。


複雜策略對Slumbot:

  • 勝率:13.1大盲/100手

  • 70%置信區間:8.8至17.3大盲/100手

  • 95%置信區間:4.5至21.6大盲/100手


ree

動態策略對Slumbot:

  • 勝率:19.4大盲/100手

  • 70%置信區間:15.3至23.5大盲/100手

  • 95%置信區間:11.2至27.6大盲/100手


ree

結論


撲克玩家有時擔心簡化策略會損失期望值(EV),但我們可以從經驗中自信地說,事實恰恰相反。請放心,簡化策略會改善您的學習體驗和勝率。隨著您開始從遊戲中剔除不必要的複雜性並專注於最重要的部分,您的精確度和信心都將提升。


回顧基準:

  • 動態下注相較於最優單一大小下注策略,捕捉了99.95%的可用河牌期望值。

  • 動態下注95%的時間找到近乎最優(期望值損失少於0.25%)的下注大小。

  • 動態下注優於任何固定大小策略。

  • 動態下注相較於使用非常複雜策略捕捉了99.7%的可用期望值。

  • 當考慮時間/收斂(time/convergence)因素時,動態下注在實踐中優於更複雜的策略。

  • 動態策略比複雜策略更容易學習、實施,且噪音更少。


所有測試均在河牌進行,我們預期簡化在此會導致最大的期望值損失。動態下注算法在早期街(earlier streets)應表現更好!


簡單策略執行得好,總會優於複雜策略執行得差。


如果您想了解更多關於我們動態下注算法如何運作的資訊,請查看這篇文章:動態下注:GTO突破。

留言


bottom of page