top of page

納什均衡在ICM場景中的局限性

在撲克錦標賽的複雜世界中,獨立籌碼模型(Independent Chip Model, ICM)在決策中扮演了關鍵角色。然而,當深入探討博弈論(Game Theory)與ICM時,玩家可能會遇到違反直覺的結果,這些結果挑戰了傳統理解。本文旨在探討納什均衡(Nash Equilibrium)在ICM場景中的局限性。


在本文中,我們將展示:

  • 不同的納什均衡如何具有不同的期望值(EV)

  • 為什麼最低期望值不再有保證

  • 博弈論最優(GTO)策略如何在對抗錯誤時損失期望值

  • 為什麼增加行動可能降低期望值


目錄

  • 非零和博弈中的納什均衡

  • 期望值洩漏

  • 博弈論最優策略如何在對抗錯誤時損失期望值

  • 為什麼增加行動可能降低期望值

  • 總結


非零和博弈中的納什均衡


在雙人零和博弈(two-player zero-sum game)中,所有玩家的收益總和在任何策略組合下均為零。這意味著一名玩家的收益完全由另一名玩家的損失平衡。如果您在零和博弈中採用博弈論最優(GTO,也稱為納什均衡策略,Nash Equilibrium strategy),您將獲得一些重要的保證:

✅ 最低期望值保證:通過採用GTO,您保證能實現至少一定數量的期望值(EV)。

✅ 對手的錯誤只會對您有利。

✅ 為您的策略增加行動(例如額外的下注大小)只會對您有利。

✅ 對手無法將您推向更差的納什均衡。


這些特性廣為人知,也是吸引大多數人最初採用GTO的原因。然而,這些保證僅適用於單挑(heads-up, HU)零和博弈!


錦標賽撲克看似零和。畢竟,獎金和籌碼的總額不變。然而,當籌碼在兩名玩家之間移動時,不僅僅是他們的貨幣期望值($EV)受到影響。場上每位玩家的錦標賽權益(tournament equity)都會改變。


在錦標賽中,兩個玩家在底池中的收益總和不再為零。他們的部分貨幣期望值($EV)可能會洩漏(leaked)給場上的其他玩家。


如果兩個活躍玩家的收益總和不為零,事情就變得複雜了!

🟥 最低期望值保證:通過採用GTO,您保證能實現至少一定數量的期望值(EV)。

🟥 對手的錯誤只會對您有利。

🟥 為您的策略增加行動(例如額外的下注大小)只會對您有利。

🟥 對手無法將您推向更差的納什均衡。


需要明確的是,納什均衡在非零和博弈(non-zero-sum games)中仍然有效且定義明確。您的對手無法在GTO策略下獲得期望值。但上述保證不再成立。


期望值洩漏


在錦標賽中贏得底池時,即使您獲得了籌碼,整個場上的錦標賽權益分佈也會改變。如果您淘汰一名玩家,每個剩餘玩家的排名都會上升,每個剩餘玩家預期贏得剩餘獎金的比例也會增加。您捕獲的部分價值(value)會“洩漏”給場上的其他玩家。這裡的“價值”指的是ICM模型預測的您的籌碼貨幣價值,也稱為錦標賽權益(tournament equity),我們將其縮寫為$EV。


然而,這可能是雙向的。$EV可以從場上其他玩家獲得,也可以洩漏給他們。當您使籌碼趨向平均(even out the stacks),例如雙方玩家更接近平均籌碼量(average stack),這往往會從場上其他玩家吸取$EV(leach $EV)。


範例一:衛星賽泡沫


最簡單的例子是衛星賽(satellite tournament)的泡沫階段,三名玩家剩餘,只有兩名玩家獲得獎金:

  • 衛星賽:前2名獲得獎金

  • 剩餘3名玩家

  • 對稱10大盲(10bb)籌碼

  • 無前注(ante)


您在按鈕位(BTN)棄牌,小盲(SB)全壓10大盲,大盲(BB)需要行動。請注意,無論結果如何,您都獲得$EV。如果其中一人淘汰另一人,您贏得一張入場券。即使大盲棄牌,您的錦標賽權益也從33.33%增加到33.46%。小盲和大盲正在向您“洩漏”$EV。在錦標賽中,即使您的籌碼量保持不變,您的$EV也可能改變!


ree

這是$EV洩漏(leakage)最清晰的概念。在錦標賽中,您的籌碼貨幣價值($EV)即使籌碼量不變也可能改變。


範例二:200人參賽的泡沫場景


接下來,讓我們檢視一個200人參賽的經典泡沫場景:

  • 200美元買入;剩餘40,000美元獎金

  • 對稱40大盲籌碼

  • 30名玩家進入獎金圈;剩餘33名玩家

  • 標準GTO Wizard獎金結構


當兩名玩家對抗時,他們會向場上其他玩家洩漏$EV。您從對手贏得的籌碼越多,您洩漏的$EV越多!在此場景中,由於籌碼對稱,每個人開始時的錦標賽權益($EV)為1/33 = 1212.12美元。


當您從對手贏得籌碼時,您的籌碼價值增加,但場上其他玩家的籌碼價值也增加。如果您淘汰某人,加倍籌碼(doubling up),他們將損失1212美元的錦標賽權益,而您將獲得698美元的錦標賽權益。剩餘的514美元分佈給更接近獎金圈的場上其他玩家。


您從對手贏得的籌碼越多,您洩漏的$EV越多。
您從對手贏得的籌碼越多,您洩漏的$EV越多。

以下圖表比較了您在贏得對手籌碼時的錦標賽權益($EV)利潤和洩漏:

ree

為了更直觀地理解,我們可以將其視為百分比(%)。此圖表顯示了輸家的$EV如何在英雄(Hero)和場上其他玩家之間分佈:

ree

在極端情況下,如果對手被淘汰,您將獲得其$EV的58%,剩餘42%的$EV平均分佈給場上其他31名玩家。


我們還對1000人參賽的泡沫場景進行了相同實驗,結果幾乎相同。


範例三:1000人參賽的泡沫場景


我們對1000人參賽的錦標賽進行了相同計算:

  • 200美元買入;剩餘200,000美元獎金

  • 對稱40大盲籌碼

  • 150名玩家進入獎金圈;剩餘153名玩家

  • 標準GTO Wizard獎金結構


令人驚訝(或許並不意外)的是,結果變化不大。無論是以美元還是百分比計算,洩漏量與200人參賽的情況幾乎相同。這個場景在剩餘場上玩家百分比方面技術上更接近泡沫,但風險溢價(risk premiums)幾乎相同。


ree
ree

吸取(Drainage)


到目前為止,我們僅專注於負和場景(negative-sum spots)。但同樣容易展示相反的效果,我稱之為“吸取”(Drainage)。英雄(Hero)和反派(Villain)不僅會向場上其他玩家洩漏$EV,還可以從其他玩家吸取$EV。這是一個正和場景(positive-sum spot)的例子。


讓我們使用與前述1000人參賽範例相同的設置,籌碼量如下:

  • 英雄:20大盲

  • 反派:60大盲

  • 場上其他玩家:對稱40大盲


您與大籌碼玩家(big stack)全壓對抗(flip all-in)。

如果您加倍籌碼(double-up),籌碼趨向平均,您將獲得475美元的錦標賽權益。

大籌碼玩家(反派)損失400美元,場上其他150名玩家總共損失75美元(每人約0.50美元)。

這意味著您通過平均籌碼(evening out stacks)從場上其他玩家吸取了75美元。


ree

本質上,場上其他玩家希望您被淘汰,因為這會讓他們更接近獎金圈。甚至在手牌開始前,您初始的20大盲短籌碼(short-stack)在統計上更容易較早被淘汰。通過贏得這次對抗,籌碼趨向平均,剩餘玩家進入獎金圈或獲得更高排名的可能性降低。通過平均籌碼,您不僅從贏得籌碼的玩家那裡,還從其他玩家的錦標賽權益中削減了價值。


因此,作為一條規則,當籌碼接近平均時,您從場上其他玩家吸取金錢(drainage)。當籌碼偏離平均時,您向場上其他玩家捐贈金錢(leakage)。請注意,這種現象沒有官方名稱,因此我不得不創造新術語來描述它。


當籌碼接近平均時,您從場上其他玩家吸取金錢。當籌碼偏離平均時,您向場上其他玩家捐贈金錢。


理解洩漏(leakage)的概念是解讀ICM求解器(solvers)結果的關鍵。關於$EV分佈,不僅僅是“英雄對反派”,而是“英雄對反派對場上其他玩家”。


物理學類比


或許另一種理解這種效應的方式是通過類比。在物理學中,封閉系統的總能量是守恆的,但個別反應可以向系統其他部分釋放能量(放熱,exothermic)或從系統其他部分吸收能量(吸熱,endothermic)。同樣,在撲克錦標賽中,獎金的總貨幣價值是守恆的。然而,底池中兩名玩家的$EV可以以某種方式轉移,重新分佈場上的價值:放熱行動向場上其他玩家洩漏(釋放)價值,而吸熱行動從場上其他玩家吸取(吸收)價值。


博弈論最優策略如何在對抗錯誤時損失期望值


在單挑(HU)籌碼期望值(Chip EV)場景中,納什均衡(GTO)策略不會因對手的錯誤而損失期望值(EV)。您的收益完全等於對手的損失,反之亦然。然而,ICM打破了這一原則。對抗不完美的對手,完美執行GTO仍可能損失$EV。這讓我想起了一句著名的電影台詞:


“有可能不犯任何錯誤卻仍然輸掉。這不是弱點;這是人生。”

– 尚盧·皮卡德(Jean Luc Picard)



問答:


博弈論最優策略可能在對抗錯誤時損失$EV。這怎麼可能?這是否使GTO無用?這是否意味著您應該在錦標賽中專注於剝削性玩法(exploitative play)?我們稍後將進行一些實驗,但首先,讓我們回答您的迫切問題:


這怎麼可能?

再次歸結於洩漏(leakage)。當您的對手對您的GTO策略犯錯時,他們可能無意中增加或減少洩漏給場上其他玩家的$EV量。您的對手無法在GTO策略下獲得期望值,但他們可以將您的一些$EV轉移給場上其他玩家,或反之亦然。


這是否使GTO無用?

不。沒有堅實的、不可剝削的基準(baseline),您如何識別剝削性機會(exploitative opportunities)?沒有基準,就不存在剝削性策略。此外,您不會總是(甚至通常)有足夠的關於對手策略的信息來自信地剝削他們。


您應該在錦標賽中專注於剝削性玩法嗎?

是的。ICM限制了固定GTO策略的效用。一般來說,傾向於低變異剝削(low-variance exploits)是安全的,例如對抗過度跟注者(stations)玩過於價值為重(value-heavy)。但傾向於高變異剝削(high-variance exploits),例如對抗過度謹慎者(nit)過度詐唬(over-bluffing),則極其危險。請記住,變異(variance)增加時,洩漏通常也會增加。


實驗


想像您在一場千人場的多桌錦標賽(MTT)決賽桌上。僅剩三名玩家,您是其中之一。籌碼分別為按鈕位(BTN)30大盲、小盲(SB)20大盲、大盲(BB)25大盲。獎金結構如下:

ree

您在按鈕位開牌,小盲棄牌,大盲跟注,您在A♥9♠2♣ 6♠ K♠的牌面上進行三連發全壓(triple-barrel-shove)。


ree

我們將從GTO對GTO的基準開始比較。以下是河牌全壓後的策略:

均衡河牌策略:大盲回應(左)對按鈕位全壓
均衡河牌策略:大盲回應(左)對按鈕位全壓

如您所見,大盲應棄掉許多頂對(top pairs),甚至一些兩對(two pair)手牌。總體而言,他們應大約一半時間棄牌,您的詐唬才能收支平衡。現在讓我們看看固定(不變的)GTO策略對非GTO對手的表現。


GTO對錯誤:過度跟注者和過度謹慎者


  • 過度跟注者(station)跟注任何頂對或更好的手牌(這是大量的跟注)。

  • 過度謹慎者(nit)棄掉一些0期望值的詐唬攔截手牌(bluff catchers)。


ree

讓我們看看固定(不變的)GTO策略對這兩種類型玩家的表現:

ree

手牌中的玩家


按鈕位(採用固定GTO策略的玩家)對過度跟注者實際上損失了大量$EV(-$354),而對過度謹慎者僅獲得少量$EV(+$58)。請注意,大盲無論如何幾乎不損失$EV。他們的過度跟注策略因跟注一些不利阻斷牌(unfavorable blockers)的手牌而損失20美元,但這相對較小。洩漏幾乎完全集中在進攻者(aggressor)身上!


場上其他玩家


讓我們從已棄牌的小盲角度考慮這一點。如果按鈕位或大盲互相淘汰,小盲的$EV將顯著增加。因此,任何增加這種可能性的策略對都對小盲有利。過度跟注策略增加這種可能性,從而增加洩漏。過度謹慎策略減少這種可能性,從而減少洩漏。


剝削與反剝削


按鈕位不必採用固定GTO策略。如果他們知道大盲過度或不足防守(over- or under-defending),他們可以相應調整詐唬。讓我們測量對過度跟注者和過度謹慎者採用剝削性策略(exploitative strategy)的價值。此外,在進行任何剝削性分析時,始終測量反剝削性(counterexploitability)以評估剝削的風險與回報是良好的做法。


ree

剝削過度跟注者


固定GTO策略對過度跟注者已經損失(-$354 GTO),因為過多的洩漏。因此我們應該剝削他們。剝削過度跟注者的最簡單方法是停止詐唬,僅為薄價值下注(+$378 exploit)。當然,他們可能通過過度棄牌反擊您(-$279 backfire)。


有趣的是,在這種情況下,即使在絕對最壞的情況下,這種價值為重的剝削(value-heavy exploit)仍然優於GTO對過度跟注者的策略。價值為重的全壓在最佳和最壞情況下分別獲得7323至7979美元,而GTO策略對過度跟注者僅獲得7247美元。


剝削過度謹慎者


固定GTO策略對過度謹慎者已經獲得(+$58),因為洩漏減少。但我們可以貪婪嗎?剝削過度謹慎者的最簡單方法是用無攤牌價值的牌詐唬(+$120 exploit)。然而,他們可能通過總是跟注反擊(-$1394 backfire,哎呀!)


這個剝削的問題在於它增加了變異(variance)和洩漏,迫使雙方玩家更頻繁地互相淘汰。風險/回報比很糟糕。試圖最大化剝削過度謹慎者,您冒險損失1452美元(如果他們反擊)以相對於GTO對過度謹慎者額外獲得62美元。您的判斷需要至少1452/(1452+62) = 95.9%的時間正確。如果您認為您的過度謹慎對手有5%的機會開始反擊您,這將是一個糟糕的剝削。


關鍵要點是:

在ICM壓力大的場景中,您應傾向於低變異剝削(low-variance exploits)。


始終注意洩漏,記住他們的損失並不完全是您的收益——獎勵方程中的一大塊價值流向場上其他玩家。這是ICM的本質。


為什麼增加行動可能降低期望值


ICM打破納什均衡的另一種方式是,給予玩家更多行動(例如更多下注或加注大小)可能實際上降低該玩家的$EV!這聽起來似乎不可能。畢竟,如果我們添加了無利可圖的行動,該玩家可以簡單地不使用這些行動。那麼,給予某人更多策略機會怎麼可能降低他們的收益?


為了揭開這個謎團,我求助於GTO Wizard的優秀日本科學家Wataru,他是開源WASM求解器(solver)的創建者。我請他製作一些玩具遊戲(toy games)來幫助我理解這個概念。


根本原因再次歸結於洩漏(leakage)。簡而言之,通過為我們的GTO策略添加更多行動,我們可能迫使GTO對手更積極地回應,從而增加洩漏。隨著您添加更多下注大小,您為求解器提供了更多將資金投入底池的方式,可能增加雙方玩家的總體積極性。


通過為我們的GTO策略添加更多行動,您可能無意中迫使對手更積極地回應,從而增加洩漏。


負和玩具遊戲


為了更好地理解這個概念,讓我們檢視一個負和玩具遊戲(negative-sum toy game)。這裡,每個玩家有行動A0、A1、A2、A3、A…,表示他們的策略有多積極。


更積極的策略對(strategy pair)的納什均衡具有更大的“期望值洩漏”,因此雙方玩家的期望值降低。讓我們將收益矩陣表示如下:

ree

請注意,每個高亮的對角線格子都是一個納什均衡!雙方玩家都沒有改變策略的動機。


被動(均衡)策略對


在最佳情況下,A0/A0,雙方玩家收益為0。這代表一個被動策略對(soft-playing)。雙方玩家不會從對方搶走太多籌碼,因此洩漏的資金較少。


積極(均衡)策略對


現在檢視更積極的策略對A3/A3。雙方玩家損失-3。他們更容易互相淘汰,因此向場上其他玩家洩漏$EV。然而,雙方玩家都不想改變策略。如果您試圖對一個積極的對手(aggro opponent)軟玩(A0),您最終會得到更差的收益-6,而不是-3。在這個玩具遊戲中,您有動機匹配對手的積極性。


真實的錦標賽權益(tournament equities)顯然遠比這個簡單的玩具遊戲複雜。然而,這個負和玩具遊戲展示了幾個關鍵概念:

  • 可以存在多個納什均衡。

  • 每個納什均衡可以有不同的期望值(EV)。

  • 最低期望值不再有保證。

  • 對手的錯誤可能迫使您進入更差的均衡(想像在泡沫階段遇到一個瘋狂玩家,maniac)。


範例


您在一場衛星賽的決賽桌上,前兩名獲得獎金,剩餘三名玩家,每人25大盲籌碼。按鈕位開牌,小盲棄牌,您在大盲跟注。牌面為Q♥6♠2♠ 9♥ A♥,行動為檢查-下注-跟注(XBC),雙方檢查(XX)。在A♥河牌上輪到您行動。您需要決定是否探針下注(probe-bet)或檢查。


讓我們比較兩種可能的大盲首次行動河牌策略(BB first in river strategies):

  • 策略1 – 總是檢查

  • 策略2 – 大盲可以選擇檢查、探針下注25%、100%或全壓357%

    • 無論哪種情況,如果您檢查,位置內(IP)可以下注40%或全壓。


首先,讓我們將這兩種策略並排放置比較:

大盲首次行動河牌節點比較:策略
大盲首次行動河牌節點比較:策略

現在讓我們看看期望值:

大盲首次行動河牌節點比較:期望
大盲首次行動河牌節點比較:期望

讓我理清一下。我們給大盲增加了三個探針下注選項,他們的籌碼縮放錦標賽權益(Chip-Scaled Tournament Equity, CSTE)從1.78下降到1.72?


或許更直觀的方式是以實際美元顯示期望值。如果每個獲勝名次價值5000美元,$EV將如下:

ree

請注意,大盲損失了7美元。這在籌碼期望值(Chip EV)場景中永遠不會發生。給大盲更多策略選項永遠不會降低他們的期望值。然而,這在ICM場景中可能發生。


原因在於當您查看雙方玩家的$EV總和時變得更清晰。按鈕位對探針下注策略也損失了更多資金。這裡發生的事情是,當我們添加探針下注(probe-bets)時,我們迫使雙方玩家進入一個新的均衡(可以說,更接近真實行動空間)。這個新均衡更積極,增加了對已棄牌小盲的洩漏。


絕對清楚的是,探針下注本身並非無利可圖。如果是,求解器(solver)不會使用它。這裡的根本問題是,探針下注的威脅迫使按鈕位更積極地行動,這意味著大盲也必須更積極地行動,增加洩漏。


相反,當大盲被迫檢查時,他們檢查得更強,意味著按鈕位更多檢查回來(checks behind)。但當大盲有機會領先下注(donk-bet)時,按鈕位面對檢查必須更頻繁下注,否則有被剝削的風險。


探針下注的威脅迫使按鈕位更積極地行動,這意味著大盲也必須更積極地行動,增加洩漏。


讓我們通過添加另一個策略對來測試這個假設:這次,按鈕位和大盲同意在河牌檢查到底(check down)。


ree

這是目前最佳的策略對。請注意與負和玩具遊戲的相似之處。在這個場景中,更被動的策略對具有更高的總體收益。允許非位置(OOP)越積極,位置內(IP)必須越積極回應,導致雙方玩家向已棄牌的小盲洩漏更多$EV。


在真實錦標賽中,您沒有這個選擇。軟玩(soft-playing)因充分理由違反規則。上述範例僅作為警告,幫助您理解/導航ICM策略以及因添加或移除下注機會而可能出現的均衡變化。


總結


很可能,您們大多數人沒有閱讀整篇文章。但如果您讀了,恭喜!對於那些略讀的讀者,我們將在下面提供一個總結。


ICM由於洩漏(leakage)影響納什均衡的動態。在單挑籌碼期望值(Chip EV)場景中,對手的損失完全等於您的收益。然而,在錦標賽中,情況並非如此。由於ICM,場上剩餘玩家在您淘汰一名玩家時也可以獲得價值。


首先,我們更詳細地探討了洩漏的關鍵概念。


洩漏:主要要點

  • 在撲克錦標賽中贏得底池時,部分價值因ICM流向場上其他玩家,這稱為“洩漏”(leakage)。

  • 洩漏意味著單挑底池中的$EV總和不再恆定。更積極的策略對(strategy pairs)傾向於向場上其他玩家洩漏$EV。更被動的策略對傾向於洩漏較少$EV。

  • 洩漏可以通過兩種方式發生:

    • 向場上洩漏$EV(我稱之為“洩漏”)

    • 從場上其他玩家吸取$EV(我稱之為“吸取”,drainage)。

  • 當籌碼接近平均時,您從場上其他玩家吸取金錢。當籌碼偏離平均時,您向場上其他玩家捐贈金錢。


接下來,我們展示了博弈論最優(GTO)策略如何在對抗錯誤時損失金錢,以及對剝削性策略的影響。


ICM中的GTO與剝削:主要要點

  • 儘管在ICM場景中剝削(exploits)變得更有價值,但ICM中的GTO策略對於識別剝削性機會至關重要。

  • GTO可能在對抗錯誤時損失$EV。然而,錯誤無法在GTO策略下獲得$EV。

  • 調整積極性可能將GTO玩家的部分$EV轉移給場上其他玩家,或反之亦然。但同樣,您無法在GTO策略下提高自己的收益。

  • 一般來說,在ICM場景中剝削變得更有價值。傾向於低變異剝削(low-variance exploits),例如對被認為是過度跟注者(calling station)玩過於價值為重(value-heavy)是安全的。但傾向於高變異剝削(high-variance exploits),例如對被認為是過度謹慎者(nit)過度詐唬(over-bluffing),則極其危險。


最後,我們展示了如何通過添加下注大小將玩家推入新的(可能更差的)均衡。


為什麼增加行動可能降低期望值:主要要點

  • 您通常需要匹配對手的積極程度。

  • 給予一名玩家更多下注大小可能無意中降低雙方玩家的$EV。

  • 當您給予一名玩家更多下注大小時,通常會迫使對手相應更積極地回應,這可能增加洩漏。


致謝


我想特別感謝我們的兩位工程師:Philippe Beardsell(我們的首席引擎開發者)和Wataru Inariba(破解了新ICM公式的工程師),他們幫助我理解了非零和博弈中納什均衡的本質。在GTO Wizard,我們為雇用行業中最優秀的頭腦推動撲克理論前沿感到自豪。

留言


bottom of page