納什均衡在ICM場景中的局限性
- Tombos21

- 7月23日
- 讀畢需時 13 分鐘
在撲克錦標賽的複雜世界中,獨立籌碼模型(Independent Chip Model, ICM)在決策中扮演了關鍵角色。然而,當深入探討博弈論(Game Theory)與ICM時,玩家可能會遇到違反直覺的結果,這些結果挑戰了傳統理解。本文旨在探討納什均衡(Nash Equilibrium)在ICM場景中的局限性。
在本文中,我們將展示:
不同的納什均衡如何具有不同的期望值(EV)
為什麼最低期望值不再有保證
博弈論最優(GTO)策略如何在對抗錯誤時損失期望值
為什麼增加行動可能降低期望值
目錄
非零和博弈中的納什均衡
期望值洩漏
博弈論最優策略如何在對抗錯誤時損失期望值
為什麼增加行動可能降低期望值
總結
非零和博弈中的納什均衡
在雙人零和博弈(two-player zero-sum game)中,所有玩家的收益總和在任何策略組合下均為零。這意味著一名玩家的收益完全由另一名玩家的損失平衡。如果您在零和博弈中採用博弈論最優(GTO,也稱為納什均衡策略,Nash Equilibrium strategy),您將獲得一些重要的保證:
✅ 最低期望值保證:通過採用GTO,您保證能實現至少一定數量的期望值(EV)。
✅ 對手的錯誤只會對您有利。
✅ 為您的策略增加行動(例如額外的下注大小)只會對您有利。
✅ 對手無法將您推向更差的納什均衡。
這些特性廣為人知,也是吸引大多數人最初採用GTO的原因。然而,這些保證僅適用於單挑(heads-up, HU)零和博弈!
錦標賽撲克看似零和。畢竟,獎金和籌碼的總額不變。然而,當籌碼在兩名玩家之間移動時,不僅僅是他們的貨幣期望值($EV)受到影響。場上每位玩家的錦標賽權益(tournament equity)都會改變。
在錦標賽中,兩個玩家在底池中的收益總和不再為零。他們的部分貨幣期望值($EV)可能會洩漏(leaked)給場上的其他玩家。
如果兩個活躍玩家的收益總和不為零,事情就變得複雜了!
🟥 最低期望值保證:通過採用GTO,您保證能實現至少一定數量的期望值(EV)。
🟥 對手的錯誤只會對您有利。
🟥 為您的策略增加行動(例如額外的下注大小)只會對您有利。
🟥 對手無法將您推向更差的納什均衡。
需要明確的是,納什均衡在非零和博弈(non-zero-sum games)中仍然有效且定義明確。您的對手無法在GTO策略下獲得期望值。但上述保證不再成立。
期望值洩漏
在錦標賽中贏得底池時,即使您獲得了籌碼,整個場上的錦標賽權益分佈也會改變。如果您淘汰一名玩家,每個剩餘玩家的排名都會上升,每個剩餘玩家預期贏得剩餘獎金的比例也會增加。您捕獲的部分價值(value)會“洩漏”給場上的其他玩家。這裡的“價值”指的是ICM模型預測的您的籌碼貨幣價值,也稱為錦標賽權益(tournament equity),我們將其縮寫為$EV。
然而,這可能是雙向的。$EV可以從場上其他玩家獲得,也可以洩漏給他們。當您使籌碼趨向平均(even out the stacks),例如雙方玩家更接近平均籌碼量(average stack),這往往會從場上其他玩家吸取$EV(leach $EV)。
範例一:衛星賽泡沫
最簡單的例子是衛星賽(satellite tournament)的泡沫階段,三名玩家剩餘,只有兩名玩家獲得獎金:
衛星賽:前2名獲得獎金
剩餘3名玩家
對稱10大盲(10bb)籌碼
無前注(ante)
您在按鈕位(BTN)棄牌,小盲(SB)全壓10大盲,大盲(BB)需要行動。請注意,無論結果如何,您都獲得$EV。如果其中一人淘汰另一人,您贏得一張入場券。即使大盲棄牌,您的錦標賽權益也從33.33%增加到33.46%。小盲和大盲正在向您“洩漏”$EV。在錦標賽中,即使您的籌碼量保持不變,您的$EV也可能改變!

這是$EV洩漏(leakage)最清晰的概念。在錦標賽中,您的籌碼貨幣價值($EV)即使籌碼量不變也可能改變。
範例二:200人參賽的泡沫場景
接下來,讓我們檢視一個200人參賽的經典泡沫場景:
200美元買入;剩餘40,000美元獎金
對稱40大盲籌碼
30名玩家進入獎金圈;剩餘33名玩家
標準GTO Wizard獎金結構
當兩名玩家對抗時,他們會向場上其他玩家洩漏$EV。您從對手贏得的籌碼越多,您洩漏的$EV越多!在此場景中,由於籌碼對稱,每個人開始時的錦標賽權益($EV)為1/33 = 1212.12美元。
當您從對手贏得籌碼時,您的籌碼價值增加,但場上其他玩家的籌碼價值也增加。如果您淘汰某人,加倍籌碼(doubling up),他們將損失1212美元的錦標賽權益,而您將獲得698美元的錦標賽權益。剩餘的514美元分佈給更接近獎金圈的場上其他玩家。

以下圖表比較了您在贏得對手籌碼時的錦標賽權益($EV)利潤和洩漏:

為了更直觀地理解,我們可以將其視為百分比(%)。此圖表顯示了輸家的$EV如何在英雄(Hero)和場上其他玩家之間分佈:

在極端情況下,如果對手被淘汰,您將獲得其$EV的58%,剩餘42%的$EV平均分佈給場上其他31名玩家。
我們還對1000人參賽的泡沫場景進行了相同實驗,結果幾乎相同。
範例三:1000人參賽的泡沫場景
我們對1000人參賽的錦標賽進行了相同計算:
200美元買入;剩餘200,000美元獎金
對稱40大盲籌碼
150名玩家進入獎金圈;剩餘153名玩家
標準GTO Wizard獎金結構
令人驚訝(或許並不意外)的是,結果變化不大。無論是以美元還是百分比計算,洩漏量與200人參賽的情況幾乎相同。這個場景在剩餘場上玩家百分比方面技術上更接近泡沫,但風險溢價(risk premiums)幾乎相同。


吸取(Drainage)
到目前為止,我們僅專注於負和場景(negative-sum spots)。但同樣容易展示相反的效果,我稱之為“吸取”(Drainage)。英雄(Hero)和反派(Villain)不僅會向場上其他玩家洩漏$EV,還可以從其他玩家吸取$EV。這是一個正和場景(positive-sum spot)的例子。
讓我們使用與前述1000人參賽範例相同的設置,籌碼量如下:
英雄:20大盲
反派:60大盲
場上其他玩家:對稱40大盲
您與大籌碼玩家(big stack)全壓對抗(flip all-in)。
如果您加倍籌碼(double-up),籌碼趨向平均,您將獲得475美元的錦標賽權益。
大籌碼玩家(反派)損失400美元,場上其他150名玩家總共損失75美元(每人約0.50美元)。
這意味著您通過平均籌碼(evening out stacks)從場上其他玩家吸取了75美元。

本質上,場上其他玩家希望您被淘汰,因為這會讓他們更接近獎金圈。甚至在手牌開始前,您初始的20大盲短籌碼(short-stack)在統計上更容易較早被淘汰。通過贏得這次對抗,籌碼趨向平均,剩餘玩家進入獎金圈或獲得更高排名的可能性降低。通過平均籌碼,您不僅從贏得籌碼的玩家那裡,還從其他玩家的錦標賽權益中削減了價值。
因此,作為一條規則,當籌碼接近平均時,您從場上其他玩家吸取金錢(drainage)。當籌碼偏離平均時,您向場上其他玩家捐贈金錢(leakage)。請注意,這種現象沒有官方名稱,因此我不得不創造新術語來描述它。
當籌碼接近平均時,您從場上其他玩家吸取金錢。當籌碼偏離平均時,您向場上其他玩家捐贈金錢。
理解洩漏(leakage)的概念是解讀ICM求解器(solvers)結果的關鍵。關於$EV分佈,不僅僅是“英雄對反派”,而是“英雄對反派對場上其他玩家”。
物理學類比
或許另一種理解這種效應的方式是通過類比。在物理學中,封閉系統的總能量是守恆的,但個別反應可以向系統其他部分釋放能量(放熱,exothermic)或從系統其他部分吸收能量(吸熱,endothermic)。同樣,在撲克錦標賽中,獎金的總貨幣價值是守恆的。然而,底池中兩名玩家的$EV可以以某種方式轉移,重新分佈場上的價值:放熱行動向場上其他玩家洩漏(釋放)價值,而吸熱行動從場上其他玩家吸取(吸收)價值。
博弈論最優策略如何在對抗錯誤時損失期望值
在單挑(HU)籌碼期望值(Chip EV)場景中,納什均衡(GTO)策略不會因對手的錯誤而損失期望值(EV)。您的收益完全等於對手的損失,反之亦然。然而,ICM打破了這一原則。對抗不完美的對手,完美執行GTO仍可能損失$EV。這讓我想起了一句著名的電影台詞:
“有可能不犯任何錯誤卻仍然輸掉。這不是弱點;這是人生。”
– 尚盧·皮卡德(Jean Luc Picard)
問答:
博弈論最優策略可能在對抗錯誤時損失$EV。這怎麼可能?這是否使GTO無用?這是否意味著您應該在錦標賽中專注於剝削性玩法(exploitative play)?我們稍後將進行一些實驗,但首先,讓我們回答您的迫切問題:
這怎麼可能?
再次歸結於洩漏(leakage)。當您的對手對您的GTO策略犯錯時,他們可能無意中增加或減少洩漏給場上其他玩家的$EV量。您的對手無法在GTO策略下獲得期望值,但他們可以將您的一些$EV轉移給場上其他玩家,或反之亦然。
這是否使GTO無用?
不。沒有堅實的、不可剝削的基準(baseline),您如何識別剝削性機會(exploitative opportunities)?沒有基準,就不存在剝削性策略。此外,您不會總是(甚至通常)有足夠的關於對手策略的信息來自信地剝削他們。
您應該在錦標賽中專注於剝削性玩法嗎?
是的。ICM限制了固定GTO策略的效用。一般來說,傾向於低變異剝削(low-variance exploits)是安全的,例如對抗過度跟注者(stations)玩過於價值為重(value-heavy)。但傾向於高變異剝削(high-variance exploits),例如對抗過度謹慎者(nit)過度詐唬(over-bluffing),則極其危險。請記住,變異(variance)增加時,洩漏通常也會增加。
實驗
想像您在一場千人場的多桌錦標賽(MTT)決賽桌上。僅剩三名玩家,您是其中之一。籌碼分別為按鈕位(BTN)30大盲、小盲(SB)20大盲、大盲(BB)25大盲。獎金結構如下:

您在按鈕位開牌,小盲棄牌,大盲跟注,您在A♥9♠2♣ 6♠ K♠的牌面上進行三連發全壓(triple-barrel-shove)。

我們將從GTO對GTO的基準開始比較。以下是河牌全壓後的策略:

如您所見,大盲應棄掉許多頂對(top pairs),甚至一些兩對(two pair)手牌。總體而言,他們應大約一半時間棄牌,您的詐唬才能收支平衡。現在讓我們看看固定(不變的)GTO策略對非GTO對手的表現。
GTO對錯誤:過度跟注者和過度謹慎者
過度跟注者(station)跟注任何頂對或更好的手牌(這是大量的跟注)。
過度謹慎者(nit)棄掉一些0期望值的詐唬攔截手牌(bluff catchers)。

讓我們看看固定(不變的)GTO策略對這兩種類型玩家的表現:

手牌中的玩家
按鈕位(採用固定GTO策略的玩家)對過度跟注者實際上損失了大量$EV(-$354),而對過度謹慎者僅獲得少量$EV(+$58)。請注意,大盲無論如何幾乎不損失$EV。他們的過度跟注策略因跟注一些不利阻斷牌(unfavorable blockers)的手牌而損失20美元,但這相對較小。洩漏幾乎完全集中在進攻者(aggressor)身上!
場上其他玩家
讓我們從已棄牌的小盲角度考慮這一點。如果按鈕位或大盲互相淘汰,小盲的$EV將顯著增加。因此,任何增加這種可能性的策略對都對小盲有利。過度跟注策略增加這種可能性,從而增加洩漏。過度謹慎策略減少這種可能性,從而減少洩漏。
剝削與反剝削
按鈕位不必採用固定GTO策略。如果他們知道大盲過度或不足防守(over- or under-defending),他們可以相應調整詐唬。讓我們測量對過度跟注者和過度謹慎者採用剝削性策略(exploitative strategy)的價值。此外,在進行任何剝削性分析時,始終測量反剝削性(counterexploitability)以評估剝削的風險與回報是良好的做法。

剝削過度跟注者
固定GTO策略對過度跟注者已經損失(-$354 GTO),因為過多的洩漏。因此我們應該剝削他們。剝削過度跟注者的最簡單方法是停止詐唬,僅為薄價值下注(+$378 exploit)。當然,他們可能通過過度棄牌反擊您(-$279 backfire)。
有趣的是,在這種情況下,即使在絕對最壞的情況下,這種價值為重的剝削(value-heavy exploit)仍然優於GTO對過度跟注者的策略。價值為重的全壓在最佳和最壞情況下分別獲得7323至7979美元,而GTO策略對過度跟注者僅獲得7247美元。
剝削過度謹慎者
固定GTO策略對過度謹慎者已經獲得(+$58),因為洩漏減少。但我們可以貪婪嗎?剝削過度謹慎者的最簡單方法是用無攤牌價值的牌詐唬(+$120 exploit)。然而,他們可能通過總是跟注反擊(-$1394 backfire,哎呀!)
這個剝削的問題在於它增加了變異(variance)和洩漏,迫使雙方玩家更頻繁地互相淘汰。風險/回報比很糟糕。試圖最大化剝削過度謹慎者,您冒險損失1452美元(如果他們反擊)以相對於GTO對過度謹慎者額外獲得62美元。您的判斷需要至少1452/(1452+62) = 95.9%的時間正確。如果您認為您的過度謹慎對手有5%的機會開始反擊您,這將是一個糟糕的剝削。
關鍵要點是:
在ICM壓力大的場景中,您應傾向於低變異剝削(low-variance exploits)。
始終注意洩漏,記住他們的損失並不完全是您的收益——獎勵方程中的一大塊價值流向場上其他玩家。這是ICM的本質。
為什麼增加行動可能降低期望值
ICM打破納什均衡的另一種方式是,給予玩家更多行動(例如更多下注或加注大小)可能實際上降低該玩家的$EV!這聽起來似乎不可能。畢竟,如果我們添加了無利可圖的行動,該玩家可以簡單地不使用這些行動。那麼,給予某人更多策略機會怎麼可能降低他們的收益?
為了揭開這個謎團,我求助於GTO Wizard的優秀日本科學家Wataru,他是開源WASM求解器(solver)的創建者。我請他製作一些玩具遊戲(toy games)來幫助我理解這個概念。
根本原因再次歸結於洩漏(leakage)。簡而言之,通過為我們的GTO策略添加更多行動,我們可能迫使GTO對手更積極地回應,從而增加洩漏。隨著您添加更多下注大小,您為求解器提供了更多將資金投入底池的方式,可能增加雙方玩家的總體積極性。
通過為我們的GTO策略添加更多行動,您可能無意中迫使對手更積極地回應,從而增加洩漏。
負和玩具遊戲
為了更好地理解這個概念,讓我們檢視一個負和玩具遊戲(negative-sum toy game)。這裡,每個玩家有行動A0、A1、A2、A3、A…,表示他們的策略有多積極。
更積極的策略對(strategy pair)的納什均衡具有更大的“期望值洩漏”,因此雙方玩家的期望值降低。讓我們將收益矩陣表示如下:

請注意,每個高亮的對角線格子都是一個納什均衡!雙方玩家都沒有改變策略的動機。
被動(均衡)策略對
在最佳情況下,A0/A0,雙方玩家收益為0。這代表一個被動策略對(soft-playing)。雙方玩家不會從對方搶走太多籌碼,因此洩漏的資金較少。
積極(均衡)策略對
現在檢視更積極的策略對A3/A3。雙方玩家損失-3。他們更容易互相淘汰,因此向場上其他玩家洩漏$EV。然而,雙方玩家都不想改變策略。如果您試圖對一個積極的對手(aggro opponent)軟玩(A0),您最終會得到更差的收益-6,而不是-3。在這個玩具遊戲中,您有動機匹配對手的積極性。
真實的錦標賽權益(tournament equities)顯然遠比這個簡單的玩具遊戲複雜。然而,這個負和玩具遊戲展示了幾個關鍵概念:
可以存在多個納什均衡。
每個納什均衡可以有不同的期望值(EV)。
最低期望值不再有保證。
對手的錯誤可能迫使您進入更差的均衡(想像在泡沫階段遇到一個瘋狂玩家,maniac)。
範例
您在一場衛星賽的決賽桌上,前兩名獲得獎金,剩餘三名玩家,每人25大盲籌碼。按鈕位開牌,小盲棄牌,您在大盲跟注。牌面為Q♥6♠2♠ 9♥ A♥,行動為檢查-下注-跟注(XBC),雙方檢查(XX)。在A♥河牌上輪到您行動。您需要決定是否探針下注(probe-bet)或檢查。
讓我們比較兩種可能的大盲首次行動河牌策略(BB first in river strategies):
策略1 – 總是檢查
策略2 – 大盲可以選擇檢查、探針下注25%、100%或全壓357%
無論哪種情況,如果您檢查,位置內(IP)可以下注40%或全壓。
首先,讓我們將這兩種策略並排放置比較:

現在讓我們看看期望值:

讓我理清一下。我們給大盲增加了三個探針下注選項,他們的籌碼縮放錦標賽權益(Chip-Scaled Tournament Equity, CSTE)從1.78下降到1.72?
或許更直觀的方式是以實際美元顯示期望值。如果每個獲勝名次價值5000美元,$EV將如下:

請注意,大盲損失了7美元。這在籌碼期望值(Chip EV)場景中永遠不會發生。給大盲更多策略選項永遠不會降低他們的期望值。然而,這在ICM場景中可能發生。
原因在於當您查看雙方玩家的$EV總和時變得更清晰。按鈕位對探針下注策略也損失了更多資金。這裡發生的事情是,當我們添加探針下注(probe-bets)時,我們迫使雙方玩家進入一個新的均衡(可以說,更接近真實行動空間)。這個新均衡更積極,增加了對已棄牌小盲的洩漏。
絕對清楚的是,探針下注本身並非無利可圖。如果是,求解器(solver)不會使用它。這裡的根本問題是,探針下注的威脅迫使按鈕位更積極地行動,這意味著大盲也必須更積極地行動,增加洩漏。
相反,當大盲被迫檢查時,他們檢查得更強,意味著按鈕位更多檢查回來(checks behind)。但當大盲有機會領先下注(donk-bet)時,按鈕位面對檢查必須更頻繁下注,否則有被剝削的風險。
探針下注的威脅迫使按鈕位更積極地行動,這意味著大盲也必須更積極地行動,增加洩漏。
讓我們通過添加另一個策略對來測試這個假設:這次,按鈕位和大盲同意在河牌檢查到底(check down)。

這是目前最佳的策略對。請注意與負和玩具遊戲的相似之處。在這個場景中,更被動的策略對具有更高的總體收益。允許非位置(OOP)越積極,位置內(IP)必須越積極回應,導致雙方玩家向已棄牌的小盲洩漏更多$EV。
在真實錦標賽中,您沒有這個選擇。軟玩(soft-playing)因充分理由違反規則。上述範例僅作為警告,幫助您理解/導航ICM策略以及因添加或移除下注機會而可能出現的均衡變化。
總結
很可能,您們大多數人沒有閱讀整篇文章。但如果您讀了,恭喜!對於那些略讀的讀者,我們將在下面提供一個總結。
ICM由於洩漏(leakage)影響納什均衡的動態。在單挑籌碼期望值(Chip EV)場景中,對手的損失完全等於您的收益。然而,在錦標賽中,情況並非如此。由於ICM,場上剩餘玩家在您淘汰一名玩家時也可以獲得價值。
首先,我們更詳細地探討了洩漏的關鍵概念。
洩漏:主要要點
在撲克錦標賽中贏得底池時,部分價值因ICM流向場上其他玩家,這稱為“洩漏”(leakage)。
洩漏意味著單挑底池中的$EV總和不再恆定。更積極的策略對(strategy pairs)傾向於向場上其他玩家洩漏$EV。更被動的策略對傾向於洩漏較少$EV。
洩漏可以通過兩種方式發生:
向場上洩漏$EV(我稱之為“洩漏”)
從場上其他玩家吸取$EV(我稱之為“吸取”,drainage)。
當籌碼接近平均時,您從場上其他玩家吸取金錢。當籌碼偏離平均時,您向場上其他玩家捐贈金錢。
接下來,我們展示了博弈論最優(GTO)策略如何在對抗錯誤時損失金錢,以及對剝削性策略的影響。
ICM中的GTO與剝削:主要要點
儘管在ICM場景中剝削(exploits)變得更有價值,但ICM中的GTO策略對於識別剝削性機會至關重要。
GTO可能在對抗錯誤時損失$EV。然而,錯誤無法在GTO策略下獲得$EV。
調整積極性可能將GTO玩家的部分$EV轉移給場上其他玩家,或反之亦然。但同樣,您無法在GTO策略下提高自己的收益。
一般來說,在ICM場景中剝削變得更有價值。傾向於低變異剝削(low-variance exploits),例如對被認為是過度跟注者(calling station)玩過於價值為重(value-heavy)是安全的。但傾向於高變異剝削(high-variance exploits),例如對被認為是過度謹慎者(nit)過度詐唬(over-bluffing),則極其危險。
最後,我們展示了如何通過添加下注大小將玩家推入新的(可能更差的)均衡。
為什麼增加行動可能降低期望值:主要要點
您通常需要匹配對手的積極程度。
給予一名玩家更多下注大小可能無意中降低雙方玩家的$EV。
當您給予一名玩家更多下注大小時,通常會迫使對手相應更積極地回應,這可能增加洩漏。
致謝
我想特別感謝我們的兩位工程師:Philippe Beardsell(我們的首席引擎開發者)和Wataru Inariba(破解了新ICM公式的工程師),他們幫助我理解了非零和博弈中納什均衡的本質。在GTO Wizard,我們為雇用行業中最優秀的頭腦推動撲克理論前沿感到自豪。




留言