top of page

無差別的三定律

撲克中的無差別(indifference)是其中最被誤解的概念之一。“無差別”一詞意味著兩個或更多行動具有相同的價值。因此,理解無差別在博弈論最優(Game Theory Optimal, GTO)撲克中扮演如此重要角色的原因,對學習撲克理論至關重要。


解讀GTO解決方案往往更像是藝術而非科學。這通常是一個主觀過程,需要直覺與科學分析的結合。博弈論最優撲克中有許多經驗法則和啟發式方法,但硬性定律很少。因此,學習無差別的絕對硬性定律,以區分事實與虛構,至關重要。


本文將概述構成納什均衡(Nash Equilibrium)的少數基本“硬性定律”。這些定律適用於GTO以及所有撲克策略,包括剝削性(exploitative)風格。


無差別的三定律

ree

自私期望值定律(The Law of Selfish EV)


沒有任何手牌會犧牲價值來提升範圍其餘部分的價值。一個完美的策略總是在每個位置用每手牌選擇最高的期望值(EV)行動。


想想看。您為什麼要故意玩一個虧損的行動?為什麼不總是選擇最佳行動?這應是不證自明的。沒有所謂玩一個負期望值(-EV)行動來提升範圍其餘部分期望值的東西。如果一手牌是虧損的跟注(call),那麼跟注並虧錢就沒有意義。


定律1的結果是定律2:自私期望值定律暗示無差別定律(The Law of Indifference)。


無差別定律(The Law of Indifference)


如果一手牌混合多個行動,這些行動將具有相同的價值。例如,如果一手牌在跟注和棄牌(folds)之間混合,那麼跟注必須價值0EV。如果一手堅果牌(nutted hand)在跟注和加注(raising)之間混合,那麼誘捕(trapping)必須與快玩(fast-playing)價值相同。


相反,任何具有相同期望值行動的手牌必須在這些行動之間無差別。如果跟注價值3美元,加注價值3美元,那麼您必須在跟注和加注之間無差別。您為什麼要選擇較低的期望值行動?如果跟注比棄牌價值更高,那麼簡單永不棄牌。


讓我們看一個例子。首發位置(UTG)開牌,按鈕位(BTN)三倍下注(3bets)。行動輪到首發位置,持有KQs:

ree

這裡我選擇了“策略+期望值”(Strategy+EV)視圖。我們可以看到KQs在四倍下注(4betting)或跟注時的期望值為0.31bb。我們可以看到它在兩個行動之間混合。因此,它在這兩個行動之間無差別。


我們看到許多無差別行動。A5s(期望值0)在棄牌、跟注和四倍下注之間無差別。QQ(期望值42.7)在全下(shoving)、四倍下注和跟注之間無差別。88(期望值0)在棄牌和跟注之間無差別。很少手牌採取純粹行動(pure actions)。策略以這種方式混合,以對所有可能的反制策略(counterstrategies)保持不可剝削(unexploitable)。


這個定律適用於任何策略。這適用於GTO策略、剝削性策略以及介於兩者之間的每種策略。如果您輸入對手的非完美且可剝削策略,那麼一些手牌不可避免地仍會面臨無差別決策。雖然剝削性模擬(exploitative simulations)傾向於導致更多純粹行動,因為對非完美策略的較少決策是完全無差別的。無差別不依賴GTO,它僅依賴對手的策略。


有時求解器建議負期望值行動。這是噪音(noise)的結果!如果您解決到足夠高的精確度,那噪音就會消失。真正的均衡永遠不會故意選擇較低的期望值行動。


定律2的結果是定律3:無差別定律暗示固定策略定律(The Law of Fixed Strategies)。


固定策略定律(The Law of Fixed Strategies)


改變無差別行動之間的混合不會對固定策略(fixed strategy)損失價值。只有當對手調整他們的策略時,混合錯誤(mixing mistakes)才能被剝削。

好吧,但什麼是混合錯誤,什麼是固定策略?

混合錯誤(mixing mistake)意味著在無差別決策(indifferent decisions)之間移動手牌。

固定策略(fixed strategy)(如博弈論最優,GTO)不會改變或適應對手。


好吧,但如果我的範圍在後續街改變,我的期望值不會改變嗎?

期望值(expected value)是零和(zero-sum)。一個玩家獲利,另一個必須虧損。因此,如果您在兩個具有相同期望值的決策之間錯誤混合(mixing incorrectly),在不改變對方策略的情況下,怎麼會有玩家獲利?您手牌的期望值涵蓋了後續街的決策。


這個規則的一個主要例外是當期望值不是零和時。抽水(rake)會削減您的期望值,因此混合錯誤可能增加或減少雙方支付的總抽水。


這樣想。您所做的只是將一手牌從兩個具有相同期望值的行動之間移動。您只是將一手牌從兩個無差別決策之間移動。由於這兩個行動對對手的策略有相同的價值,除非對手改變他們的策略,否則他們無法獲利!


例如,假設KK應跟注30%的時間,加注70%的時間以不可剝削。但相反,您選擇50%/50% - 這是一個混合錯誤。然而,這兩個行動有相同的期望值(定律2)。因此,如果對手不改變他們的策略,那麼跟注和加注之間的任何混合都會產生相同的回報!然而,這並不給您隨意行動的許可。您的新策略是可剝削的。如果對手調整,他們可以懲罰您的混合錯誤。


讓我們回到之前的例子。首發位置開牌,按鈕位三倍下注,輪到首發位置:

ree

假設您棄掉每手以任何頻率棄牌的手牌。您的期望值會改變嗎?


不會。您所做的只是將更多0EV的手牌移到棄牌線而不是其他線。然而,按鈕位可以通過更廣泛地三倍下注來剝削您的過度棄牌。在此情況下,您會棄掉實際上是正期望值繼續的手牌,這會讓您損失價值。注意,按鈕位僅在改變他們的策略時才能從您的混合錯誤中獲利。


要理解這個概念,您需要認識一個關鍵細節:您手牌的最佳行動僅由對手的策略決定。您範圍中的無差別區域純粹是對手玩法(how your opponent plays)的函數。因此,他們需要改變策略來改變您範圍中哪些手牌/行動是無差別的。


GTO是一個固定策略。因此,它不會從混合錯誤中獲利。然而,它會從“純粹錯誤”(pure mistakes)中獲利。任何對固定策略損失金錢的行動都是“純粹錯誤”。有一個常見的誤解,認為GTO從“任何錯誤”中獲利。然而,這不是真的,因為GTO只能從純粹錯誤中獲利。別擔心,即使高水平職業玩家也會犯很多純粹錯誤;撲克很難!


常見問題


以下常見問題應涵蓋大多數關於GTO的基本話題。

元遊戲策略(metagame strategies)呢?

如果一個負期望值(-EV)的玩法能誘導對手在後續犯錯,則可以為其辯護。例如,進行一個負期望值的詐唬(bluff)以建立鬆散形象(loose image)可能是合理的,如果這會導致他人未來對您犯錯。但這在GTO中無效,因為GTO假設未來不會有錯誤。此外,您可以爭辯說,如果一個負期望值的“錯誤”從長期來看是最高期望值的行動,那麼它實際上不是錯誤,而是正確的剝削性(exploitative)策略,因此是正期望值(+EV)。將時間框架從一手牌重新定義為終身手牌,解決了負期望值元遊戲行動的悖論。

GTO會做出負期望值(-EV)的玩法嗎?

會!但僅當您的對手犯錯時。例如,GTO可能建議用KK四倍下注全下(4bet shoving)。即使對手僅用AA三倍下注(3betting),它也會這樣建議。這顯然是一個虧損的玩法。但您的對手因為不加注其他優質手牌(如KK、QQ等)而損失更多價值。任何人在遊戲樹的某一部分對抗GTO可能獲利,但這是以他們策略的其他部分為代價。


如果您確信對手僅用AA加注,那麼通過調整您的策略來剝削他們。但即使您不調整,他們仍然因為損失KK、QQ等的價值而犯純粹錯誤(pure mistakes)。

可以擊敗GTO嗎?

不行。納什均衡(Nash Equilibrium)的定義是,沒有玩家可以單方面改變策略來增加期望值。您可以通過犧牲其他路線的期望值來增加某些路線的期望值,但按定義無法擊敗GTO。


一個顯著的例外是,GTO在多人底池(multiway pots)中不保證不可剝削(unexploitability)。多人底池中沒有任何策略是不可剝削的。

為什麼求解器(solvers)會做出負期望值行動,或不選擇最高期望值的行動?

這是求解器噪音(solver noise)的結果。實際上,求解器無法達到完美精確度,這導致解決方案中的噪音。

什麼是混合錯誤與純粹錯誤?

混合錯誤(mixing mistake)(有時稱為頻率錯誤,frequency mistake)是在無差別行動(indifferent actions)中以不正確的頻率混合。例如,如果KK應跟注(call)30%並加注(raise)70%,但您分成50%/50%,這就是一個混合錯誤。它針對特定組合(unique combos)的行動,而不是您的整體策略。


純粹錯誤(pure mistakes)是對固定策略(fixed strategies)損失金錢的行動。混合錯誤僅在對手調整以剝削該錯誤時才損失金錢。

什麼是固定策略?

固定策略(fixed strategy)不因對手的行動而改變。固定策略在相同位置總是以相同方式遊戲。GTO是固定策略的一個例子。相反,動態策略(dynamic strategy)會適應並改變以應對對手。

如果混合錯誤不被懲罰,那為什麼我不能只是範圍下注/檢查一切?

混合錯誤是可剝削的(exploitable)。但這需要您的對手使用非GTO策略。這種偏離GTO的適應可以是有意的或僅是他們的自然玩法(playstyle)。小心不要以無差別混合錯誤為藉口過分簡化。


例如,在河牌(river)跟注所有無差別的詐唬攔截牌(bluff-catchers)容易被偏重價值的策略(value-heavy strategies)剝削。對翻牌檢查-加注(check-raise)過度棄牌(overfolding)混合棄牌容易被過度詐唬(over-bluffing)剝削。

如果GTO不從混合錯誤中獲利,那GTO如何賺錢?

GTO在您的對手犯“純粹錯誤”(pure mistakes)時獲利。純粹錯誤是對固定策略損失金錢的行動。純粹錯誤是用某手牌採取的任何行動,該行動對對手的當前策略嚴格損失期望值(EV)。


留言


bottom of page