您的範圍會影響您的策略嗎?
- Tombos21
- 6天前
- 讀畢需時 7 分鐘
進階玩家常常會告訴您,您的範圍(range)會影響您的策略。他們會說您是在進行範圍對範圍(range-vs-range)的遊戲,您需要考慮您的整體範圍,而不僅僅是看您的手牌。
雖然這無疑是很好的建議,但它也導致了對撲克本質的普遍誤解。因此,在本文結束時,您可能會以全新的視角看待撲克策略。
固定策略與動態策略
首先,我們需要了解固定策略(fixed strategies)與動態策略(dynamic strategies)的區別。
動態策略會根據對手進行調整。因此,動態策略會隨著時間而改變。剝削性(exploitative)策略是動態的。
固定策略不會根據對手進行調整。它僅在相同情況下始終以相同的方式使用其範圍。博弈論最優(GTO)是一種固定策略,總是在相同情況下以相同方式使用其範圍。
這種區別很重要,因為它告訴我們關於無差別(indifference)、博弈論最優(GTO)和剝削性撲克的本質。
混合錯誤與純粹錯誤
撲克中有兩種根本不同的錯誤:
混合錯誤(Mixing mistake) - 僅在對手調整時才會損失期望值(EV)。
不正確的頻率(frequencies)。
可被適應性對手剝削(exploitable)。
不會被固定策略懲罰。
純粹錯誤(Pure mistake) - 即使對手不調整也會損失期望值。
採取對對手策略嚴格損失期望值的行動。
即使對手不改變策略也會損失。
博弈論最優(GTO)策略在對手犯純粹錯誤時獲利。然而,作為固定策略的GTO不會適應以從對手的混合/頻率錯誤中獲利。
當一手牌在行動之間混合,例如加注(raise)或跟注(call),這些行動對博弈論最優策略的期望值理論上應始終相同。這是無差別(indifference)的定義。因此,只要對手的策略保持不變,改變混合決策的頻率不應影響您的回報。
跟注站實驗
兩個博弈論最優(GTO)機器人在單挑(HU)比賽中對抗(無抽水)。
機器人1 - 始終使用精確的固定GTO策略。
機器人2 - 也使用GTO策略,但對於在跟注與其他行動之間無差別的手牌,總是選擇跟注(CALL)。
哪個機器人有優勢?
答案是兩者皆無!跟注站機器人(calling station bot)在無差別的情況下選擇跟注(calling indifferent),它沒有犯任何“純粹錯誤”(pure mistakes)。機器人1使用固定策略(fixed strategy),不會調整來剝削(exploit)它。機器人2對偏重價值的策略(value-heavy strategies)是可剝削的(exploitable),但因為機器人1從不調整,它不會損失期望值(EV)。這就是均衡(equilibrium)的本質。
您可以用一個總是在加注(raising)和任何其他行動之間無差別的手牌選擇加注的機器人來替換跟注站機器人。我們可以稱這個為瘋狂機器人(Maniac Bot)。瘋狂機器人僅犯“混合錯誤”(mixing mistakes),從不犯純粹錯誤,對抗博弈論最優(GTO)策略不會損失或獲得任何東西。
同樣的情況也適用於謹慎機器人(Nit Bot)——一個使用GTO策略但總是在棄牌(folding)和某些其他行動之間無差別時選擇棄牌的機器人。謹慎機器人對抗固定的GTO策略也不會損失任何東西,因為GTO不會適應來懲罰謹慎型玩家。
極化玩具遊戲實驗
讓我們來檢視一個透視(clairvoyant)玩具遊戲。
底池 = $10
籌碼 = $10
牌面 = 33322
Hero 持有:50% AA 和 50% QQ
Villain 持有:100% KK
Hero 在河牌(river)全下(shoves pot)

讓我們先解決這個遊戲,找出均衡策略(equilibrium strategy)。然後我們將調整策略,看看每個玩家贏得或損失多少。
Hero 應始終下注堅果牌(nuts),並詐唬(bluff)足夠多的次數,使對手在跟注和棄牌之間無差別。由於我們以底池大小下注提供2:1的賠率,我們應給對手33.3%的權益(equity)。如果我們用所有的AA下注,並用一半的QQ下注,我們最終得到⅔價值(value)和⅓詐唬的價值:詐唬比率。
Villain 面對這個全下是無差別的。如果我們過於偏向價值(value-heavy),他們會總是棄牌。如果我們過於偏向詐唬(bluff-heavy),他們會總是跟注。但他們有精確的底池賠率(Pot Odds)來跟注。因此,他們應根據最低防守頻率(Minimum Defence Frequency)進行跟注。
KK應在面對底池大小下注時正好跟注50%的時間,以避免被過於偏向詐唬或價值的策略剝削。這使得我們的詐唬在下注和檢查之間無差別。
AA – 總是全下
QQ – 全下50%,檢查50%
目標:給Villain 33%的權益,使他們在跟注/棄牌之間無差別
KK – 跟注50%
目標:使Hero的詐唬在下注和檢查之間無差別。
期望值:
Hero:$7.5
Villain :$2.5(Hero檢查回來25%的範圍並總是輸,因此Villain 獲得$2.5)
測驗1
假設Hero始終使用上述均衡策略。在以下場景中,期望值是多少:
Villain 總是棄牌
Villain 總是跟注
測驗2
假設Villain 始終使用上述均衡策略。在以下場景中,期望值是多少:
Hero總是詐唬(100% AA和QQ)
Hero從不詐唬(100% AA,0% QQ)
花點時間嘗試計算每個場景的期望值。
在所有四個場景中,期望值(EV)都不會改變!位置內(IP)的期望值為$7.5,非位置(OOP)的期望值為$2.5。
儘管每個玩家都可被剝削(exploitable)並犯下重大錯誤,但因為他們使用固定策略(fixed strategies),彼此都不會調整來剝削(exploit)對方。
您的範圍會影響您的策略嗎?
這是許多高水平玩家都不理解的一點:


這怎麼可能?這歸結於非常基本的邏輯。任何手牌/行動的期望值是對手策略的函數。如果他們的策略不變,那麼您不是在玩“範圍對範圍”,而是在真空環境中玩“您的手牌對他們的策略”。
當有人說“您的範圍影響您的最優策略”時,有一個隱含的假設。他們說的是,您的範圍影響對手的策略,如果您改變您的範圍,他們可以改變他們的策略,這會因此改變您手牌的期望值。
實際上,您總是試圖最大化您的手牌對他們策略的期望值。您考慮自己範圍的原因是因為您被感知的範圍影響他們的策略。如果他們認為您是謹慎型玩家(nit),他們會停止回報您的價值下注(value bets)。如果他們認為您是詐唬型(bluffy),他們會更多跟注。如果他們認為您的範圍很弱,他們可以更激進地攻擊。
然而,如果他們的策略不變(固定),您的範圍對您手牌的最優策略沒有影響。您可以簡單地針對他們的固定策略最大化您的手牌,而無需考慮平衡或他們對您範圍的感知。
讓我們對抗GTO機器人
我們在大盲(BB)進行單挑比賽。機器人在Q95r牌面上下注33%:

面對這個下注的博弈論最優(GTO)策略如下:

機器人在使用固定策略。這意味著我們可以:
純粹加注(pure raise)任何以任何頻率加注的手牌
跟注(call)任何以任何頻率跟注的手牌
棄牌(fold)任何以任何頻率棄牌的手牌
這些行動是無差別的,機器人不會適應來剝削我們的混合不平衡(mixing imbalances)。這是因為像GTO這樣的固定策略不會懲罰混合錯誤(mixing mistakes),只會懲罰純粹錯誤(pure mistakes)。
這個玩具遊戲會讓您生氣
讓我們看看在T666J牌面上的按鈕位(BTN)對大盲(BB)單人底池(SRP):

按鈕位在翻牌(flop)上下注33%,在轉牌(turn)超額下注175%,行動到大盲在河牌(river)。

這裡大盲的最佳策略是範圍檢查(rangecheck),無論手牌強度如何。

即使是堅果牌(nuts)也應純粹檢查。這裡我們看到Q6s(四條,Quads)各種行動的期望值。如您所見,檢查是迄今為止期望值最高的行動:

這是因為我們的範圍足夠弱,Villain 在被檢查時應投入大量資金。因此,四條通過範圍檢查來最大化價值。
如果大盲在河牌只有四條,範圍中沒有其他手牌,會發生什麼?
如果Villain (按鈕位)繼續使用相同的固定策略,四條應該如何玩?現在我們的範圍如此堅果,應該開始領頭下注(leading)嗎?
A. 大盲應該開始下注嗎?
B. 他們應該混合下注和檢查嗎?
C. 還是應該繼續範圍檢查?
C. 大盲(BB)應繼續範圍檢查(rangecheck)!

按鈕位(BTN)在河牌(river)被節點鎖定(nodelocked)為使用完全相同的固定博弈論最優(GTO)策略。既然之前檢查(checking)是最優的,在這裡它仍然是最優的,儘管我們的範圍完全由堅果牌(pure nuts)組成。
換句話說,我們可以簡單地在真空環境中針對他們的固定策略最大化每手牌的價值。我們自己的範圍對最佳行動沒有影響,因為Villain 無法適應調整他們的策略。
從中學到的啟示
三個最重要的啟示:
理解混合錯誤(mixing mistakes)和純粹錯誤(pure mistakes)的區別
了解這些錯誤如何被懲罰
為什麼區分固定策略和動態策略很重要
混合(無差別)手牌僅為了防止對手剝削您而混合。如果您的對手無能力、無法或不願意調整,您不應擔心平衡混合決策。相反,您應專注於最大化剝削(exploitative)您的對手。
重要的是要認識到,精確的頻率不如整體策略重要。因此,在Q95r範例中,J3s混合某個百分比的棄牌/跟注/加注並不重要,真正重要的是(在可剝削性方面)Hero如何構建他們的整體棄牌/跟注/加注範圍。
任何混合行動在真空環境中都是可玩的。任何低頻率玩法在真空環境中都可以被證明合理。您可能在手牌歷史分析器(hand history Analyzer)中獲得100%的準確度,但由於混合錯誤仍然高度可剝削。相反,您可能犯了很多混合錯誤,但永遠不會被固定的GTO解決方案剝削。
與其專注於精確頻率的細節,不如退後一步,專注於更大的圖景。尋找門檻(thresholds)。使用範圍構建器(Rangebuilder)練習構建您的整個範圍。專注於門檻,試著回答像“我下注價值的弱手牌是什麼?”或“對這個下注大小我棄牌的最強手牌是什麼?”這樣的問題。專注於無差別門檻(indifference thresholds)而不是無差別行動!這些問題塑造您的策略,並定義純粹錯誤和無差別決策之間的區別。
Comments