漸進式淘汰錦標賽理論

Tombos21
7月17日
讀畢需時 7 分鐘

在撲克中，漸進式淘汰錦標賽（Progressive Knockout, PKO）是一種錦標賽類型，其中部分買入費用（buy-in）成為每位玩家頭上的賞金（bounty）。

在PKO錦標賽中，當一名玩家淘汰另一名玩家時，他們通常會獲得被淘汰玩家賞金的一半作為現金獎勵。其餘一半賞金會加到淘汰者的頭上，供其他玩家爭奪。如果在平分底池（split pot）中兩名或更多玩家獲勝，賞金會在所有贏家中均分。請注意，一些網站（如Pokerstars）舉辦的PKO錦標賽可能將三分之二甚至全部獎池用於賞金獎勵。本文僅討論標準的50%賞金獎池。

賞金的效應為策略增加了一層額外的複雜性！PKO錦標賽通常有更多行動（action），因為玩家被激勵通過淘汰對手來贏取賞金，而不僅僅是試圖生存和晉級。這種形式還鼓勵具有籌碼優勢（chip advantage）的玩家對短籌碼（shorter stacks）採取激進策略，因為他們可以在籌碼之外獲得額外的期望值（EV）。

GTO Wizard的PKO解決方案

GTO Wizard的PKO解決方案基於以下結構：

200人場（即將推出1000人場！）
200美元買入：100美元進入獎池，100美元進入賞金池（bounty pool）
每桌8名玩家
每位玩家0.125大盲（BB）前注（ante）

讓我們檢視錦標賽剛開始時的一張桌子。每位玩家以100大盲（BB）的籌碼開始比賽。

每位玩家以100美元的總賞金開始：

50美元可被淘汰他們的玩家立即獲得
50美元加到淘汰他們的玩家的賞金上

每位玩家下方顯示的賞金表示可立即獲得的賞金數量。

GTO Wizard為許多錦標賽階段提供解決方案，包括混合和對稱的籌碼深度（stack depths）。

但這只是開始！我們計劃添加更多PKO解決方案，涵蓋後期錦標賽階段、決賽桌場景，以及更廣泛的賞金分佈！我們承認不可能模擬PKO錦標賽中的每一種場景。然而，這些解決方案讓您能夠研究策略在整個錦標賽中的變化，以及賞金和覆蓋玩家（covering players）如何影響最優玩法（optimal play）。理解這些通用概念比記憶特定場景的解決方案更重要，因為這讓玩家能夠適應變化的條件並在錦標賽中做出更好的決策！

ICM與籌碼期望值（Chip EV）

一般來說，籌碼期望值（Chip EV）在PKO錦標賽中是衡量籌碼價值的較差指標。傳統的籌碼期望值計算依賴於您在錦標賽中控制的籌碼比例。我們可以按以下方式建模籌碼的價值：

Stack Chip EV = Chip Portion (Remaining Bounty Pool + Remaining Prize Pool)

其中“籌碼比例”（Chip Portion）是您在錦標賽中控制的籌碼百分比。這種簡單計算假設如果您控制10%的籌碼，您應該贏得錦標賽中剩餘獎勵的10%。但正如我們之前展示的，這是一個有缺陷的假設。獨立籌碼模型（ICM）即使在錦標賽早期階段也對您的結果有顯著影響。

這就是ICM發揮作用的地方，因為它是在錦標賽中確定籌碼價值的更精確方式，特別是在PKO錦標賽中。ICM計算考慮玩家預期在不同名次（例如第一、第二、第三等）的概率，並相應調整籌碼價值。此外，求解器（solvers）計算結合了ICM、位置（position）、獎金結構（prize structure）、賞金分佈（bounty distribution）、玩家策略、覆蓋玩家（covered players）、翻牌後權益實現（postflop equity realization）等許多因素，以獲得PKO錦標賽中籌碼的真實價值。

因此，我們的PKO模擬在錦標賽的所有階段都使用ICM計算。我們的所有模擬都包含籌碼的真實價值，包括上述因素。

賞金力量（Bounty Power）

許多玩家僅從贏得對短籌碼的手牌的現金獎勵角度看待賞金。然而，這不是正確的觀點。當您對您覆蓋的玩家全下（stacking off）時，您需要考慮賞金相對於您控制的籌碼價值的價值。賞金與籌碼之間的轉換因子被稱為“賞金力量”（Bounty Power）。PKO專家使用這個因子將美元賞金轉換為籌碼價值。

賞金力量將1美元賞金的價值轉換為大盲（big blinds）。

將Wizard中顯示的賞金大小乘以其賞金力量因子，以確定該賞金以大盲計的大約價值。將此添加到底池賠率（pot odds）計算的獎勵端，以確定全下閾值（stack-off thresholds）。

Bounty Power = Total Chips in play / (Remaining Bounty Pool + Remaining Prize Pool)

總籌碼（Total chips in play）可通過平均籌碼乘以剩餘玩家數量計算。
剩餘獎池（Remaining prize pool）可通過起始獎池減去已支付的獎金計算。這在泡沫期（bubble）後發生。
剩餘賞金池（Remaining bounty pool）通過模擬計算。但您可以使用以下公式近似：
Starting bounty pool – ($50 x # players eliminated)

在繼續之前，重要的是要認識到這基於籌碼期望值計算，因此隨著ICM成為更大因素，賞金力量的精確度會降低。

200人場PKO 8人桌

與其自己計算，您可以簡單參考此圖表，查看不同錦標賽階段的賞金力量因子。以下是我們200人場PKO 8人桌解決方案的賞金力量因子：

請注意，隨著錦標賽進展和籌碼價值增加，賞金相對於大盲的價值下降。這儘管在PKO後期平均賞金往往增加。

讓我們看看如何將賞金力量應用於底池賠率計算。

假設您在玩PKO，場內剩餘70%的玩家。我選擇這個場景，因為我們的簡化籌碼期望值計算在錦標賽早期階段更準確。平均籌碼為50大盲。英雄在大盲位擁有舒適的69大盲籌碼。

首發位置全下13大盲。

行動輪到覆蓋對手的大盲。讓我們先計算對這個全下的底池賠率。標準底池賠率公式如下：

Required equity to call = amount to call / pot after calling

跟注金額（Amount to call） = 12大盲
跟注後底池（Pot after calling） = 13 + 13 + 1.5 = 27.5大盲

因此，我們的底池賠率為12/27.5 = 43.6%。如果沒有賞金，我們會跟注任何至少有這麼多權益（equity）的手牌。

在PKO中，我們需要將賞金的價值添加到這個公式的分母：

Required equity to call = amount to call / (pot after calling + (bounty × bounty power))

可獲得賞金（Capturable Bounty） = 50美元
賞金力量（Bounty power） = 7,018 / ($16,836 + $20,000) = 0.191

首發位置的50美元賞金轉換為50 * 0.191 = 9.55大盲。將其添加到獎勵中：

Required equity to call = 12 / (27.5 + 9.55) = 32.4%

因此，大盲可以跟注任何對首發位置全下範圍至少有這麼多權益的手牌。以下是您的權益情況：

超過43%權益的手牌顯示為深綠色，超過32.4%權益的手牌顯示為淺綠色。看看當涉及賞金時，我們的全下閾值變得多廣！

這些權益並不精確，因為這個計算器未考慮牌堆積效應（bunching effect），這會使牌庫偏向高牌（top-heavy）。但對我們的目的來說已經足夠接近。

以下是大盲的GTO策略，考慮了ICM、賞金和牌堆積：

請注意，我們跟注任何至少有約33%權益的手牌。像A4o、A7o、Q7s和54s這樣的手牌正處於棄牌和跟注的邊緣。

PKO中的泡沫因子（Bubble Factors）

讓我們在GTO Wizard中檢視一個場景，以更好地理解如何閱讀PKO解決方案：

場內剩餘50%的玩家（100名玩家）
平均籌碼為60大盲

籌碼和賞金如下：

讓我們從檢查泡沫因子（Bubble Factors）開始。泡沫因子測量在多桌錦標賽中損失對您的傷害比贏得對您的幫助更大。它是生存壓力（survival pressure）的衡量標準，也是理解ICM場景的寶貴工具。以下是此場景的泡沫因子：

在PKO賽事中會發生一些有趣的事情；泡沫因子可能小於1！這對應於負風險溢價（negative risk premium）。籌碼期望值計算的泡沫因子（BF）始終等於1。

正風險溢價（Positive risk premium）表示損失的傷害大於等量增益的幫助
負風險溢價（Negative risk premium）表示贏得的幫助大於損失的傷害

換句話說，在PKO中某些位置被激勵比籌碼期望值玩得更廣！PKO ICM解決方案中的風險溢價通常低於其等效的經典解決方案（Classic solutions）。

好吧，這如何影響策略？假設行動輪到按鈕位（BTN），他有36大盲，頭上有50美元賞金。他開牌到2.1大盲：

請注意，這裡的期望值（EV）不是以美元計量，而是以桌內總權益百分比變化（percentage change to table equity）計量。AA的價值為2.63，意味著按鈕位預期在開這手牌時，其桌內總期望值的份額增加2.63%。

行動輪到小盲（SB）。小盲擁有桌上最大的籌碼（92大盲），覆蓋按鈕位和大盲（BB）。這促使他們以廣泛的手牌範圍非常激進地遊戲。我們可以看到小盲全下許多手牌，試圖贏取更多賞金！

小盲的激進策略可以歸因於他們是桌上籌碼領先者（chip leader），且只需冒險大約三分之一的籌碼即可覆蓋剩餘的任一玩家。此外，由於ICM壓力，按鈕位和大盲需要謹慎遊戲。

我們可以在泡沫因子中看到這一點。小盲對按鈕位有負風險溢價（-4.6%），對大盲也有負風險溢價（-6.2%）。這意味著小盲實際上更有動機與剩餘的兩位玩家爭奪底池！

相反，按鈕位和大盲都有正風險溢價，表明他們需要對小盲和彼此更謹慎，因為損失的傷害大於贏得的幫助。

總結

淘汰錦標賽中籌碼的價值大約等於您控制的籌碼比例除以剩餘總獎池（賞金 + 常規獎金）。
總籌碼與剩餘總獎池的比率可用於將賞金的相對價值轉換為籌碼或大盲。
PKO專家使用賞金因子（bounty factor）將賞金轉換為籌碼，然後將其代入底池賠率計算，以近似他們的有效全下閾值（stack-off thresholds）。
淘汰錦標賽有時具有負風險溢價。如果賞金足夠大，且您覆蓋對手，有時贏得的收益超過對該玩家損失籌碼的損失。這與大多數錦標賽形式（具有正風險溢價）形成鮮明對比。