top of page

理解納什距離

在使用求解器(solvers)學習時,最常見的問題之一是:“為什麼求解器選擇這個行動,而另一個行動的期望值(EV)更高?” 例如,在下面的場景中,我們可以看到檢查(checking)的期望值高於下注(betting),但解決方案卻希望用這手牌下注:


求解器噪音範例
求解器噪音範例

要理解為什麼會發生這種情況,我們首先需要了解博弈論(Game Theory)的一個基本原則:


混合行動法則


在完美的均衡狀態下,混合行動(mixed actions)應始終具有相同的期望值。換句話說,當一手牌在兩個或更多行動之間混合時,這些行動的期望值應該相同。想想看;為什麼要故意選擇一個較差的策略?一個真正完美的策略絕不會“為了平衡而犧牲期望值”。這是納什均衡(Nash Equilibrium)的硬性法則。


在上例中,我們看到求解器以A7o混合策略,包括檢查、下注27%、73%和127%。然而,這些行動的期望值並不相同。那為什麼我們的解決方案中會出現這種情況?為什麼檢查A7o被認為是“不準確的”(inaccuracy),即使它是期望值最高的行動?


求解器噪音


博弈論最優(GTO)解決方案並非完美的。實際上,GTO解決方案並未達到完美的精確度,而是解決到某個可剝削性(exploitability)閾值。


整個解決方案的可剝削性越低,其精確度越高。我們用一個名為“納什距離”(Nash Distance)或dEV的指標來定義解決方案的精確度。作為參考,GTO Wizard通常解決到約底池的0.2%-0.3%。這有多大的可剝削性?


想像一個按鈕位(BTN)對抗大盲(BB)的場景,底池為5.5BB。這意味著最佳策略最多能剝削這個解決方案每手0.3%的5.5,即0.017BB。這遠遠超出了人類玩家的水平。


這就是我們所說的“求解器噪音”(solver noise)。手牌並不總是選擇期望值最高的行動。如果

解決到完美精確度,這種噪音將消失。所有混合行動的期望值將相同。


在您採取從未被使用的路線(literally never played)的情況下,您可能會注意到巨大的期望值差異。這是因為求解器在解決過程中早期停止計算被壓制(0%)的路線(dominated lines),以提高效率。這是正常的,儘管這些路線的策略和期望值不太準確。


可剝削性


那麼,這是否意味著期望值最高的行動總是最佳選擇?


不一定。對抗這個特定的策略,它確實是最佳選擇。然而,如果您總是檢查A7o,那麼理論上大盲可能會調整他們的策略,使檢查的期望值變低!請記住,求解器混合策略是為了保持不可剝削(unexploitable)。


如果我們將上面的例子解決到完美精確度,檢查仍然是期望值最高的行動嗎?


A7會發生以下兩種情況之一:

  1. 檢查的期望值將收斂到較低值,且永遠不會被使用;或

  2. 檢查的期望值將與其他下注選項收斂到相同值,並可能以某種頻率繼續被使用。


在不解決到完美精確度的情況下,無法確定會發生哪種情況。一般來說,低頻率行動(low-frequency actions)會消失並變成較低的期望值,而以合理頻率採取的行動將繼續是策略的一部分。這就是為什麼頻率低於3.5%的行動被標記為“不準確”(inaccuracy)。


讓我們來看另一個例子:


範例2:A7o混合跟注(calls)和棄牌(fold),儘管跟注的期望值明顯更高
範例2:A7o混合跟注(calls)和棄牌(fold),儘管跟注的期望值明顯更高

這裡我們看到A7o在跟注和棄牌之間混合;然而,跟注的期望值似乎明顯高於棄牌。跟注比棄牌高出約1.7BB的期望值。那為什麼它會混合棄牌?


我們需要將這一點放在更大的背景下。跟注後的底池將達到200.05 BB。因此,1.8 BB的誤差僅約為底池的0.9%。實際上,這比看起來要接近得多。當底池變大時,1%的誤差看起來會更大。


全盤跟注的問題在於您會變得可剝削(exploitable)。想像一下,如果您跟注所有這些邊緣詐唬攔截牌(borderline bluff-catchers),突然間您過度跟注(overcalling),可能被偏向價值的對手(value-heavy opponent)剝削。


為什麼不直接解決到完美精確度?


完美精確的解決方案在大規模生產中根本不可行。問題在於,隨著求解器接近均衡,收斂速度會顯著變慢。從完全未解決到0.5% dEV所需的時間,與從0.5% dEV到0.25% dEV所需的時間大致相同。


將精確度提高一倍,解決所需的時間也會加倍。而且回報是遞減的。精確到0.3% dEV的解決方案與精確到0.15% dEV的解決方案幾乎相同,且兩者仍會有求解器噪音。


另一種選擇是創建非常簡單的遊戲樹(game tree),這樣更容易解決。這會帶來自己的問題,因為過度簡化遊戲樹會導致求解器利用該樹的局限性,造成人為扭曲(artificial distortion)。


因此,歸根結底,過分追求極高的精確度和微小的期望值差異沒有太大意義。這些解決方案的可剝削性已經遠遠超出了人類水平。


以下是我們的一個解決範例。如您所見,開始時進展很快,然後隨著接近均衡,速度越來越慢。這一個解決到約底池的0.3%。



總結與啟示


當您看到求解器在行動之間混合時,不要只尋找期望值最高的行動,而應關注頻率最高的行動(highest frequency actions)。這是因為您看到的任何期望值差異都是由解決方案中的噪音(noise)引起的。


將混合行動視為具有相同的期望值。您看到的任何差異可以視為誤差範圍(所有手牌大致在該期望值的正負範圍內)。


博弈論最優(GTO)的目的是找到不可剝削的最高期望值策略。您看到的邊緣誤差(marginal errors)在每個求解器解決方案中都存在。您的目標是抽象出更高層次的策略並培養GTO推理能力,而不是記憶頻率。

Comments


bottom of page