世界杯預測為什麼不靠譜

場外·數學控
四年一度全球狂歡性質的世界杯再度開戰,和往常一樣,關於賽果的預測成為熱門話題。這次幾家著名機構和名人的預測佔據了賽前媒體的頭條。德意志銀行預測英格蘭會奪冠,高盛認為巴西是最大熱門,霍金列出一個複雜的公式來計算自己祖國英格蘭的奪冠概率。
三份預測背后的模式是一致的:1.選取影響足球比賽勝負的顯著客觀因素;2.根據歷史比賽數據計算各因素對結果影響的方向和大小;3.將這次世界杯的客觀因素代入公式計算這次各隊的奪冠概率。
不過,這種預測方式對世界杯比賽是不適用的。先客觀因素的選取,對於預測模型,正確的選取方式是根據歷史數據計算所有因素對比賽結果影響的方向和大小,然后選出影響度大的,剔除其他因素。但是影響足球比賽的因素太多,無法全部考慮。霍金考慮了比賽溫度、時間、球衣色和球隊陣型,這個選取方式看似合理,但完全是根據主觀偏好。德意志銀行和高盛沒有公佈公式,恐怕也是因為自己模型考慮的因素會引起爭議。
再歷史比賽數據。規律來自大規模重覆試驗,對預測,最好是使用相同比賽下的歷史數據,但世界杯四年一次,四年64場比賽對於任何預測來都過於稀疏了。即使那幾支世界杯常客球隊,歷史數據大多是前輩踢的,貝利踢的比賽對內馬爾領銜的巴西參考價值大打折扣。
數學模型預測最成功的體育賽事是棒球,每年162場常規賽,這樣的數據量才有統計價值。
最后很重要的一點,足球比賽主觀因素往往大於客觀因素。世界杯前三場都出現了誤判,雖然本次世界杯增加了鷹眼技術判斷球是否越過門,但相對其他可以挑戰判慢鏡頭重播裁決的賽事,足球裁判對比賽結果的影響是最大的。
另外從概率上,一場定勝負的比賽偶然性遠大於系列賽,世界杯上很少有輸球的隊伍會心服口服,相比之下,N BA總決賽中輸給馬刺的熱火上下心悅誠服,對馬刺大加讚賞,這就是七戰四勝賽制極大消除了偶然性的結果。
相比於各國的足球聯賽和年年舉辦的歐冠賽事,世界杯更像是臨時抱佛腳參加高考,裁判像是不受監督的廣場舞大媽,不知道會出現在誰的考場窗外開啟高分貝音響。西班牙1:5輸荷蘭,烏拉圭輸給從沒輸過的哥斯達黎加,任何數學模型都不會預測出這種結果。
為什麼會有章魚保羅和網上各種預測帝?原因還是預測場次太少加上倖存者偏見。章魚保羅上屆世界杯八場全猜對,即使拋硬幣猜測的話八場全對的概率也有1/64。今年N C AA美國大學籃球錦標賽期間,巴菲特宣佈如果有人能猜對全部68場淘汰賽的勝負將得到自己的10億美元獎勵,是巴菲特太有錢不在乎這10億美金嗎?不是,巴菲特比誰都吝嗇,他只是知道簡單的概率計算,68場全對的概率太小了,有人成功猜對了前36場比賽,已經非常了不起。每屆世界杯都會有無數的“保羅”,大部分都在前幾次猜測失敗后從媒體視線中消失。貝利也不是真正的烏鴉嘴,只不過他預測成功的時候沒有后續報導。
應該相信誰的預測。發條微博預測結果是沒什麼成本的,“不要相信一個人怎麼,要看他怎麼做”,如果有人買了彩票押注一場比賽,我會更相信他的預測。所有下注人的集體智慧就是賭場的賠率,長時間來看,沒有人能夠長期戰勝賭場賠率。世界杯不是統計數據,是每個球迷的記憶和熱情,預測自己最喜歡的球隊奪冠是人性驅使的。但要記住,世界杯生決賽隊伍前,任何一支球隊不奪冠的概率都比奪冠的概率大。
王鐸(應用數學博士,軟件工程師)