【編者按】作者Jesse Anderson是Cloudera的課程設(shè)計師和講師,他利用NFL的“Play-by-Play”數(shù)據(jù)集,分析自己對橄欖球的一些錯誤認(rèn)識,提醒我們“見解”并不等于現(xiàn)實,數(shù)據(jù)分析是決策的必要環(huán)節(jié)。數(shù)據(jù)分析幫助我們打破主觀假設(shè)和先入之見,讓決策從“藝術(shù)”變成了一門“科學(xué)”。以數(shù)據(jù)驅(qū)動的業(yè)務(wù)決策確保了決策的可靠性,數(shù)據(jù)分析才是決策的最終解決方案。
CSDN推薦:歡迎免費訂閱《Hadoop與大數(shù)據(jù)周刊》獲取更多Hadoop技術(shù)文獻(xiàn)、大數(shù)據(jù)技術(shù)分析、企業(yè)實戰(zhàn)經(jīng)驗,生態(tài)圈發(fā)展趨勢。
以下是譯文:
那些圍繞著大數(shù)據(jù)亂七八糟的討論是不是讓你感到心煩?對理解信息驅(qū)動業(yè)務(wù)的重要性是不是也有些力不從心?數(shù)據(jù)的意義很大程度上在于對主觀假設(shè)和先入為主觀念的挑戰(zhàn),確保業(yè)務(wù)決策的正確性。
最近,我分析了 NFL的“Play-by-Play”數(shù)據(jù)集,測試一下我對橄欖球一些先入為主的見解。我看橄欖球已經(jīng)很多年了,而且像很多人一樣,我對比賽、團(tuán)隊統(tǒng)計、天氣和體育場條件等有著長期先入為主的觀念。
我對圍繞高海拔地區(qū)的橄欖球比賽有著長期的偏見,比如在Denver的Mike High Stadium的那些比賽,Denver的 Mike High Stadium坐落在海拔 5130 英尺的地方(NFL體育場館的平均海拔是526英尺)。海拔較高意味著氧氣稀薄,影響到運動員在比賽中的表現(xiàn)。
在今年 Broncos vs. Ravens的常規(guī)賽中,可以看到球員通過吸入純氧來防止高原反應(yīng)。這引起了我的一些思考:海拔的高低真的會影響比賽表現(xiàn)嗎?可以用數(shù)據(jù)證明嗎?
挑戰(zhàn)先入之見
當(dāng)我開始處理NFL數(shù)據(jù)集時,我假設(shè)在某處的比賽如果換在別的地方進(jìn)行,實際上會出現(xiàn)不同的結(jié)果。我查過在Denver和其他地區(qū)比賽的平均得分以及比賽的各種數(shù)據(jù)(傳球、跑動等等)。我沒有發(fā)現(xiàn)明顯的差別,除了在Denver的比賽中傳球成功率提高了1%。數(shù)據(jù)證實我對海拔高度影響橄欖球比賽的偏見是錯誤的。
我還以為橄欖球在最后一次進(jìn)攻時,教練會選擇棄踢(punt)。在最后一次進(jìn)攻時,如果球隊仍然決定冒險試一試,評論員們就可以對比賽大作文章了,因為這和主流的想法不一致。不過,數(shù)據(jù)表示,冒險試一試的情況更經(jīng)常發(fā)生:只有15%的教練在最后一次進(jìn)攻時選擇棄踢。
更大的球場意味著會有更多的粉絲,主場球隊理所當(dāng)然的應(yīng)取得更好的成績,不是嗎?數(shù)據(jù)又一次駁斥了這種觀念。數(shù)據(jù)表明,在小型體育場比賽其實會比在大型體育場平均取得更高的分?jǐn)?shù):20.55:17.9。
這些例子表明,利用數(shù)據(jù)分析可以確保運作依據(jù)現(xiàn)實,而不是假設(shè)。對于沒有數(shù)據(jù)支持的業(yè)務(wù),你可能會有一些先入之見。不管是比賽還是業(yè)務(wù),是否有精確數(shù)據(jù)的支持可能意味著成功或失敗。數(shù)據(jù)是做出明智決策的關(guān)鍵。
看到結(jié)果
比賽有趣就是因為比賽結(jié)果不能被預(yù)先決定。無論在哪個比賽日,每個隊都會有獲勝的可能。一場橄欖球比賽可以被分為很多次進(jìn)攻,進(jìn)攻組試圖攻到前場得分,防守組則阻止他們得分。
上述餅圖顯示球隊的平均攻防效率。棄踢也是比較常見的結(jié)局。當(dāng)團(tuán)隊決定棄踢時,防守組則開始行動阻止進(jìn)攻組得分。數(shù)據(jù)顯示這時進(jìn)攻如果是達(dá)陣(EXTRAPOINT)得分,成功率達(dá)到了18%,如果是任意球(FIELDGOAL)得分,成功率達(dá)到了15%。
看一下進(jìn)攻有多少次產(chǎn)生了“non-standard”結(jié)果也很有意思。這些導(dǎo)致進(jìn)攻的結(jié)局都是防守組不愿看到的,例如攔截(INTERCEPTION),這種情況成功的可能性為7%。
開始碼線嚴(yán)重影響進(jìn)攻的結(jié)果。上圖顯示基于進(jìn)攻開始碼線得分的百分比指數(shù)。在此圖中,從1碼線進(jìn)攻得分是最近的,從100 碼線進(jìn)攻得分是最遠(yuǎn)的。正如期望的那樣,通過碼線最多的進(jìn)攻,想要得分也最難。在紅區(qū)開始進(jìn)攻(20碼線和更接近碼線)有78%的成功率。相反,從80碼線或更遠(yuǎn)碼線開始的進(jìn)攻就只有21%的成功率。更遠(yuǎn)的進(jìn)攻被截取的可能性高了2.6倍――因為有更多碼,所以沿途出錯的機(jī)會也更多。
橄欖球進(jìn)攻的結(jié)果很像銷售的業(yè)務(wù)成果:如果沒有分析,你可能已經(jīng)在99碼線就開始推銷,銷售轉(zhuǎn)化率很低,同行競爭者也很有可能竊取你的銷售成果。通過分析數(shù)據(jù),你可以將你的銷售更接近紅區(qū)――達(dá)陣得分。
用更多的數(shù)據(jù)擴(kuò)大數(shù)據(jù)集
原始的“Play-by-Play”數(shù)據(jù)集包含了有關(guān)特定的比賽的詳細(xì)信息,如碼線、日期和涉及的小組。使用此數(shù)據(jù)集,能回答一些有趣的問題――例如,有多少進(jìn)攻是以任意球接結(jié)束的――但想要回答其它問題就難了。
比賽的結(jié)果不僅取決于場上帶球奔跑的運動員。還有其他的許多影響因素,像天氣和草皮類型,這在最初的NFL數(shù)據(jù)集中使沒有的,所以我又在其中增加了天氣和體育館數(shù)據(jù),然后進(jìn)行了一系列的查詢,以了解天氣對比賽的影響。
數(shù)據(jù)顯示,在惡劣天氣下,Baltimore Ravens平均在主場取得的分?jǐn)?shù)最高,平均21.7:14.2,然而Kansas City Chiefs的成績最差:23.8:28。沒有惡劣天氣時,Pittsburgh Steelers表現(xiàn)最好,以23.8:13.6獲勝。
將這個示例應(yīng)用到業(yè)務(wù)操作中:不限制你向數(shù)據(jù)集尋求問題的類型和深度。相反,還可以考慮增大你的數(shù)據(jù)集,使它能夠回答更加復(fù)雜的問題。根據(jù)一開始你想要問的問題的類型來決定加入實現(xiàn)哪些查詢的新數(shù)據(jù)集。
教練和CEO
那么業(yè)務(wù)經(jīng)理怎樣利用數(shù)據(jù)來提升一個團(tuán)隊的實力呢?首先,他們需要決定數(shù)據(jù)驅(qū)動的團(tuán)隊將是什么樣團(tuán)隊。決策不像算法那樣運行(做出確定型的決策,可以給定一組數(shù)據(jù))――應(yīng)該利用數(shù)據(jù)確定或推翻我們的先入之見來輔助決策。
我對橄欖球的先入之見有時候是對的,但常常是錯的。如果教練的決策是基于我這樣不正確的假設(shè)將會帶來巨大的損失。
幸運的是,我們有這樣強(qiáng)大的工具,只要動動手指就能幫我們更快更簡單地從數(shù)據(jù)中獲得信息。像Hadoop這樣技術(shù)開辟了一個新的時代,使數(shù)據(jù)驅(qū)動的業(yè)務(wù)決策可以被實現(xiàn)――不管你的問題有多大,其中存在多么大的數(shù)據(jù)集和挑戰(zhàn),數(shù)據(jù)提供了大量機(jī)會挑戰(zhàn)或確認(rèn)我們對業(yè)務(wù)、社會(當(dāng)然還有橄欖球)的先入之見。成為數(shù)據(jù)驅(qū)動的組織不僅能幫助你將你的業(yè)務(wù)打包分開,還會讓你有能力表現(xiàn)得更好、獲得更大的成功。
原文鏈接: Insights from the NFL’s Play-by-Play Dataset: What business leaders can learn from football?(編譯/毛夢琪 審校/仲浩)