【編者按】在大數據討論領域出現了一個新的課題:實時大數據分析(RTBDA)。RTBDA是大數據分析的一個關鍵要素和增值命題,特別是在掌握了海量信息的基礎上,采取積極主動的措施進一步實時檢查數據信息所累積的有價值的洞察。這一戰略已成為許多互聯網/通信行業的OTT(Over The Top)公司的基石。OTT公司繼續在網絡上持續產生海量的流量,而這些數據流量并不能對企業的營收增長帶來多少貢獻,已然成為網絡電信運營商的一大困擾。
RTBDA還尚需要一定的磨練,特別是在電信網絡環境中。幸運的是,發展該戰略所需要的技術已經具備,但仍有改進的余地。
RTBDA概述
當被分解到其最簡單的形式時,大數據分析包括兩部分,以便將自身與數據倉庫和商業智能進行區分:
實時行動
分布式,并行處理
大數據分析能夠解決處理大量無關且不能存放在一個單一的服務器或數據庫的數據集所帶來的普遍的挑戰問題。而這個問題可以通過使用分布式并行處理分布在多個服務器的大型數據集得以解決,每臺服務器處理并行數據的一部分。大數據分析可以與結構化和非結構化數據工作,因為它并不需要一個特定的結構。這種做法的一個例子將使用Hadoop的MapReduce,其也可以看作是大數據對今天的深遠影響。
盡管目前有方法來處理大量的數據,大數據處理縮小以便能夠在指定的時間內完成。現在,時限這一概念比以往任何時候都越來越都多的與“實時”相關。
盡管RTBDA仍然是一個相對較新的概念,但其解決了實時主動或被動的采取措施的需求。而這是基于互聯網內容和服務提供商們了解到了正在發生的事情,檢查情況并實時采取行動。
理解“實時”電信
在實時大數據分析:新興架構大會上,邁克巴洛問道,“所謂的實時到底有多'實時'?”“這取決于你的目標,問題的答案會有動態的變化。在某些情況下,秒或毫秒就足夠了,而在另一些情況下,實時需要更快。
這個問題是從電信方面很有趣。它揭示了當前的電信運營商們如果想要成功的解決OTT公司所帶來的流量挑戰所必須面臨的一個潛在的弱點。這樣的話,目前在電信行業所能夠接受的“實時”的標準就顯得不再足夠了。
此前,電信網絡使用面向連接的技術。程序只能進行集中在一個高度結構化的進程,前一分鐘的網絡與后一分鐘并沒有多大的修改,甚至時間跨度一小時也不會有太大改變。在這些情況下,在一致的時間間隔從網絡上收集信息就知道發生了什么。該協議的管理信息豐富,能夠從一個協議聚集大量的洞察力。在這種情況下,“實時”可以在幾秒鐘之內甚至幾分鐘內定義,這就是為什么他們通過每5到15分鐘收集呼叫詳細記錄(CDR)就能充分獲得完全的洞察力的原因了。
同樣的情形在今天已經不再可能。向LTE的過渡使電信運營商完成過渡到基于以太網和IP的數據包網絡,其功能與面向連接的技術和協議是完全不同的。
IP網絡的一個基本原則是:網絡是自給自足的。網絡提供了流量傳輸的通道,并依據流量擁堵和其他情況進行網絡路徑重定向。這個特點使網絡能夠迅速就相關的改變做出回應。缺點是無法確切地預測流量。這種情況又因以太網和IP協議變得復雜,缺乏面向連接的協議所能提供的同等水平的管理信息。
分組傳輸網絡(Packet networks )本質上也是動態的,因為其設計初衷是為多個用戶共享相同的基礎設施提供服務的。在較長的一段時間,網絡的消耗看起來很低,但在現實中流量傳輸需求很大,可能消耗掉所有可用的帶寬。在這種情況下,對IP網絡應該做出反饋,確保流量是在穩定的網絡上傳輸。最終,在網絡中可能從一個IP包或以太網幀到下一個發生變化。
電信網絡管理和數據分析的中心問題是他們都依靠事件詳細記錄(EDRs),CDRs和IP詳細記錄(IPDRs)來深入了解實時發生的狀況。
在過去,“實時”這一定義每隔幾分鐘就已經足夠了。當我們考慮到以太網幀在10 Gbps網絡可以以每幀短短67納秒的時間在之間以太網幀傳輸,我們就開始理解在一個分組傳輸網絡的“實時”指的是什么了。在現如今這個快節奏的環境“實時”的概念已經不僅不是分鐘,也不是秒來。今天,其是以納秒為時間間隔了。
實時評估
使用CDRs,EDRs和IPDRs進行大數據分析是一個好主意,這取決于企業正在努力完成的任務。大數據分析可以以兩種方式制定決策:
實時決策
根據趨勢及預測分析加強規劃,以及服務和網絡的優化
利用明細記錄、以及其他結構化和非結構化數據源進行優化和規劃是必要的。這些記錄包括豐富的信息,幫助預測有用的趨勢。除非輔以分組網絡的實時信息,提供關于發生了什么的精確細節,否則這些信息將無法提供一個完整的視圖。
不幸的是,詳細的記錄不能用于實時決策,因為其只是每5至15分鐘的時間間隔進行收集。這個時間間隔與我們對什么是真正分組網絡實時的理解不兼容。其需要不斷收集,存儲和分析真正的實時網絡信息,進行決策。要理解網絡正在發生什么,必須對所有相關的以太網幀與IP數據包進行實時審查。
通過以這種方式捕獲和存儲網絡信息,我們不僅具備了能夠分析使用實時信息的能力,同時也可以為我們提供一個了解在信息網絡發生了什么事件的基礎的詳細可靠的方式,以補充其他大數據的活動的洞察。
RTBDA在電信行業的應用
實時數據采集層可以為決策制定提供可操作的、層出不窮的材料。無論是電信管理論壇和IP網絡監控的服務質量智能支持(IPNQSIS)項目,以及歐洲Celtic-Plus計劃的一部分,都曾研究過這個需求,作為提升各自客戶體驗管理的努力的一部分。這兩個項目的結論是,探頭和設備對于了解在網絡中正在發生的事情的可靠,實時洞察是必要的。
典型地,探頭數據采集器將數據傳送到其他管理系統,而設備使用相同的技術,而且能夠分析數據,并可以在本地存儲信息。通常情況下,設備集中于一個特定的任務,比如性能監控,測試和測量,或安全性,并且往往被視為滿足非常具體的要求。在另一方面,探頭和設備可以作為大數據分析的實時數據源發揮更多的戰術作用,并幫助實現RTBDA戰略。下文中提供了一個這樣的基礎設施如何實現的三個步驟的視圖。
實現部署
最初的步驟需要數據采集設備的部署。這里的一個關鍵因素是以太網幀和IP數據包必須被實時捕獲,不管在什么情況下,以線速度且零數據包丟失。這種可見性證實了源源不斷的可靠信息的收集。
每幀必須被賦予獨特的時間間隔,以保證精確的時間表可以被建立,不僅涵蓋本地的設備,同時還能跨多個設備。這些時間間隔精度必須是以納秒為計量單位。例如,在10 Gbps的網絡以太網幀只有67納秒的時間間隔,時間間隔分辨率必須小于67納秒。否則,兩個以太網幀都會收到相同的時間間隔,使得其很難區分。在一個100 Gbps的網絡,這段時間間隔將減少到6.7納秒。
結合零數據包丟失捕捉納秒級精度的實時數據,確保了我們能夠掌握一致的,準確的數據分析信息流。
存儲
其次,收集的信息應該實時被存儲。幾個設備提供捕捉的數據存儲到磁盤,允許實時的數據可以直接存儲到本地硬盤。另外,這些數據可以被轉移到一個存儲區域網絡(SAN)或其他位置。捕獲的數據可以被用來在網絡上創建一個歷史年表,以精確的細節記錄發生了什么。其可能用來重現到底發生了什么事,當進行重現時,使用這些數據。
這段細節記錄歷史是數據分析的一個豐富的信息源。這種類型的數據可以為數據信息的使用和行為模式提供洞察。如果設備具有深度數據包檢測(DPI)的功能,那么,使用服務,包括互聯網服務,可以監視和分析時間,地點和設備類型使用方面的趨勢。
這種信息本身對于網絡和服務的優化是一種寶貴的資源。可以據此來規劃新的,有針對性的服務,以匹配用戶的喜好。此外,這些信息可以為互聯網內容服務提供商提供洞察,讓運營商能夠向潛在客戶提供令人信服的服務能力。
實時評估
最后,實時的數據存儲有助于實現實時決策。捕獲到磁盤的歷史信息可幫助開發預期行為的配置文件。當數據與網絡活動的實時信息并置時,能夠檢測出意想不到的事件或異常。這些問題可能是一個安全威脅,也有可能是性能下降或有機會為客戶提供一個數據擴展包或互補性的服務。
從RTBDA的角度來看,這種能力與OTT內容及服務提供商執行的能力是非常接近的,基于對對目前正在發生的事情,并與過去的事情比較進行理解做出實時的反應。
RTBDA戰略基礎
遵循這三個步驟來實施,通過探頭和設備提供的實時信息可以用來實現RTBDA電信網絡以及在大數據分析戰略規劃中用其他信息來源以補充。
這一技術和產品用來實現戰略部署不僅僅是可用的,而且已經被廣泛使用了,只是不以這方面的目的。更有趣的是,當今絕大多數企業,金融,政府和電信網絡所使用的設備都是基于現成的服務器技術,其是與未來的運營計劃相兼容的。
軟件定義的網絡(SDN)和網絡虛擬化功能(NFV)策略的基石都是基于現成的服務器硬件。
RTBDA在未來的電信業的展望
現在是時候需要現代電信網絡重新考慮“實時”這一概念的意義,以及他們所使用的大數據分析的信息源了。電信運營商必須開始評估在網絡中使用探頭和設備技術等更多的戰術方法來提供RTBDA了。這樣,不僅能夠為規劃決策提供更準確的信息,同時也可以創造新的機會,提供更好的服務,不僅為最終用戶,也為OTT服務提供商自身。這種能力最終可以幫助電信網絡的OTT解決流量的貨幣化問題。
原文鏈接:實時大數據分析:網絡分析的一種新方法 (責編/魏偉)
以“ 云計算大數據 推動智慧中國 ”為主題的 第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產業觀察、技術培訓、主題論壇、行業研討,內容豐富,干貨十足。 需要購買的朋友,請抓住這最后的機會,點擊報名!
上一篇 ssh隧道與代理
下一篇 保障AWS云中數據安全的七大方式