談到大數(shù)據(jù),張安站認(rèn)為大數(shù)據(jù)本質(zhì)上是兩個(gè)根本性的問題,一個(gè)是數(shù)據(jù)很大,如何存儲(chǔ)?另外一個(gè)是數(shù)據(jù)很大,如何分析?第一個(gè)問題,對(duì)于存儲(chǔ)廠商來說,就是構(gòu)建Scalability更好的存儲(chǔ)系統(tǒng),來適應(yīng)這個(gè)超大規(guī)模數(shù)據(jù)存儲(chǔ)的需求。第二就是大數(shù)據(jù)的分析,隨著以Hadoop生態(tài)環(huán)境為代表的分布式計(jì)算/ 存儲(chǔ)集群的蓬勃發(fā)展與成熟,大數(shù)據(jù)的分析變得越來越高效和準(zhǔn)確,原來的離線數(shù)據(jù)挖掘現(xiàn)在可以做到在線,甚至通過在線挖掘在數(shù)分鐘內(nèi)對(duì)用戶產(chǎn)生基于當(dāng)前行為的推薦。
張安站,EMC中國(guó)卓越研發(fā)集團(tuán)的資深工程師,畢業(yè)于南開大學(xué),畢業(yè)后加入EMC,在存儲(chǔ)部門擔(dān)任軟件工程師。在讀研期間,主要從事了基于手持閱讀器的在線讀物聚合的研究與實(shí)現(xiàn),編碼超過30K,積累了豐富的編碼實(shí)戰(zhàn)經(jīng)驗(yàn)。
并且也研究了基于地理位置的在線廣告投放并且成功在手持閱讀器上做過原型開發(fā)。校招時(shí)收到了百度、阿里、搜狗、EMC、 SonicWALL和創(chuàng)新工場(chǎng)等多個(gè)知名企業(yè)的offer ,并且保持了面試必過的記錄。
加入EMC后,主要負(fù)責(zé)存儲(chǔ)系統(tǒng)管理和監(jiān)控的研究與開發(fā),積累了豐富的系統(tǒng)調(diào)試經(jīng)驗(yàn);設(shè)計(jì)實(shí)現(xiàn)了存儲(chǔ)控制協(xié)議SMIS并在系統(tǒng)性能調(diào)優(yōu)方面積累了實(shí)戰(zhàn)經(jīng)驗(yàn);承擔(dān)了項(xiàng)目組的代碼管理工作和Scrum的管理工作。 近半年工作重心在構(gòu)建下一代的商業(yè)存儲(chǔ)的管理框架,通過重新設(shè)計(jì)獲得存儲(chǔ)系統(tǒng)的可靠性(Reliability)、可用性(Availability )、可擴(kuò)展性(Scalability)和性能(Performance )得到質(zhì)的提升。下個(gè)月將加入百度的網(wǎng)頁搜索部擔(dān)任系統(tǒng)架構(gòu)資深研發(fā)工程師,負(fù)責(zé)網(wǎng)頁搜索產(chǎn)品服務(wù)架構(gòu)和數(shù)據(jù)存儲(chǔ)架構(gòu)的設(shè)計(jì)與升級(jí)。
談到如何學(xué)習(xí)Hadoop和Spark,他覺得精讀源碼是必須的,同時(shí)還要學(xué)會(huì)比較,另外,Scala語言是他認(rèn)為最酷的語言。一個(gè)優(yōu)秀的程序員,肯定會(huì)喜歡Scala。以下是對(duì)張安站的采訪實(shí)錄:
CSDN:可否介紹一下目前從事的工作?
張安站:當(dāng)前主要工作在構(gòu)建EMC中高端存儲(chǔ)的下一代管理控制平臺(tái)上。這是一個(gè)全新的平臺(tái)。不同與去年發(fā)布的VNX2,VNX2實(shí)際上還是分File 和Block,它們分別使用不同的CPU,物理上是隔離的。我們現(xiàn)在做的平臺(tái)是真正的Unified,可以在一個(gè)節(jié)點(diǎn)上提供File Service, Block Service。由于采用了全新的架構(gòu),整個(gè)存儲(chǔ)系統(tǒng)的可靠性(Reliability)、可用性(Availability)、可擴(kuò)展性(Scalability)和性能(Performance)得到質(zhì)的提升。傳統(tǒng)的存儲(chǔ)系統(tǒng)擴(kuò)展性是Scale-in的,做不到Scale-out。因此你可以看到每個(gè)系統(tǒng)不同的產(chǎn)品型號(hào)支持的最大硬盤數(shù)量是固定的,因此最大的存儲(chǔ)空間也是確定的。為了擴(kuò)容,不得不買更多的設(shè)備,這無疑增加了IT運(yùn)維的成本。我們現(xiàn)在關(guān)注的就是解決傳統(tǒng)架構(gòu)的局限,適應(yīng)現(xiàn)在云計(jì)算,大數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)新的需求,從而使我們的產(chǎn)品仍然在新的環(huán)境中主導(dǎo)存儲(chǔ)系統(tǒng)的發(fā)展。
不過遺憾的是六月份是我在EMC工作的最后一個(gè)月。七月初我會(huì)加入百度的網(wǎng)頁搜索部,擔(dān)任系統(tǒng)架構(gòu)資深研發(fā)工程師,負(fù)責(zé)網(wǎng)頁搜索產(chǎn)品服務(wù)架構(gòu)和數(shù)據(jù)存儲(chǔ)架構(gòu)的設(shè)計(jì)與升級(jí),包括網(wǎng)頁抓取、海量數(shù)據(jù)處理平臺(tái)和分布式檢索系統(tǒng)。也是正式開始我在職場(chǎng)上的大數(shù)據(jù)生涯。
CSDN:談?wù)勀鷮?duì)大數(shù)據(jù)的理解?
張安站:大數(shù)據(jù),不同的人在不同的角度都會(huì)有不同的理解。但是歸根結(jié)底,是兩個(gè)根本性的問題,一個(gè)是數(shù)據(jù)很大,如何存儲(chǔ)?另外一個(gè)是數(shù)據(jù)很大,如何分析?第一個(gè)問題,對(duì)于我們存儲(chǔ)廠商來說,就是構(gòu)建Scalability更好的存儲(chǔ)系統(tǒng),來適應(yīng)這個(gè)超大規(guī)模數(shù)據(jù)存儲(chǔ)的需求。第二個(gè)問題,就是大數(shù)據(jù)的分析。隨著以Hadoop生態(tài)環(huán)境為代表的分布式計(jì)算/ 存儲(chǔ)集群的蓬勃發(fā)展與成熟,大數(shù)據(jù)的分析變得越來越高效和準(zhǔn)確,原來的離線數(shù)據(jù)挖掘現(xiàn)在可以做到在線,甚至通過在線挖掘在數(shù)分鐘內(nèi)對(duì)用戶產(chǎn)生基于當(dāng)前行為的推薦。
因此,可以說,這些技術(shù)的發(fā)展,也催生了更多的商業(yè)模式,也正在改變我們周圍的生活。比如借助大數(shù)據(jù)分析,交通違章監(jiān)控可以使用更短的時(shí)間通知違章車輛;醫(yī)院可以使用更多的用戶數(shù)據(jù)的建立更好的模型以獲得更好的治療方案;金融行業(yè)可以基于用戶的投資行為為用戶推薦最佳的理財(cái)產(chǎn)品。而這些,無一不和我們的生活息息相關(guān)。大數(shù)據(jù)方興未艾,機(jī)遇與挑戰(zhàn)并存,讓我們這些可愛的程序猿們更好的為人民服務(wù)吧!
CSDN: EMC 不久前收購了初創(chuàng)公司DSSD,您怎么看?
張安站:EMC是一個(gè)收購了或者說“融合”了很多公司的公司。EMC歷史上最著名的收購莫過于2003年以6億多美元收購VMware。其實(shí)對(duì)于EMC的多次收購,從另外一個(gè)方面也反應(yīng)了EMC對(duì)于行業(yè)趨勢(shì)的把握和敏感,EMC通過多次收購,不斷的加強(qiáng)和鞏固在行業(yè)內(nèi)的領(lǐng)導(dǎo)地位,從而也影響了行業(yè)的發(fā)展趨勢(shì)。這是EMC 繼收購閃存公司XtremIO后在閃存市場(chǎng)的又一舉動(dòng)。其實(shí),2013年發(fā)布的EMC中端存儲(chǔ)的巔峰之作VNX Rockies也發(fā)布了VNX-F的全閃存陣列,最高的IOPS達(dá)到了110W。雖然EMC相信磁盤陣列在可以遇見的未來仍將存在,但是也可以從它一系列的動(dòng)作可以看出,EMC非常重視閃存市場(chǎng)。收購DSSD也是這個(gè)戰(zhàn)略的一部分。
在EMC World 2014上宣布這個(gè)消息,足以說明對(duì)DSSD的重視。DSSD的核心團(tuán)隊(duì)來自ZFS。ZFS可以說是世界上最先進(jìn)的文件系統(tǒng),為什么叫ZFS,就是因?yàn)閆是最后一個(gè)英文字母,而在這之后,無需再有其他文件系統(tǒng)了。讓我們拭目以待,期待2015年Andy Bechtolsheim帶領(lǐng)的開發(fā)團(tuán)隊(duì)將給市場(chǎng)帶來的EMC DSSD。Andy在斯坦福讀博士時(shí)就創(chuàng)立了Sun。因此有足夠理由相信Andy會(huì)給閃存市場(chǎng)帶來驚喜。
CSDN: EMC World 2014 提到了EMC 存儲(chǔ)產(chǎn)品對(duì)Open-Stack的支持,能不能談一些這方面的具體內(nèi)容?
張安站:商業(yè)的存儲(chǔ)系統(tǒng)如何融入到云計(jì)算的集群環(huán)境?畢竟,云計(jì)算提供了三種基本的服務(wù),即計(jì)算資源、網(wǎng)絡(luò)資源和存儲(chǔ)資源。EMC存儲(chǔ)部門關(guān)注的就是如何將我們的存儲(chǔ)產(chǎn)品融入到Open-Stack中,使得Open-Stack可以無縫的使用EMC的存儲(chǔ)產(chǎn)品。由于EMC各個(gè)存儲(chǔ)產(chǎn)品的相對(duì)獨(dú)立性,不同的產(chǎn)品線可能都會(huì)支持Open-Stack。其實(shí)技術(shù)上說白了就是實(shí)現(xiàn)一個(gè)Open-Stack Cinder的驅(qū)動(dòng),實(shí)現(xiàn)一些Open-Stack的API以使得Open-Stack可以使用存儲(chǔ)系統(tǒng)上的存儲(chǔ)資源。在這里不得不提的是EMC的軟件定義存儲(chǔ)的實(shí)現(xiàn)ViPR。ViPR 2.0未來將成為其所有存儲(chǔ)的核心數(shù)據(jù)平臺(tái)。通過添加對(duì)OpenStack Clinder插件的支持,ViPR可以與更廣泛的第三方存儲(chǔ)系統(tǒng)和商品驅(qū)動(dòng)器兼容,EMC認(rèn)為ViPR 2.0現(xiàn)在能夠處理所有現(xiàn)有存儲(chǔ)容量的80%。
但是從Business Value來說,EMC對(duì)于Open-Stack的支持是為了將我們的存儲(chǔ)產(chǎn)品更好的融入Open-Stack中。使得它能夠充分利用我們的存儲(chǔ)服務(wù)。其實(shí)從這一點(diǎn)上來講,和Intel積極推動(dòng)很多OpenSource的項(xiàng)目一樣,最終的目的都是使得這些開源項(xiàng)目更好的運(yùn)行在公司的核心的軟硬件平臺(tái)上。當(dāng)然了,也不可否認(rèn),這些大公司的推動(dòng)對(duì)于這些項(xiàng)目起到了非常積極的作用。有了大公司在人力物力的投入,這些開源項(xiàng)目都能在各自的領(lǐng)域有了更好的發(fā)展。
CSDN:傳統(tǒng)商業(yè)存儲(chǔ)的在云計(jì)算背景下的機(jī)遇與挑戰(zhàn)?
張安站:這個(gè)問題,不得不提一下EMC現(xiàn)在力推的第三平臺(tái)戰(zhàn)略。簡(jiǎn)單來說,第二平臺(tái)就是傳統(tǒng)的數(shù)據(jù)中心,EMC已經(jīng)確定了領(lǐng)先的地位。第三平臺(tái)是建立在移動(dòng)設(shè)備、云服務(wù)、社交網(wǎng)絡(luò)和大數(shù)據(jù)的基礎(chǔ)之上。但是現(xiàn)在科技的發(fā)展可以說是重新定義了許多東西,就如EMC World 2014的主題 REDEFINE一樣。在這次平臺(tái)轉(zhuǎn)型的過程中,注定有一些公司被淘汰;一些公司會(huì)站在新的浪潮之巔。EMC的傳統(tǒng)存儲(chǔ)部門肯定會(huì)受到影響,但是影響究竟有多大誰都不敢斷言。我們現(xiàn)在也是Redesign我們的產(chǎn)品架構(gòu),很多模塊推倒重來,以更好的適應(yīng)第三平臺(tái)的需要。
CSDN:對(duì)于學(xué)習(xí)Hadoop和Spark的同學(xué)有什么好的建議?
張安站:學(xué)習(xí)最重要的是興趣,還有激情。不能說現(xiàn)在什么技術(shù)熱就去學(xué)什么,那么你可能永遠(yuǎn)在追隨這些技術(shù),無法真正的在技術(shù)方面提升自己。從我自己學(xué)習(xí)Hadoop和Spark的經(jīng)驗(yàn)來說,熟讀源碼,精讀源碼是必須的,特別是你需要做二次開發(fā)時(shí)。當(dāng)然了博客是一個(gè)很重要的渠道,但是博主是把自己的知識(shí)進(jìn)行提煉,總結(jié)形成博文的,可能他知道的一個(gè)實(shí)現(xiàn)的80%,但是博文可能只能展現(xiàn)60%。所以自己在精讀了文章后,一定要深入源碼去精讀,去對(duì)比。比如我學(xué)習(xí)HDFS時(shí),每次看到一個(gè)模塊都會(huì)和我們公司的產(chǎn)品實(shí)現(xiàn)進(jìn)行橫向的對(duì)比。舉個(gè)例子來說,HDFS的服務(wù)器端分名字節(jié)點(diǎn)(NameNode)和數(shù)據(jù)節(jié)點(diǎn)(DataNode),而我們的產(chǎn)品實(shí)現(xiàn)分ControlPath和DataPath。所以從大的架構(gòu)上來說,二者是想通的,雖然一個(gè)是分布式存儲(chǔ)系統(tǒng),一個(gè)是中心式的存儲(chǔ)系統(tǒng)。
Spark的學(xué)習(xí)也是,而且Spark的源碼無疑更加簡(jiǎn)練,相信大家能夠從源碼中學(xué)到很多東西。大家都知道Spark是用Scala語言實(shí)現(xiàn)的。Scala語言是我認(rèn)為最酷的語言。一個(gè)優(yōu)秀的程序員,肯定會(huì)喜歡Scala。
寫在最后:
在采訪中,我們能感覺到張安站的激情、睿智以及文采,正如在他的最新博文Redefine:Change in the Changing World中所說,科技的發(fā)展重新定義了技術(shù),影響了生活,改變了你我。
免費(fèi)訂閱“CSDN云計(jì)算”微信公眾號(hào),實(shí)時(shí)掌握第一手云中消息!
CSDN作為國(guó)內(nèi)最專業(yè)的云計(jì)算服務(wù)平臺(tái),提供云計(jì)算、大數(shù)據(jù)、虛擬化、數(shù)據(jù)中心、OpenStack、CloudStack、Hadoop、Spark、機(jī)器學(xué)習(xí)、智能算法等相關(guān)云計(jì)算觀點(diǎn),云計(jì)算技術(shù),云計(jì)算平臺(tái),云計(jì)算實(shí)踐,云計(jì)算產(chǎn)業(yè)資訊等服務(wù)。
點(diǎn)擊張安站博客,查看更多技術(shù)性文章!
HDFS追本溯源:租約,讀寫過程的容錯(cuò)處理及NN的主要數(shù)據(jù)結(jié)構(gòu)