編者按:CSDN “開源技術(shù)大會?2014” (OSTC?2014 )將于2014年3月30日在北京麗亭華苑酒店召開。我們將陸續(xù)發(fā)布參會講師的系列采訪,談?wù)勊麄儗⒃诒敬位顒臃窒淼膬?nèi)容。
本期,我們采訪的是騰訊TDW開源項目負責(zé)人、騰訊高級工程師趙偉。
趙偉
趙偉,騰訊數(shù)據(jù)平臺部高級工程師,騰訊大數(shù)據(jù)平臺分布式數(shù)據(jù)倉庫(TDW)的技術(shù)負責(zé)人,開源軟件愛好者,是騰訊內(nèi)部Hive、Pig、PostgreSQL、ZFS等開源技術(shù)的引入和推廣者。目前主要負責(zé)TDW平臺的穩(wěn)定性、性能、易用性建設(shè),同時負責(zé)TDW對外開源工作。
TDW,騰訊分布式數(shù)據(jù)倉庫項目,在Hadoop的基礎(chǔ)上開發(fā)的騰訊內(nèi)部最大的離線數(shù)據(jù)處理平臺。TDW支持Oracle功能兼容的SQL語法,支持PB及的存儲和TB及的計算等。
以下是采訪記錄。
CSDN:請簡單的介紹一下TDW項目的應(yīng)用場景。
趙偉:這個項目主要的應(yīng)用場景是構(gòu)建低成本的數(shù)據(jù)倉庫。我們知道傳統(tǒng)的數(shù)據(jù)倉庫需要專用的硬件和昂貴的軟件授權(quán),使用TDW,可以基于廉價的PC Server構(gòu)建數(shù)據(jù)倉庫。我們希望通過開源的TDW,降低數(shù)據(jù)倉庫的成本和建設(shè)門檻,促進企業(yè)對數(shù)據(jù)價值的發(fā)掘,提升國內(nèi)企業(yè)的信息化水平。
CSDN:TDW歷經(jīng)4年研發(fā),這四年間產(chǎn)品的設(shè)計思路和實現(xiàn)方式是否經(jīng)歷了什么變化?
趙偉:TDW在過去幾年的設(shè)計思路一直是“開源軟件”+“騰訊定制和優(yōu)化”。使用開源軟件,大大節(jié)省了我們的研發(fā)成本和時間,可以快速搭建起原型,比如TDW核心的查詢引擎,是基于apache hive這個開源軟件。但是僅僅使用開源軟件,又不能完全滿足騰訊的業(yè)務(wù)需求,因此,我們需要再開源軟件基礎(chǔ)上,根據(jù)騰訊的業(yè)務(wù)特點,進行定制和優(yōu)化。在TDW的研發(fā)過程中,我們基于hive和hadoop,依次經(jīng)歷了數(shù)據(jù)倉庫功能完善、易用性建設(shè)、高可用和穩(wěn)定性加強,性能和成本優(yōu)化,安全建設(shè)等定制和優(yōu)化。
CSDN:TDW在“騰訊海量數(shù)據(jù)處理平臺”中的位置及作用是怎樣的?
趙偉:TDW是騰訊海量數(shù)據(jù)處理平臺中最核心的模塊,它有以下幾個作用:
CSDN:作為一款分布式數(shù)據(jù)倉庫,TDW的技術(shù)架構(gòu)是怎樣的?在TDW的設(shè)計和開發(fā)過程中最注重的是哪些部分?
趙偉:在架構(gòu)上,TDW并沒有對開源軟件做大的修改。TDW的存儲和計算,主要采用hadoop的HDFS和MapReduce,TDW的SQL查詢引擎主要基于Hive。
TDW在研發(fā)的不同階段,有不同的側(cè)重點。在TDW研發(fā)開始那三年,我們主要對Hive進行定制和優(yōu)化,使它更功能更豐富,更穩(wěn)定,更易用。最近兩年,我們?yōu)榱酥胃笠?guī)模的集群,在hadoop層做了大量優(yōu)化,主要包括hadoop的master分散化和高可用。
CSDN:與其他類似分布式數(shù)據(jù)倉庫相比,TDW的優(yōu)勢是什么?
趙偉:與其他商業(yè)數(shù)據(jù)庫比,當(dāng)然是成本優(yōu)勢。與社區(qū)的hive+hadoop比,TDW包含了大量功能,穩(wěn)定性和性能優(yōu)化,并且經(jīng)過了騰訊生產(chǎn)環(huán)境的驗證。
CSDN:TDW今后的目標(biāo)和開發(fā)計劃是什么?
趙偉:我們的目標(biāo)有兩個:一個是使TDW運行效率更高,用戶體驗更好,包括將一些新的存儲計算引擎引入到TDW中,提供更快速的查詢分析響應(yīng);另外一個是更節(jié)省成本,我們將持續(xù)優(yōu)化我們的存儲策略和計算機模型,使TDW的運營成本計量下降。
接下來一段時間的開發(fā)計劃大致有:
CSDN:您能否簡單談下您在本次大會上要分享的話題。
趙偉:我本次大會上的議題是《基于開源軟件構(gòu)建騰訊大數(shù)據(jù)平臺》,希望跟大家分享TDW所使用的開源軟件,以及基于之上的各種優(yōu)化,以及TDW對外開源進展。
延伸閱讀
據(jù)悉,騰訊未來會對一系列項目進行開源,CSDN CODE將會對此進行持續(xù)系列報道,敬請關(guān)注。
2014年3月30日,由CSDN主辦的“開源技術(shù)大會?2014”將在北京麗亭華苑酒店召開。多位開源界資深人士將出席大會并發(fā)表演講,歡迎大家親臨現(xiàn)場與大牛零距離交流。
>>>大會官網(wǎng):http://ostc.csdn.net/