多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 【技術博客推薦】樊哲談機器學習算法與Mahout

【技術博客推薦】樊哲談機器學習算法與Mahout

來源:程序員人生   發布時間:2014-09-23 15:02:26 閱讀次數:1930次

Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的 機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。

樊哲,精通Mahout相關算法的二次開發,專注數據挖掘領域,他的CSDN博客用戶名為fansy1990,并榮獲“CSDN2013博客之星”的頭銜。他大學期間便開始跟隨導師做項目,之后接觸數據挖掘。在做數據挖掘的過程中,幸得師兄幫助,便跨入Hadoop大門,從此一發不可收拾。由于在Hadoop平臺上算法開發一般需要耗費很長時間,在導師的幫助下開始接觸Mahout。接觸后才發現原來很多的經典數據挖掘算法已經在Hadoop上面實現了,這讓他著實興奮了一把,乘機學習了一些主要算法的源碼。

他從12年下半年開始進行Mahout相關算法的二次開發。由于國內的Mahout相關的書籍太少,他便著手撰寫一本關于Mahout算法解析與案例實戰的書籍。目前已經完稿。在談到在CSDN上寫博客的收獲時,他覺得堅持在CSDN上寫博客,可以記錄自己學習的點點滴滴,同時結交了很多志同道合的朋友。日前,筆者有幸邀請到樊哲,他接受了我們CSDN的專訪,以下為采訪實錄:

CSDN:能否介紹一下目前您正在從事哪方面研究?

樊哲:目前主要在做電力行業的數據挖掘項目,涉及到Mahout算法的二次開發,工作之余會涉獵一些Apache Hadoop項目相關的其他項目,如HBase、Hive等

CSDN: 您認為強大的Hadoop短板在哪里?有人認為Spark會取代Hadoop,你怎么看?

樊哲:

1)  MapReduce的非實時性

Hadoop上面的任務一般都是長耗時的,非實時的,但是現在很多的應用都對實時性有一定的要求(Hadoop2 引入了Yarn,在一定程度上緩解了這個問題)。

2)  運行MapReduce的時候節點資源利用率不夠理想

目前Hadoop運行任務的時候計算節點的資源,比如CPU、Memory等利用率其實并沒有達到很理想的狀態,還可以進一步優化。

其實,我對Spark也只是有一些淺顯的了解,如果說Spark的性能確實比Hadoop好很多的話,未來可能會在某一方面取代Hadoop,畢竟如果Spark在性能上取得優勢的話,那么它應該會有一定的局限性,Hadoop成名這么久也不是沒有道理的。不過,我覺得如果Hadoop可以引進一些Spark的優點,那么Hadoop的發展應該會更加迅猛。其實技術都是向前發展的,我更傾向于技術優點的融合,這樣才能長久發展。

CSDN: 你認為目前數據挖掘領域面臨的挑戰有哪些?

樊哲:

1)  數據轉為大數據,首先對存儲有了更高的要求;

2)  大數據下,同樣對算法的開發也有更高的要求,比如需要考慮如何處理大數據、如何提高數據處理性能;

3)  大數據下,隨著高性能計算的發展,深度學習也會越來越受到重視;

4)  在大數據時代,數據挖掘的知識可能會作為機器智能的核心知識庫;

5)  不同于Hadoop/MapReduce框架的其他計算框架,比如實時流計算、分布式內存計算、圖計算框架等都對數據挖掘提出了挑戰;

CSDN:你認為目前國內在機器學習和算法研究方面的水平如何?

樊哲:目前,在國內,應該很多人都在進行相關的研究,但是一些頂尖的技術可能和國外還是有一些差距。

CSDN:你認為在使用Mahout過程中最大的難點在哪里?

樊哲:

1)  對于初學者來說,目前關于Mahout的學習資料比較少,官網提供的相關文檔并沒有很詳細的關于每個算法的使用教程。

2)  對于Mahout的二次開發者來說,不僅要求開發者對算法有一定的了解,同時對于編寫符合MapReduce流程的偽代碼算法以及把偽代碼轉換為實際代碼的能力都有很高的要求。最后,如果對于算法在性能上有要求,還應該做到提高算法運行的效率,這個也是難點。

CSDN:你的基于云架構的數據挖掘等軟件獲得國家級著作權登記,請問你開發這些軟件時遇到的最大困難是什么?

樊哲:當時由于還是學生,雖然學習了很多理論知識,比如數據結構、高等數學、算法編程等課程,但是缺乏一定的編程訓練(雖然自己課余時間有加強編程訓練,但還是不夠),同時對于自己來說,對于把理論和實踐相結合的能力還是不行,比如在掌握了數據結構以及一些數學基礎后應該可以寫成一些算法的偽代碼,但是當時偽代碼的生成還是有一定的難度。最后,對于處于初級編程水平的我來說,把算法偽代碼轉換為真正代碼的過程也是有一定難度的。

CSDN:大數據時代,你認為企業在數據化運營過程中如何將數據轉化為價值?

樊哲:

1)數據商品化,一些企業可以針對現有的數據在不泄露用戶隱私的情況下進行數據交易;

2)大企業在有能力的情況下,可以通過對海量歷史數據進行數據分析來預測未來,通過大數據分析來支持決策;

3)通過對大量企業積累的用戶數據使用推薦系統分析,可以更加了解用戶,更精確的對用戶進行推薦;

CSDN:在大數據開源技術的選擇和使用方面,有什么建議?

樊哲:建議的學習路線是:首先學習Hadoop;在有一定的Hadoop基礎的時候,可以去學習HBase、Hive、Pig等,這些技術主要是對數據處理的一些封裝技術,底層其實使用的都是MapReduce來實現;如果僅僅是使用的情況下,而不要求理解相關原理以及一些二次開發,那么上面基本足夠,但是若想要進行一些二次開發,那么可以去學習Mahout;最后就是一些相對周邊的技術了,比如Zookeeper、Avro、Ambari等。相關的書籍有《Hadoop權威指南》、《Mahout in Action》、《HBase權威指南》等。如果是針對數據挖掘的學習,比如Mahout,可以找到一個經典的、易于理解的算法來看Mahout的源碼,從中學習,事半功倍。

CSDN:一直堅持在CSDN撰寫博客,分享你的心得體會,最大的收獲是什么?

樊哲:最大的收獲其實還是自己技術的提升、思維的訓練以及書寫能力的提高,同時寫過的博客還是一個很好的參考工具。在所寫博客中,其實大多數都是對所寫技術的一種個人的理解,通過這種書寫的過程,可以加深對該項技術的理解,同時寫博客還可以和一些志同道合的網友進行交流,共同進步,所以我博客的主題也是:分享、成長、快樂。(文/魏偉)

點擊樊哲博客,查看更多技術性文章!

博客推薦系統--mahout FP關聯規則算法應用1  

phoenix實戰(hadoop2、hbase0.96)

hadoop集群算法調用--web平臺2.0

以“  云計算大數據 推動智慧中國 ”為主題的  第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產業觀察、技術培訓、主題論壇、行業研討,內容豐富,干貨十足。票價優惠,馬上  報名 ! 

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 亚洲专区中文字幕 | 嫩草亚洲国产精品 | 最新国产精品亚洲二区 | 国产亚洲精品九九久在线观看 | 最近更新中文字幕免费版 | jizz免费 | 国产永久一区二区三区 | 亚洲精品久久一区影院 | 在线伊人网 | 亚洲综合视频在线 | 国产l精品国产亚洲区久久 国产mv在线观看 | 色拍自拍亚洲综合在线 | free日韩性公交车上xxhd | 日韩欧美中文字幕出 | hd性欧美俱乐部中文 | 亚洲v天堂 | 亚洲精品美女久久久aaa | 亚洲一区二区三区影院 | 精品亚洲成a人在线观看 | 毛片一区| 国产毛片片精品天天看视频 | 最近新中文字幕大全高清视频 | 手机在线日韩高清理论片 | 天天精品 | 日韩精品一区二区三区四区 | 自拍 欧美| 亚洲综合日韩精品欧美综合区 | 久久综合九九亚洲一区 | 久久大香伊焦在人线免费 | 精品国产一区二区三区在线 | 最近中文字幕版免费 | 性欧美最新另类 | 国产一区在线播放 | 欧美精品色精品一区二区三区 | 国产69精品久久久久99不卡 | 美国毛片免费观看 | 欧美性小说| 国产永久免费爽视频在线 | 可以免费看的黄色网址 | 老司机深夜福利在线 | 欧美日韩你懂的 |