2014年4月3日星期四,CSDN在線培訓“大數據環境下的關聯規則挖掘”將和大家見面了!
隨著物聯網和云計算這兩大國家戰略性新興產業的不斷發展,如何處理海量的信息以服務于社會的需求變得更為緊迫,數據挖掘技術成為推動兩大新興產業發展的核心技術。對于一些企業,數據挖掘更是可以帶來更大的價值。
而關聯規則挖掘(Association rule mining)是數據挖掘中最活躍的研究方法之一,可以用來發現數據之間的聯系,關聯規則挖掘過程主要包含兩個階段:
關聯規則挖掘的第一階段必須從原始資料集合中找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水平。一個項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式求得包含{A,B}項目組的支持度,若支持度大于等于所設定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項目組中再產生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則,是利用前一步驟的高頻k-項目組來產生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組{A,B}所產生的規則AB,其信賴度可經由公式求得,若信賴度大于等于最小信賴度,則稱AB為關聯規則。
而關聯規則挖掘的相關算法一般有以下幾種:
FP-樹頻集算法:FP-樹頻集算法。采用分而治之的策略,在經過第一遍掃描之后,把數據庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然后再對這些條件庫分別進行挖掘。
Apriori算法:Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。
基于劃分的算法:Savasere等設計了一個基于劃分的算法。這個算法先把數據庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然后把產生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。
“數據海量,信息缺乏”是所有企業在數據大集中之后普遍所面對的尷尬。企業實施的大多數數據庫只能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發現數據中存在的各種有用的信息,譬如對這些數據進行分析,發現其數據模式及特征,然后可能發現某個客戶、消費群體或組織的興趣。同時在我國這方面的人才也十分稀缺。
趙修湘,EasyHadoop 開源社區創始人之一,畢業于中國科學院研究生院,曾就職于多家互聯網公司擔任數據基礎平臺架構師和數據挖掘工程師, 目前擔任某互聯網數據公司高級數據挖掘工程師,一直致力于大數據行業相關技術的研究。此次CSDN在線培訓:大數據環境下的關聯規則挖掘中,趙修湘會介紹大數據環境下關聯規則挖掘面臨的挑戰;以及在項目實戰中用到的兩種有效的解決方案:暴力法、mr Apriori。
本次在線培訓采用三分屏模式,在聽課的同時可以和講師進行互動,讓你感受真實的課堂環境。還在為Hadoop“手藝”無處可學而煩惱?還在為Hadoop企業級應用而頭疼?快來看看吧!
報名地址:http://g.csdn.net/5267277