您當前位置：首頁 > php開源 > 綜合技術 > 大數據處理之道（MATLAB 篇<三>）

大數據處理之道（MATLAB 篇<三>）

來源：程序員人生發布時間：2015-03-02 08:47:56 閱讀次數：4576次

1：起因

（1）最近1直在處理大數據，從MB ----> GB的變化，是1次質的奔騰，相應的工具也在變從widows到linux，從單機單核到 hadoop多節點的計算

（2）問題來了，面對海量的數據，如何從中發掘實用的信息或發現潛伏的現象，可視化工具多是必不可少的；

（3）可視化工具可以說百度1大篇，可是作為研究者的我們，程序猿的我們可能更希望能夠抽象出1種數學模型，對現實的現象進行非常好的描寫和刻畫

（4）Python（數據清洗和處理） + MATLAB（模型分析）或 c++/java/hadoop（數據清洗和處理） + MATLAB（模型分析）

（5）先前的1篇博文可以參考 c++ fstream + string 處理大數據和大數據處理之道（MATLAB 篇(2））

（6）程序猿鄙視學習MATLAB的人，是由于對MATLAB的理解不夠深入，MATLAB是matrix&laboratory兩個詞的組合，意為矩陣工廠（矩陣實驗室）；說起處理矩陣（其實就是數值型的數組嘛）計算問題那是數一數二的快，簡便。MATLAB可以進行矩陣運算、繪制函數和數據、實現算法、創建用戶界面、連接其他編程語言的程序等。

2：MATLAB學習（遍歷文件夾，矩陣的重新組合，pca）

（1） save(tofilename, 'ANS', '-ASCII') 保存結果ANS矩陣到制定路徑tofilename中

（2）num2str(num) 將數字轉化為string型；

（3）strcat(rootpath,num2str(i),'*.csv') 字符串拼接函數用于絕對路徑的生成

（4）[coef,score,latent,t2] = princomp(data); 主要成份分析法，latent是貢獻率排序的（從大到小），score是生成的新數據，根據貢獻率排序的

3：PCA講授

（1）特點抽取是指將高緯度的特點經過某個函數映照至低緯度作為新的特點。經常使用的特點抽取方法就是PCA

（2）當貢獻率累加至95%（當要求不是特別嚴格時，85%以上也能夠），以后的維數會不再顯示；所以根據貢獻率（例如前兩位已到達95%），那末最后可以降至2維，便可以只選取SCORE的前兩列來表示原始數據。

（3）PCA算法步驟：
設有m條n維數據。
1）將原始數據按列組成n行m列矩陣X
2）將X的每行（代表1個屬性字段）進行零均值化，即減去這1行的均值
3）求出協方差矩陣C=frac{1}{m}XX^mathsf{T}
4）求出協方差矩陣的特點值及對應的特點向量
5）將特點向量按對應特點值大小從上到下按行排列成矩陣，取前k行組成矩陣P
6）Y=PX即為降維到k維后的數據

4：程序（注釋比較詳細）

clc; clear all; close all; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% for i=1:7 %源文件夾路徑 rootpath = 'G:zyp_thanksmetro_test esultMergeODByDay_6'; %輸前途徑 torootpath = 'G:zyp_thanksmetro_test esultMergeODByDay_6_zhengyu'; %源文件夾路徑（獲得指定類型的文件） path = strcat(rootpath,num2str(i),'*.csv'); %輸前途徑 topath = strcat(torootpath,num2str(i),''); %創建輸出文件夾 mkdir(topath); dirs=dir(path); % 替換成你想要的路徑。讀取某個目錄的指定類型文件列表，返回結構數組。 dataDir=strcat(rootpath,num2str(i),'');%數據目錄 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% dircell=struct2cell(dirs)'; % 結構體(struct)轉換成元胞類型(cell)，轉置1下是讓文件名按列排列。 filenames=dircell(:,1); % 第1列是文件名 [m n] = size(filenames); for i=1:m strfilename = [dataDir filenames{i}]; tofilename = [topath filenames{i}]; %fprintf('文件%d:%s ',i,strfilename); X = load(strfilename); %A,B是獲得的不需要改變的數據，下面作為合并用的 A = X(:,1:2); B = X(:,6:7); %獲得3維向量，用作pca變換 data = X(:,3:5); %pca [coef,score,latent,t2] = princomp(data); newdata = score(:,1:2);%前 2列 ANS = [A newdata B]; save(tofilename, 'ANS', '-ASCII') end end

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 NYOJ A-B Problem

下一篇 IT運維服務中的一些工作思路探索（整理）

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

大數據處理之道 （MATLAB 篇<三>）

大數據處理之道（MATLAB 篇<三>）