多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 通過簡單的Word Count講解MapReduce原理以及Java實現

通過簡單的Word Count講解MapReduce原理以及Java實現

來源:程序員人生   發布時間:2014-10-04 08:00:00 閱讀次數:2519次

MapReduce原理:

      MapReduce采用"分而治之"的思想,把對大規模數據集的操作,分發給一個主節點管理下的各個分節點共同完成,然后通過整合各個節點的中間結果,得到最終結果。簡單地說,MapReduce就是"任務的分解與結果的匯總"

 

  在Hadoop中,用于執行MapReduce任務的機器角色有兩個:一個是JobTracker;另一個是TaskTrackerJobTracker是用于調度工作的,TaskTracker是用于執行工作的。一個Hadoop集群中只有一臺JobTracker

 

  在分布式計算中,MapReduce框架負責處理了并行編程中分布式存儲、工作調度、負載均衡、容錯均衡、容錯處理以及網絡通信等復雜問題,把處理過程高度抽象為兩個函數:mapreducemap負責把任務分解成多個任務,reduce負責把分解后多任務處理的結果匯總起來。

 

需要注意的是,用MapReduce來處理的數據集(或任務)必須具備這樣的特點:待處理的數據集可以分解成許多小的數據集,而且每一個小數據集都可以完全并行地進行處理。

Hadoop中,每個MapReduce任務都被初始化為一個Job,每個Job又可以分為兩種階段:map階段和reduce階段。這兩個階段分別用兩個函數表示,即map函數和reduce函數。map函數接收一個形式的輸入,然后同樣產生一個形式的中間輸出,Hadoop函數接收一個如形式的輸入,然后對這個value集合進行處理,每個reduce產生01個輸出,reduce的輸出也是形式的。

下面以一個最簡單的例子說明:

單詞計數是最簡單也是最能體現MapReduce思想的程序之一,可以稱為MapReduce"Hello World",該程序的完整代碼可以在Hadoop安裝包的"src/examples"目錄下找到。單詞計數主要完成功能是:統計一系列文本文件中每個單詞出現的次數,如下圖所示。

 

package org.apache.hadoop.examples;

 

import java.io.IOException;

 

import java.util.StringTokenizer;

 

import org.apache.hadoop.conf.Configuration;

 

import org.apache.hadoop.fs.Path;

 

import org.apache.hadoop.io.IntWritable;

 

import org.apache.hadoop.io.Text;

 

import org.apache.hadoop.mapreduce.Job;

 

import org.apache.hadoop.mapreduce.Mapper;

 

import org.apache.hadoop.mapreduce.Reducer;

 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 

import org.apache.hadoop.util.GenericOptionsParser;

 

public class WordCount {

 

  public static class TokenizerMapper

 

      extends Mapper {

 

      private final static IntWritable one = new IntWritable(1);

 

      private Text word = new Text();

 

 

 

      public void map(Object key, Text value, Context context)

 

        throws IOException, InterruptedException {

 

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 軟考之算法

下一篇 我的簡歷

分享到:
------分隔線----------------------------
為碼而活
積分:4237
15粉絲
7關注
欄目熱點
關閉
程序員人生
主站蜘蛛池模板: 日韩高清一区二区 | 国产亚洲精品热视频在线观看 | 亚洲欧美日韩中文综合v日本 | 欧美日本亚洲 | a级片中文字幕 | 免费看啪啪网站 | 最好的中文字幕2018免费视频 | 欧美人与禽xoxo牲伦交 | 中文字幕一区二区三区在线观看 | 羞羞视频免费看网站 | 国产女主播一区二区在线观看 | 美国一级免费毛片 | 黄网址大全免费观看免费 | a免费毛片在线播放 | 欧美曰逼 | www视频在线| 波多野结衣国产一区二区三区 | 黄色网址在线免费 | 国产亚洲欧美日韩俺去了 | 日本-区二区三区免费精品 日本人69式视频最长 | 亚洲免费中文 | 亚洲欧美韩日 | 亚洲欧美久久婷婷爱综合一区天堂 | 精品国产福利在线观看网址2022 | 午夜毛片不卡高清免费 | 在线精品自拍 | 一区二区三区四区亚洲 | 久久七国产精品 | 亚洲国产欧美日韩精品小说 | 日韩欧美一区二区三区四区 | 亚洲精品在线观看视频 | 久久精品国产400部免费看 | 老司机福利在线观看 | 国产成人高清视频 | 影视精品网站入口 | 亚洲欧美日韩综合 | 亚洲a网| 人人澡人人擦人人免费 | 手机福利在线 | 亚洲综合欧美日本另类激情 | 欧美最猛性xxxxx图片 |