您當前位置：首頁 > 互聯網 > 通過簡單的Word Count講解MapReduce原理以及Java實現

通過簡單的Word Count講解MapReduce原理以及Java實現

來源：程序員人生發布時間：2014-10-04 08:00:00 閱讀次數：2519次

MapReduce原理：

MapReduce采用"分而治之"的思想，把對大規模數據集的操作，分發給一個主節點管理下的各個分節點共同完成，然后通過整合各個節點的中間結果，得到最終結果。簡單地說，MapReduce就是"任務的分解與結果的匯總"。

　　在Hadoop中，用于執行MapReduce任務的機器角色有兩個：一個是JobTracker；另一個是TaskTracker，JobTracker是用于調度工作的，TaskTracker是用于執行工作的。一個Hadoop集群中只有一臺JobTracker。

　　在分布式計算中，MapReduce框架負責處理了并行編程中分布式存儲、工作調度、負載均衡、容錯均衡、容錯處理以及網絡通信等復雜問題，把處理過程高度抽象為兩個函數：map和reduce，map負責把任務分解成多個任務，reduce負責把分解后多任務處理的結果匯總起來。

需要注意的是，用MapReduce來處理的數據集（或任務）必須具備這樣的特點：待處理的數據集可以分解成許多小的數據集，而且每一個小數據集都可以完全并行地進行處理。

在Hadoop中，每個MapReduce任務都被初始化為一個Job，每個Job又可以分為兩種階段：map階段和reduce階段。這兩個階段分別用兩個函數表示，即map函數和reduce函數。map函數接收一個形式的輸入，然后同樣產生一個形式的中間輸出，Hadoop函數接收一個如形式的輸入，然后對這個value集合進行處理，每個reduce產生0或1個輸出，reduce的輸出也是形式的。

下面以一個最簡單的例子說明：

單詞計數是最簡單也是最能體現MapReduce思想的程序之一，可以稱為MapReduce版"Hello World"，該程序的完整代碼可以在Hadoop安裝包的"src/examples"目錄下找到。單詞計數主要完成功能是：統計一系列文本文件中每個單詞出現的次數，如下圖所示。

package org.apache.hadoop.examples;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

　　public static class TokenizerMapper

　　　　　　extends Mapper {

　　　　　　private final static IntWritable one = new IntWritable(1);

　　　　　　private Text word = new Text();

　　　　　　public void map(Object key, Text value, Context context)

　　　　　　　　throws IOException, InterruptedException {

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 軟考之算法

下一篇 我的簡歷

分享到:

------分隔線----------------------------

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

通過簡單的Word Count講解MapReduce原理以及Java實現