您當前位置：首頁 > 互聯網 > 如何用亞馬遜彈性MapReduce分析大數據？

如何用亞馬遜彈性MapReduce分析大數據？

來源：程序員人生發布時間：2014-09-17 14:48:01 閱讀次數：2777次

Amazon Elastic MapReduce （EMR）是一個用于較強專業性應用程序開發的工具，其中包括日志分析、財務分析、營銷分析以及生物信息學等應用。它使用了開源框架Hadoop，以便于在一個亞馬遜EC2實例集群中分配你的數據。

訂閱“AWS中文技術社區”微信公眾號，實時掌握AWS技術及產品消息！

AWS中文技術社區為廣大開發者提供了一個Amazon Web Service技術交流平臺，推送AWS最新資訊、技術視頻、技術文檔、精彩技術博文等相關精彩內容，更有AWS社區專家與您直接溝通交流！快加入AWS中文技術社區，更快更好的了解AWS云計算技術。

　　而分析大數據的最佳方法就是使用一個運行在Hadoop上的開源數據倉庫和分析包――Hive。Hive的腳本程序使用的是一種類似于SQL的語言，他被稱為Hive QL。通過使用這種腳本程序，你就能夠避免用Java編寫MapReduce程序所帶來的復雜性。

　　以下的示例是基于一個亞馬遜EMR例子創建HIVE集群，它使用Apache Hive進行廣告相關性關聯。這個例子向你展示了用戶可以如何把客戶的點擊數據與特定廣告相關聯。

　　首先，打開Amazon Elastic MapReduce控制臺。然后點擊 Create Cluster ，在五個步驟中完成配置設置。

　　第一步，配置一個集群

　　在 Cluster name 字段中，輸入一個描述性的名稱。它可以是非唯一的。

　　在Termination protection 字段中，其默認值為Yes。這一設置可確保集群不會因為意外或錯誤而關閉。

　　在Logging 字段中，其默認值為Enabled。日志數據將被發送至亞馬遜S3。

　　在Log folder S3 location 字段中，請以如下格式輸入存儲桶名稱和文件夾信息：s3://<bucket name>/<folder>/。

　　在Debugging 字段中，其默認值為Enabled。

　　Tag 部分是可選的。你可以為你的EMR集群添加最多10個標簽。在一個標簽中，包括了一個區分大小寫的鍵值對。

　　第二步，設置軟件配置

　　在Hadoop distribution 多選框中，選擇Amazon 為默認值。

　　在 AMI version 多選框中，選擇 2.4.2 （Hadoop 1.0.3）

　　在Application to be installed 多選框中，保留選中Hive 和 deletePig。

　　第三步，設置硬件配置

　　在 Network 字段中，選擇Launch into EC-2 Classic。

　　在EC2 Subnet 字段中，選擇 No preference。

　　在Master、Core 以及 Task 字段中，默認EC2實例類型為m1.small。對于低工作負載的應用，你可以為所有節點選擇使用小實例（可確保降低你的使用成本）。相應地，Count 的默認值分別為1、 2、 0。同時，對于所有三個字段，確保不選中 Request Spot Instances 。

　　注意：20是每個AWS帳戶的最大節點數。如果你運行了2個集群，那么2個集群運行的節點總數必須為20或以下。如果你確實需要節點數超過20，那么你必須提交一個請求以便于提高你的亞馬遜EC2實例上限。

　　第四步，設置安全和訪問配置

　　在EC2 key pair 字段中，從列表中選擇一個亞馬遜EC2密鑰對。這一設置可以讓你使用Secure Shell（SSH）來連接主節點。

　　在IAM user access 字段中，其默認值為 No other IAM users。

　　在EC2 role 多選框中，其默認值為 no roles found。

　　在Bootstrap Actions 部分，你可以不做任何操作。

　　第五步，指定集群參數

　　在Steps 部分，從列表中選擇Hive Program，并點擊 Configure and add。

　　在Name 字段中，其默認值為Hive Program。

　　在 Script s3 Location 字段中（必選項），以BucketName/path/ScriptName的格式輸入相關信息，例如 s3n://elasticmapreduce/samples/hive-ads/libs/model-build。

　　在 Input s3 Location 字段中（可選項），以BucketName/path的格式輸入相關信息，例如 s3n://elasticmapreduce/samples/hive-ads/tables。該輸入值會作為名為INPUT的參數發送給Hive腳本程序。

　　Output S3 Location 字段（可選項），以BucketName/path的格式輸入相關信息，例如 s3n://myawsbucket/hive-ads/output/2014-4-14。該輸入值會作為名為OUTPUT的參數發送給Hive腳本程序。

　　在 Arguments 字段，輸入相關信息，如 - d LIBS=s3n://elasticreducemap/samples/hive-ads/libs。HIVE腳本程序需要額外的庫。

　　在 Action on Failure 字段中，選擇 Continue。如果當前步驟失敗，它將繼續至下一個步驟。

　　當你完成后，點擊Add，然后點擊Create Cluster。你將會看到Summary 信息。

　　如上例，在你繼續查詢操作和分析大數據前，你需要在主節點上準備一個HIVE會話。

　　你將需要每隔五分鐘向亞馬遜S3推送 Impression 和 Click Log Files。每次添加一個條目，就會向客戶顯示一條廣告。每次添加一個Click Log Files的條目，客戶一條廣告。類似于SQL的查詢操作簡化了關聯客戶點擊數據和特定廣告的過程。

　　總之，分析大數據的最佳方法就是在Hadoop上運行Hive，并使用SQL查詢以簡化日志數據分析。

原文鏈接：如何用亞馬遜彈性MapReduce分析大數據？

如您需要了解AWS最新資訊或是技術文檔可訪問AWS中文技術社區；如您有更多的疑問請在AWS技術論壇提出，稍后會有專家為您進行答疑。

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 揭秘騰訊大數據之平臺綜述篇

下一篇 《近匠》Mixtile：跑在盒子中的嵌入式平臺

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

如何用亞馬遜彈性MapReduce分析大數據？