基于Hadoop的Map reduce编程(一) - 编程入门网

作者佚名技术来源 NET编程浏览发布时间 2012-06-15

i++) { List elementList = (ArrayList)list.get(i); new StartThread(elementList).start(); } 　　　　try 　　　　{ Thread.currentThread().sleep(1000); }catch(Exception e) { } return intermediateresults; } public void step3RunReduceFunctionForAllBuckets(List list) { int sum =0; for(int i=0; i< list.size(); i++) { //you can do some processing here, like finding max of all results etc int t = Integer.parseInt((String)list.get(i)); sum += t; } System.out.println(); System.out.println("Total Count is "+ sum); System.out.println(); } class StartThread extends Thread { private List tempList = new ArrayList(); public StartThread(List list) { tempList = list; } public void run() { for(int i=0; i< tempList.size();i++) { String str = (String)tempList.get(i); synchronized(this) 　　　　　　　　　　 { intermediateresults.add(new Integer(str.length()).toString()); } } } } }

init()方法创建了一些测试数据，作为测试数据。实际应用中会是海量数据处理。

step1ConvertIntoBuckets()方法将测试数据拆分到5个 bucket中，每个bucket是一个ArrayList(包含6个String数据)。bucket可以保存在内存，磁盘，或者集群中的其他节点；

step2RunMapFunctionForAllBuckets()方法创建了5个线程(每个bucket一个)，每个线程StartThread处理每个bucket并把处理结果放在intermediateresults这个arraylist中。

如果bucket分配给不同的节点处理，必须有一个master主控节点监控各个节点的计算，汇总各个节点的处理结果，若有节点失败，master必须能够分配计算任务给其他节点计算。

step3RunReduceFunctionForAllBuckets()方法加载intermediateresults中间处理结果，并进行汇总处理，最后得到最终的计算结果。

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

上一页 1 2

分享到：更多

你可能对下面的文章感兴趣

上一篇: spring框架使用任务调度quartz的例子-TriggerListener篇 - 编程入门网下一篇: eclipse下使用泛型遇到问题解决办法 - 编程入门网

关于基于Hadoop的Map reduce编程(一) - 编程入门网的所有评论

随机推荐