快速业务通道

使用Linux 和Hadoop 进行分布式计算

作者 佚名技术 来源 Linux系统 浏览 发布时间 2012-05-11
十分有用.但是,现在假设有两个输入域,第一个是 one small step for man,第二个是 one giant leap for mankind.您可以在每个域上执行 Map 函数和 Reduce 函数,然后将这两个键/值对列表应用到另一个 Reduce 函数,这时得到与前面一样的结果.换句话说,可以在输入域并行使用相同的操作,得到的结果是一样的,但速度更快.这便是 MapReduce 的威力;它的并行功能可在任意数量的系统上使用.图 2 以区段和迭代的形式演示这种思想.

图 2. MapReduce 流程的概念流

MapReduce 流程的概念流

现在回到 Hadoop 上,它是如何实现这个功能的?一个代表客户机在单个主系统上启动的 MapReduce 应用程序称为 JobTracker.类似于 NameNode,它是 Hadoop 集群中惟一负责控制 MapReduce 应用程序的系统.在应用程序提交之后,将提供包含在 HDFS 中的输入和输出目录.JobTracker 使用文件块信息(物理量和位置)确定如何创建其他 TaskTracker 从属任务.MapReduce 应用程序被复制到每个出现输入文件块的节点.将为特定节点上的每个文件块创建一个惟一的从属任务.每个 TaskTracker 将状态和完成信息报告给 JobTracker.图 3 显示一个示例集群中的工作分布.

图 3. 显示处理和存储的物理分布的 Hadoop 集群

显示处理和存储的物理分布的 Hadoop 集群

Hadoop 的这个特点非常重要,它并没有将存储移动到某个位置以供处理,而是将处理移动到存储.这通过根据集群中的节点数调节处理,因此支持高效的数据处理.

Hadoop 的其他应用程序

Hadoop 是一个用于开发分布式应用程序的多功能框架;从不同的角度看待问题是充分利用 Hadoop 的好方法.回顾一下 图 2,那个流程以阶梯函数的形式出现,其中一个组件使用另一个组件的结果.当然,它不是万能的开发工具,但如果碰到的问题属于这种情况,那么可以选择使用 Hadoop.

Hadoop 一直帮助解决各种问题,包括超大型数据集的排序和大文件的搜索.它还是各种搜索引擎的核心,比如 Amazon 的 A9 和用于查找酒信息的 Able Grape 垂直搜索引擎.Hadoop Wiki 提供了一个包含大量应用程序和公司的列表,这些应用程序和公司通过各种方式使用 Hadoop(参见 参考资料).

当前,Yahoo! 拥有最大的 Hadoop Linux 生产架构,共由 10,000 多个内核组成,有超过 5PB 字节的储存分布到各个 DataNode.在它们的 Web 索引内部差不多有一万亿个链接.不过您可能不需要那么大型的系统,如果是这样的话,您可以使用 Amazon Elastic Compute Cloud (EC2) 构建一个包含 20 个节点的虚拟集群.事实上,纽约时报 使用 Hadoop 和 EC2 在 36 个小时内将 4TB 的 TIFF 图像 — 包括 405K 大 TIFF 图像,3.3M SGML 文章和 405K XML 文件 — 转换为 800K 适合在 Web 上使用的 PNG 图像.这种处理称为云计算,它是一种展示 Hadoop 的威力的独特方式.

结束语

毫无疑问,Hadoop 正在变得越来越强大.从使用它的应用程序看,它的前途是光明的.您可以从 参考资料 小节更多地了解 Hadoop 及其应用程序,包括设置您自己的 Hadoop 集群的建议.


凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!

分享到: 更多

Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved

地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008

电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134

《中华人民共和国增值电信业务经营许可证》闽B2-20100024  ICP备案:闽ICP备05037997号