日志分析方法概述

作者佚名技术来源 NET编程浏览发布时间 2012-05-23

接口。单从这点看来，使用这些数据库的价值已经降低很多了。

　　所以，还是先现实一点，先退一步考虑如何解决的超大规模的日志的分析问题，而不是想如何让它变的像在小数据规模时那样简单。单单想做到这点，目前看来并不是太难，并且依然有免费的午餐可以吃。

　　Hadoop是伟大的Apache基金会下面的一套分布式系统，包括分布式文件系统(HDFS)、MapReduce计算框架、HBase等很多组件——这些基本都是Google的GFS/MapReduce/BigTable的克隆产品。

　　Hadoop经过数年的发展，目前已经很成熟了，尤其是其中的HDFS和MapReduce计算框架组件。数百台机器的集群已经被证明可以使用，可以承担PB级别的数据。

　　Hadoop项目中的HBase是一个按列存储的NoSQL分布式数据库，它提供的功能和接口都非常简单，只能进行简单的K-V查询，因此并不直接适用于大多数日志分析应用。所以一般使用Hadoop来做日志分析，首先还是需要将日志存储在HDFS中，然后再使用它提供的MapReduce API编写日志分析程序。

　　MapReduce是一种分布式编程模型，并不难学习，但是很显然使用它来处理日志的代价依然远大于单机脚本或者SQL。一个简单的词频统计计算可能都需要上百代码——SQL只需要一行，另外还有复杂的环境准备和启动脚本。

　　例如同样还是上面的例子，实现就要复杂的多，通常需要两轮MapReduce来完成。首先要在第一轮的mapper中计算部分ip的访问次数之和，并以ip为key输出：

　　//遍历输入，并聚合结果

　　foreach(record in input) {

　　ip = record.ip;

　　dict[ip]++;

　　}

　　//用emit输出，第一个参数为key，用于reduce的分发

　　foreach( in dict) {

　　emit(ip, count);

　　}

　　然后在第一轮的reduce中就可以得到每个ip完整的计数，可以顺便排个序，并且只保留前100个。

　　count = 0;

　　//对于每个key(ip),遍历所有的values(count)，并累加

　　while(input.values.hasNext()) {

　　count += input.values.next();

　　}

　　//插入到大小为100的堆中

　　heap_insert(input.key, count);

　　在reduce结束的时候输出：

　　//输出当前reduce中count最高的100个ip

　　foreach( in dict) {

　　emit(ip, count);

　　}

　　由于reduce一般会有很多个，所以最后还需要将所有reduce的输出进行合并、再排序，并得到最终的前100个IP以及对应的访问量。

　　所以，使用Hadoop来做日志分析很显然不是一件简单事情，它带来了很多的额外的学习和运维成本，但是至少，它让超大规模的日志分析变成了可能。

　　怎样变得更简单

　　在超大规模的数据上做任何事情都不是一件容易的事情，包括日志分析，但也并不是说分布式的日志分析就一定要去写MapReduce代码，总是可以去做进一步的抽象，在特定的应用下让事情变得更简单。

　　也许有人会很自然的想到如果能用SQL来操作Hadoop上的数据该有多好。事实上，不仅仅只有你一个人会这么想，很多人都这么想，并且他们实现了这个想法，于是就有了Hive。

　　Hive现在也是Hadoop项目下面的一个子项目，它可以让我们用SQL的接口来执行MapReduce，甚至提供了JDBC和ODBC的接口。有了这个之后，Hadoop基本上被包装成一个数据库。当然实际上Hive的SQL最终还是被翻译成了MapReduce代码来执行，因此即使最简单的SQL可能也要执行好几十秒。幸好在通常的离线日志分析中，这个时间还是可以接受的。更重要的是，对于上面提到的例子，我们又可以用一样的SQL来完成分析任务了。

　　当然Hive并不是完全的兼容SQL语法，而且也不能做到完全的对用户屏蔽细节。很多时候为了执行性能的优化，依然需要用户去了解一些Map

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

分享到：更多

你可能对下面的文章感兴趣

上一篇: 10个PHP分页技术的代码和示例下一篇: PHP获取文件夹列表，文件列表

关于日志分析方法概述的所有评论

随机推荐