用PHP使Web数据分析进入更高境界

作者佚名技术来源 NET编程浏览发布时间 2012-05-22

顺序的数据，您可以计数和排序，但不能测量。

定类尺度（nominal）— 衡量标准的定类尺度是衡量标准中最弱的一种形式，主要指将项目分配给组或类别。这种测量不带数量信息，并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。
下表对比了每种衡量标准的特征：

衡量标准尺度属性具有绝对的数字含义吗？能执行大多数数学运算吗？
定比尺度是。是。
定距尺度对于定距尺度是这样；零点是任意的。加和减。
定序尺度不是。计数和排序。
定类尺度不是。只能计数。

在本文中，我将主要讨论通过使用测量的定类尺度收集的数据，以及适用于定类数据的推论技术。

使用定类尺度

几乎所有 Web 用户 — 设计人员、客户和系统管理员 — 都熟悉定类尺度。Web 民意测验和访问日志类似，因为它们常常使用定类尺度作为衡量标准。在 Web 民意测验中，用户常常通过请求人们选择回答选项（如“您偏爱品牌 A、品牌 B，还是品牌 C？”）来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。

类似的，测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天，然后对每一天出现的点击或访问的数目计数。另外，您可以（也确实可以）通过浏览器类型、操作系统类型和访问者所在的国家或地区 — 以及任何您想得到的分类尺度 — 对点击计数。

因为 Web 民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数，所以可以用相似的无参数统计检验（允许您根据分布形状而不是总体参数作出推论的检验）来分析它们。

David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一书（第 19 页, 1997）中，是这样区分参数检验和非参数检验的：

本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。作为通用规则，评估类别／定类尺度数据和顺序／等级-顺序数据的推论统计检验被归类为非参数检验，而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。

当作为参数检验基础的某些假设值得怀疑时，非参数检验也很有用；当不满足参数假设时，非参数检验在检测总体差异时有很大的作用。对于 Web 民意测验的示例，我使用了非参数分析过程，因为 Web 民意测验通常使用定类尺度来记录投票者的偏好。

我并不是在建议 Web 民意测验和 Web 访问统计信息应该始终使用定类尺度衡量标准，或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有（譬如）这样的民意测验和调查，它们要求用户对每个选项提供数值评分（从 1 到 100），对此，参数性的统计检验就比较合适。

尽管如此，许多 Web 数据流包括编辑类别计数数据，而且通过定义定距尺度（譬如从 17 到 21）并将每个数据点分配给一个定距尺度（如“年轻人”），可以将这些数据（通过使用功能更强大的衡量标准测量）变成定类尺度数据。频率数据的普遍存在（已经是 Web 开发人员经验的一部分），使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。

为了使本文保持合理的篇幅，我将把对 Web 数据流分析的讨论局限于 Web 民意测验。但是请记住，许多 Web 数据流都可以用定类计数数据表示，而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。

从抽样开始

假设您在您的站点 www·NovaScotiaBeerDrinkers.com 上进行每周一次的民意测验，询问成员对各种主题的意见。您已经创建了一个民意测验，询问成员喜爱的啤酒品牌（在加拿大新斯科舍省（Nova Scotia）有三种知名的啤酒品牌：Keiths、Olands 和 Schooner）。为了使调查尽可能范围广泛，您在回答中

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

上一页 1 2 3 4 5 6 7 8 下一页

分享到：更多

你可能对下面的文章感兴趣

上一篇: Windows环境下PHP配置详解下一篇: php+xapian extension的安装

关于用PHP使Web数据分析进入更高境界的所有评论

随机推荐