双子星访问日志数据指南

双子星的日志数据分析服务是基于The Webalizer的,一个功能强大而又简单易用的Open Source服务器端访问日志分析软件,本文将逐项解释分析页面上的各项数据。

进入日志数据分析页面之后,大家首先看到的是一年12个月的访问量柱状图,以及查看每个月份具体数据的链接。点击某个具体月份之后就能够看到一个详细的数据页面。以下是各项数据的意义:

  • 1. 点击

    任何一个访问网站服务器的请求,被日志软件记录下来,称为一个"点击"。这些请求可以是关于任何东西,包括HTML页面,图片,视频文件,MP3文件,等等。事实上服务器日志里面的每一行记录都被认为是一个"hit"。这个数字代表在某一个特定的日志区间(一个小时,一天,或者一个月)内服务器接受到的访问请求总量。

  • 2. 文件

    接受到的所有请求里面,有一些请求会让服务器发送某些数据到客户端,比如一个HTML页面,或者一幅图片,等等。每一个产生了发送文件的请求将被日志软件记录为一个"文件"。

    "点击"和"文件"两个数据通常会不一样,这是因为并非所有的"点击"都会产生回传数据,比如对一个不存在的页面的访问请求(就是大家通常见到的HTTP 404 Not Found Error),或者访问一个以前曾经被访问过而被存在客户端浏览器缓存(cache)里面的页面。这些请求会让"点击"计数器增加,却不会对"文件"计数器产生任何影响。由此可见,"点击"和"文件"两个数据之间的关系可以被认为近似于"服务器接受到的请求"(incoming requests)和"服务器作出过的回应"(outgoing responses)。

    小窍门: 观察"点击"和"文件"两个数据的差值,你可以大致估算重复访问者(访问你的次数超过两次)的数量。这两个数据的差别越大,那么恭喜!说明你的站点有越多的"回头客"!因为这表示有更多的人在访问他们以前曾经访问过的,被存在客户端缓存(cache)里面的页面。

  • 3. 页面

    页面就是...页面!通常来说,任何HTML文档都会被认为是一个"页面"。这并不包括页面上的其它东西,比如图片,视频,声音文件,等等。这个数据仅仅代表被访客访问过的页面数量, 而并不包括任何其它东西。一般而言,服务器日志软件会将所有带有".htm", ".html",".cgi",".php"后缀名的文件视为页面。我们也许可以将这个数字解读为"页面访问量"(page view)。

  • 4. 访客

    每一个发送到双子星服务器的请求都来自某个IP地址。当服务器日志软件记录到一个来自某个IP地址的访问请求时,它将去检查从这个IP地址发出的最近两次访问请求之间的时间差,如果这个时间差大于某个给定的"访问间隔"(visit timeout),那么最近的这次访问将被视为一次"新的访问"(new visit),同时"访客"计数器亦会加一。缺省的"访问间隔"是30分钟。所以假设一个访客在1:00 PM访问你的网站,然后他在3:00 PM再度访问你的网站,你的"访客"计数器将会增加两次:在1:00 PM加一,然后在3:00 PM再加一。而假设另外一个访客在1:00 PM访问你的网站,然后在1:15 PM再度访问你的网站,那么你的"Visits"计数器只会在1:00 PM增加一次。

  • 5. 站点

    每一个发送到服务器的请求都来自一个特定的"站点"(实际上就是一个特定的IP地址)。站点数据表示在某一段日志区间里面,一共曾经有多少个唯一的IP地址向服务器发出过访问请求。注意:因为一个访客可以从好几个不同的IP地址多次访问同一个网站,所以这个数据并不能精确表示曾经有多少个访客访问过你的网站!不过你可以笼统地认为两者相差不大。

  • 6. 千字节KB

    KB数据表示在某一段日志区间里面,一共有多少数据从服务器发送出去。通常来讲,这个数据能够比较准确地表示服务器传出[也就是网站下行数据量]的数据量。(注意:一个KB是指1024 bytes,而不是1000 bytes.)

  • 7.总进入[退出]页面数

    当别人访问你的网站,他们一般会从哪个页面开始看起?又一般会在看完哪个页面之后结束访问?这两个数据将给出一个笼统的估计。因为受到HTTP协议及其它一些因素的制约,这两个数据只能被认为是一个粗略的估算。实际上,进入页面可以被视为在某次访问(访客)里面来自访问者(站点)的第一个请求(点击),而退出页面可以被视为在同一次访问里面同一个访问者发送给服务器的最后一个请求(点击)。

  • 8. URL

    所有发送给服务器的访问请求都将请求某一样特定的服务器资源,比如一个HTML页面,一张图片,一个音乐文件,等等。这些资源均通过URL - Uniform Resource Locator - 来定位。

  • 9. 引用者

    简单地讲,“引用者”就是指那些将访客指引到你的网站上面来的来源网站。

    举例: 对我的日志而言(注意: 数据可能已经更新过了),大部份的访问者都是直接访问(通过浏览器的书签"Bookmark",或者直接输入URL),随后的两档则是通过不同的搜索引擎(Baidu和Google)。

  • 10. 搜索字符串

    一般可以被视为别人通过搜索引擎(Search Engine,比如Google)查找到你的网站时候所使用的检索关键词(search strings)。

    注意: 如果您看到的搜索字符串为乱码,请尝试指定UTF-8编码来刷新统计页面。

  • 11. 浏览器

    指访客使用的浏览器类型,比如MS IE, Netscape, FireFox, Opera, Konqueror, 等等。

  • 13. 响应码

    由HTTP/1.1协议定义的服务器回传状态代码。这些数据均由服务器生成,表示每一个访问请求的完成状态。具体定义请参考RFC2616。

  • 14. 参考文档

    [1] http://www.mrunix.net/webalizer/

    [2] http://hosting.iptcom.net/FAQ/webalizer.html

  • 作者及版权声明

    感谢Rick的辛勤劳动,使得我们可以有webalizer的中文版本,(http://rickz.yculblog.com)

  • 发布评论

    • 连接将被自动转换为可点击的形式
    • 可以使用以下HTML标签: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <img>
    • 自动换行

    编辑格式帮助手册