开源网站访问计算系统Piwik的主旨使用

piwik简介

眼下试用了开源的网站访问计算种类——piwik,觉得功用卓殊有力,一点不输于商业产品百度计算与google
analysis,替代他们全然没有反常态。

有关piwik的简介可以去piwik的官网(http://piwik.org)查看,有详细的介绍和视频演示。之前codeweblog.com也有简单的介绍(http://www.codeweblog.com/p/piwik)。

以下是收集到的辨析数据效果图:

必发bifa88手机客服端 1

必发bifa88手机客服端 2

piwik安装

先是要求缓解正视项(http://piwik.org/docs/requirements/),ubuntu/debian使用下列命令安装所有依赖项(我用的是apache,别的webserver请替换成相应的软件包)

apt-get install apache2 mysql-server php5 php5-mysql php5-gd

如需定位访客的地理地方,参考官方文书档案:
http://piwik.org/docs/geo-locate/,
或许利用JS追踪的方法,通过JS代码获取访客的IP归属地。

设置进程参考官方文书档案(http://piwik.org/docs/installation),比较简单,就不详细介绍了。

布署好apache之后,通过浏览器访问,一步步配置实现之后,看到如下界面之后,就能够使用了:

必发bifa88手机客服端 3

必发bifa88手机客服端 4

必发bifa88手机客服端 5

piwik使用

刚装好的Piwik是一无所得的,此时大家须求这几个系统帮大家总计数据。

必发bifa88手机客服端,眼下Piwik扶助二种征集用户访问记录的点子: JS追踪访问日志追踪

JS追踪可定制型高,能够获获得用户的分辨率,浏览器插件等等,还足以捕获自定义变量。做客日志追踪(如apache的accesslog)能够追踪到用户的失实请求(如40X错误,有助于捕获到黑心用户和爬虫,蜘蛛等等),时下那三种追踪得到的数据还不扶助合并

那三种追踪方式的详细优缺点能够参照官方的那篇文书档案:
http://piwik.org/faq/log-analytics-tool/faq\_16305/

JS追踪

管理设置-网站-右边即可看到"显示跟踪代码",如下图所示:

必发bifa88手机客服端 6

将此代码复制到web项目标footer中即可(即怀有页面都放到那段同样的js代码,用于捕获用户的音信,如分辨率,浏览器UA,IP等),还足以服从官方文书档案,捕获自定义变量。

参照官方文书档案的支援,那里不再赘述:
http://piwik.org/docs/javascript-tracking/

log追踪

log追踪无需修改web项目,不过必需求有记名服务器并读取accesslog的权位。

log追踪的事无巨细用法参考官方文档: http://piwik.org/faq/log-analytics-tool/,
https://piwik.org/log-analytics/

log追踪的进程是分析webserver的accesslog,然后经过piwik的API上传,最后在piwik页面上展现。

本条进度不用本人去落到实处了,piwik的压缩包中早已包罗3个python脚本能够补助大家完毕那么些工作了,该脚本存款和储蓄于piwik目录下的misc/log-analytics/import_logs.py

将以此本子远程拷贝到指标服务器上,依据剧本的参数格式执行即可,笔者的命令行:

    ./import_logs.py --url=http://192.168.1.106/piwik/ --idsite=1 --recorders=2 --token-auth=319fb461d3225905039551e861edde60 --enable-static --enable-bots --enable-http-errors --enable-http-redirects /var/log/apache2/access.log

使用--help参数即可看到这些本子的命令行,只有1个--url参数是必须的,指明piwik的走访路径。详细帮衬参见官方文书档案(https://piwik.org/docs/log-analytics-tool-how-to/),这里对我使用的参数做一下简介:

--idsite标志抓取到的消息上传到哪个序号对应的网站(那里的参数为1,代表分析的数据会总计到first_web那一个网站中)

--token-auth其一参数是组织者的走访token,在系统页面最顶上的API点开即可知到,如下图所示。那些参数能够动用--login=LOGIN --password=PASSWORD这多个参数替代,必须是组织者的账户和密码。

必发bifa88手机客服端 7

--recorders选拔十六线程解析,暗许为1,官方提出这些参数和着力数相同。

--enable-static --enable-bots --enable-http-errors那八个参数基本上把apache的accesslog能抓取到的上上下下新闻都抓全了,抓取静态财富(jpg,png,js,css等非html的拜访),抓取bots(不明了这几个是什么,臆度是或不是是机器人?),抓取html错误码(如40X请求等等)

/var/log/apache2/access.logapache的accesslog存放路径,常见的webserver如nginx,lighthttpd等,脚本自带有解析引擎,无需其他参数,假诺那二个见webserver的话,加上--log-format-regex这一个参数来自定义日志格式抓取。

当脚本实施实现时,即可在piwik中阅览网站的走访记录了,使用也很有益。长期使用能够写入crontab即可。

注意:

  • log解析的章程追踪相比慢,不相符实时追踪用户访问记录,提议每过哪天辰实施三遍crontab,来定时解析log。
  • 假设翻开了--enable-static --enable-bots --enable-http-errors那八个参数,解析进度将会很缓慢(小编那边大约十几条每秒),不要让crontab太频仍,会直接让mysql数据库超出连接而挂掉,笔者是每4钟头实施2回crontab。

别的部分题材

1,log追踪和js追踪的法子互有优势,都足以抓到一些对方所不可能获得的音讯,不过近日那三种方法追踪到的数码还不援助合并,由此,须要同时选拔那二种艺术追踪时,提议分开多少个分歧的网站追踪不一样的多少,如first_web用于JS追踪,first_web(log)用于log追踪。参见官方FAQ:
http://piwik.org/faq/log-analytics-tool/faq\_16307/

2,当访问量较高时,请关闭Piwik触发处理,已压实页面响应,刷新报表数量由后台crontab执行,参考如下图所示,crontab的装置见右侧的提示中的官方文书档案:

必发bifa88手机客服端 8

3,自动邮件的岁月有个别难题,piwik内部时间利用的是UTC时光,也正是中夏族民共和国时区(CST,东八区)比UTC时区的光阴快几个钟头。假设采用暗许的邮件发送时间0点发送,将会接收前几日的造访记录报表(中华夏族民共和国大运0点对应UTC时间今天的16点,那么此时发前天的报表就会吸收接纳前日的告诉)。

本条题目一度给官方提过issue,不过官方还没有答应本人:
http://forum.piwik.org/read.php?2,111809

权且的方案是把时光改到8点过后,就足以收起符合规律的邮件报表。

相关文章