1700502160
数据挖掘与数据化运营实战:思路、方法、技巧与应用 13.1 网络日志和布点[1]
1700502161
1700502162
互联网与传统行业在数据上有一个很重要的不同点,即互联网具有相关的日志体系。用户在网上进行浏览时的每一步都会被记录下来,从而形成了海量的日志数据。
1700502163
1700502164
互联网日志的数据体系分为日志布点、日志采集、日志解析和日志分析4个部分。下面分别进行简单的介绍。
1700502165
1700502167
13.1.1 日志布点
1700502168
1700502169
日志布点是指在页面上安排记录关键用户行为的一段小程序,用户按照预设规则对网页进行访问的时候,布点的规则程序就会将用户相关的数据发送到一个指定的服务器,从而达到日志采集的目的。根据采集数据的目的不同,日志布点主要可以分为以下3类(鉴于在互联网各公司中日志布点有不同的名称,在此以中文含义进行解析):
1700502170
1700502171
❑页面级布点。页面级布点的应用范围最广,也是所有日志分析的基础,对于一个成熟的网站来说,该类布点会覆盖网站的所有页面。其内容通常包括:IP地址、用户名、Cookie相关信息及浏览器类型等。
1700502172
1700502173
❑点击级布点。这类日志布点通常会在用户点击某个链接、按钮、筛选框等特定事件时被触发。其所记录的内容和页面级布点相比也稍微有些不同,该布点会更加关注点击按钮的区域、点击的方式等。
1700502174
1700502175
❑追踪日志布点。当某一个特定的页面有很多来源时,为了清楚地区分不同的来源,就需要用到追踪日志布点。举例来说,到达订购页面的用户,可以有多个来源,有的是来自首页上方的订购链接,有的是即时通信浮起所带来的,有的来自另外一个专题运营页面等,所有这些不同来源的用户都到达了同一个订购页面,在这种情况下,追踪日志布点就可以发挥作用了,它可以有效区分不同来源的明细。
1700502176
1700502177
[1]本节内容由阿里巴巴B2B的数据仓库专家蒿亮编写,蒿亮的微博地址为:http://weibo.com/airjam,E-mail:airjam.hao@gmail.com。
1700502178
1700502179
1700502180
1700502181
1700502183
数据挖掘与数据化运营实战:思路、方法、技巧与应用 13.1.2 日志采集
1700502184
1700502185
进行日志采集时通常会设定专门的日志采集服务器,主要目的是大流量多线程地将日志记录下来。
1700502186
1700502187
1700502188
1700502189
1700502191
数据挖掘与数据化运营实战:思路、方法、技巧与应用 13.1.3 日志解析
1700502192
1700502193
由于日志数据是不同于通常数据源的非结构化数据,其主要目的是提高读写效率,因此日志解析的目的就是将非结构化数据转化成为结构化数据。
1700502194
1700502195
1700502196
1700502197
1700502199
数据挖掘与数据化运营实战:思路、方法、技巧与应用 13.1.4 日志分析
1700502200
1700502201
日志分析的主要内容包括日常流量监控(PV,UV)、来源去向分析及路径分析等。
1700502202
1700502203
本章接下来要具体讨论的,就是针对日志数据进行的路径分析,其包括来源去向分析,当然其中的原理也会用于日常流量监控中。
1700502204
1700502205
1700502206
1700502207
1700502209
数据挖掘与数据化运营实战:思路、方法、技巧与应用 13.2 漏斗模型与路径分析的主要区别和联系
[
上一页 ]
[ :1.70050216e+09 ]
[
下一页 ]