打字猴:1.700505171e+09
1700505171 图4-23 舰船上的航海日志和Nginx服务器上的访问日志
1700505172
1700505173
1700505174
1700505175
1700505176 图4-24 购物记录和婴儿出生记录
1700505177
1700505178 第一,把这些日志记录以计算机可以识别的方式存储起来。例如,我们通过人工录入、扫描、OCR识别等多种方式,把原本的纸质记录信息、口述的信息等存储到磁盘上。
1700505179
1700505180 第二,把已经转化为数字记录的信息转换成计算机可以直接计算的独立的字段信息。通常在这个环节我们会把数据录入数据库或数据仓库中。
1700505181
1700505182 当然,也可以合二为一,一步到位,把信息转入数据库或数据仓库,这个环节称为ETL (Extract-Transform-Load,也指数据库之间的数据变形与传递工作等)。那么,下一步就是利用数据库或者数据仓库为使用者提供的各种API进行统计计算了。
1700505183
1700505184 与数据库通常用来做OLTP(On-line Transaction Processing)工作不同,专业的数据仓库通常用来做OLAP(On-line Analytical Processing)工作。所谓OLAP就是我们平时所说的“数据分析处理”,一般侧重于多维度分析计算,对大量数据处理及数据挖掘操作都有特殊的场景优化。比较专业的数据仓库产品有Teradata、Greenplum、Hive、Oracle等,它们对外都提供了非常专业的API和分析请求语言接口。
1700505185
1700505186 工具的好处就是能抽象出不同应用场景的共同需求,这些数据仓库也不例外。数据仓库除了能在各个产业或业务的应用场景中承载数据收纳与计算的功能,大多配备了专业的数据挖掘组件功能,或者包括建模、分析、可视化功能在内的行业解决方案模板,这样就让各个行业的使用者在应用的过程中通过尽可能少的工作量来完成大部分的分析应用(如图4-25所示)。
1700505187
1700505188
1700505189
1700505190
1700505191 图4-25 OracIe BIEE Dashboard
1700505192
1700505193 无论怎么变化,这些工作无非是在做各种“日志”的统计工作,包括求和、求平均值、求最大值、求最小值、求方差、求比例,求一天、一个月、一个季度、一年的统计值,以及多维度同比和环比。一般来说,无论是对企业,还是对医院、学校、机关单位这样的机构,这些功能已经能够完成日常统计需求中80%以上的工作了。对于这些日志在更深层面所蕴含的丰富信息,以及它们彼此之间的关系,可以继续通过一系列数据挖掘算法找到——即使将这个环节算作广义的统计也未尝不可。怎么称呼这个技术环节并不重要,重要的是我们从中获取了哪些有价值的信息。
1700505194
1700505195 数据科学家养成手册 [:1700503516]
1700505196 4.2.3 指标
1700505197
1700505198 指标是人们在生产生活中极为常见的一个数据类别。尤其是在工作中,我们会经常见到各种各样用于度量工作效率及质量的指标,例如人们常说的KPI(Key Performance Indicator,关键绩效指标)。
1700505199
1700505200 一般来说,指标是一系列数据经过综合计算的统计值。为什么要使用统计值?统计值的好处显而易见——当大量纷繁的数字出现在阅读者面前的时候,阅读者会非常容易失去焦点,而且阅读大量的数据也需要消耗极高的人工成本。人们在千百年的生产实践中已经潜移默化地养成了使用指标或者统计值来描述宏观事物的习惯,这几乎是一种自然发展的结果。
1700505201
1700505202 在前面人口普查的例子中我们已经知道,西汉时期人们就开始对人口数量进行普查和统计,并把这些数字汇总。这就是一种指标——人口数量。这种单一的数字描述代替了对个体的列举描述,不仅简洁,而且抽象出了统计人员最为关心的维度——数量。
1700505203
1700505204 世界卫生组织(WHO)一直以来都致力于关心与提高人类的健康水平。那么,全球几十亿人口,究竟应该如何评价健康水平的状况与进步与否呢?平均寿命是一个非常重要的指标。营养健康问题及恶性疾病——这些是在和平时期对人类寿命影响最重大的因素。世界卫生组织的日常工作就是指导和协调国际卫生工作,提供技术援助,消灭流行病,促进并指导生物医学研究工作,以及制定和发展食品卫生、生物制品、药品的国际标准等。
1700505205
1700505206 这些工作的成效怎么衡量呢?怎样评价这些工作的成果和进展呢?观察人口平均寿命这个指标就能解决大多数问题。而且,对于有针对性服务或研究的国家,这个指标关注的就不是全球的人口平均寿命了,而是这个国家的人口平均寿命。如果在长期工作中人口平均寿命得到了逐步且明显的提高,则说明工作成效较好;反之,如果在长期工作中人口平均寿命提高的幅度不理想,则说明工作的方法可能存在问题,这时就可以用一些辅助指标来协助判断,查找原因。对全国人口平均寿命这个指标进行分解,也能发现分布规律并找到一些原因。
1700505207
1700505208 例如,全国人口平均寿命从性别上可以分为“男性平均寿命”和“女性平均寿命”的组合。
1700505209
1700505210 全国人口平均寿命=男性平均寿命×男性人口比例+女性平均寿命×女性人口比例
1700505211
1700505212 全国人口寿命在“男性平均寿命”和“女性平均寿命”上的体现很可能是不一样的。请注意,在数据分析中,分析人员通常会对这种“不一样”的情形更感兴趣,因为这种“不一样”更有可能引导我们找出导致结果的真正原因。
1700505213
1700505214 我们的校园生活中也有这样的事情。不论大考小考,尤其是像模拟考试这种重磅的考试结束后,老师都要做试卷分析。如果一个班级多门课的平均分是80分,那么最吸引老师眼球的一定不是得80分的学生,而是那些得到90多分甚至100分的学生和得到60多分甚至不及格的学生。让得到90多分甚至100分的学生分享经验,给只得到60多分甚至不及格的学生好好补课,通常被认为是两种最有效的改进方式。
1700505215
1700505216 这种从研究聚合指标深入到研究组成它的独立指标的过程,我们称为“下钻”(Drill Down)。下钻分析在商务智能中应用非常广泛,很多的指标都可以根据同比和环比数据对公司运营和工厂生产情况进行监控。例如,在炼油厂会有“吨油冶炼成本”这种用于监控成本的指标,在互联网企业会有“日活人数”(Daily Active User,DAU)这种用于监控活跃用户数量的指标,在铁路交通部门会有“10亿吨千米事故率”这种用于监控安全状况的指标等。这些指标能在很大程度上帮助运营人员化繁为简,集中精力,快速发现问题。对各行各业、各种对象的信息,只要合理量化,就能建立合理的指标系统并进行日常运营监控,这才是指标系统的意义。
1700505217
1700505218
1700505219
1700505220
[ 上一页 ]  [ :1.700505171e+09 ]  [ 下一页 ]