打字猴:1.700509627e+09
1700509627
1700509628
1700509629
1700509630 数据科学家养成手册 [:1700503633]
1700509631 数据科学家养成手册 第14章 数据统计
1700509632
1700509633 将数据收集到数据库或者数据仓库中以后,就可以进行统计和分析了。
1700509634
1700509635 统计的目的就是将大量离散的数据经过统计计算,形成集中性的指标或者粗粒度单位。统计是在海量数据分析之前必须要做的一步工作。从本身的目的来说,统计将大量复杂的数据个体宏观特征化,简化了数据解读者对认知对象的了解过程。换句话说,数据统计的意义主要在于数据画像,节约阅读时间。
1700509636
1700509637
1700509638
1700509639
1700509640 数据科学家养成手册 [:1700503634]
1700509641 数据科学家养成手册 14.1 此“统计”恐非彼“统计”
1700509642
1700509643 说到“统计”,很容易让我们想到在学校里学习的“统计学”课程内容,只是因为统计任务已经被规约成任务单一的指标计算或同比和环比计算,所以我们在日常运营工作中用到的统计知识相对比较简单。而且,在全样本统计成本越来越低的情况下,通常不会用到太多高级统计学中有关从抽样误差反推到全样本误差的知识。不过,这仍然是统计,所以我们在统计学中需要注意的问题,在这里也一样需要注意。
1700509644
1700509645 既然数据统计的意义主要在于用数据为认知对象画像,那么数量统计、数值加和、数值平均、方差、同比、环比等就成了绝大多数单位在运营过程中所需的基本数据资源。在这样的情况下,我们就把这种一般性的“操作”当成“统计”来介绍,把“高级技巧”放在后面作为分析的内容来讲解。
1700509646
1700509647 据我所知,现在很多人都有这样的误解:在数据库里使用AVG、SUM、COUNT这样的语句进行统计是一件档次很低的事情,因为操作太简单,有一点SQL语言基础的人都能做到。但我并不这么看。统计通常用于把认知对象的维度从低变高,从高变低,从简易变得复合,从复合变得简易。这种认知维度升降中的变化,可以帮助认知对象在观测过程中处于复杂度适中的状态,从而为人们进行认知与归纳总结提供便利。
1700509648
1700509649 我们先说降维认知。当数据处于高维状态的时候,我们一般喜欢把它们降维到适当的状态来认知。数据挖掘领域使用的“数据立方体”(Data Cube,如图14-1所示)就是一种降维认知手段。在描述一个维度极为丰富的高维数据记录组(例如销售记录)的时候,这种记录可能会包含销售时间、销售地点、销售类目、销售金额、销售数量、折扣率、售货人员等各种维度的信息,而且会有数以百万计的数据记录量。假设有m个维度和n条销售记录,那么这些数据会形成一个m×n的巨型矩阵。但是,销售额是一个对加和值敏感的数据种类,在使用
1700509650
1700509651
1700509652
1700509653
1700509654 图14-1 数据立方体
1700509655
1700509656 SELECT SUM(XXX)GROUP BY XXX
1700509657
1700509658 之后,就会忽略一些我们不那么关心的维度数据,并将一个确定的加和值返回,从而代替数以万计的具体销售记录。这种就是典型的降维认知——只关注最为关键的数据维度,只关注一个统计值而非单个个体值。
1700509659
1700509660 除了降维认知以外,升维认知(如图14-2所示)的使用也很广泛。
1700509661
1700509662
1700509663
1700509664
1700509665 图14-2 升维认知
1700509666
1700509667 在表示股价或期货价格的K线图(如图14-3所示)中,横坐标是时间,K线图上的每一个柱形都表示4个价格信息,分别是开盘价、高价、低价、收盘价。这种数据蕴含的信息看上去很贫乏,因为只有时间和价格,对市场多空情绪的反映有些不直观。所以,股票分析家们又发明了很多技术指标,这些指标无一例外,都是用K线图上的数据进行计算所得到的升维指标数据,MA(Moving Average,移动平均线)的计算就是其中之一。
1700509668
1700509669
1700509670
1700509671
1700509672 图14-3 股票价格K线图
1700509673
1700509674 在一个MySQL数据表Price中有字段CLOSE作为收盘价的字段(如表14-1所示)。
1700509675
1700509676 表14-1 Price表信息
[ 上一页 ]  [ :1.700509627e+09 ]  [ 下一页 ]