1700509610
1700509611
无独有偶,这种思路在一些提供云服务的公司还有其他玩法。在很多社交软件中都有这样的用例:先将用户上传的高清照片裁剪成512×512像素的正方形大尺寸头像,再调整(Resize)成128×128、64×64、32×32等尺寸。为了充分利用CPU资源,节省存储空间,服务器上只存储512×512像素的大尺寸头像,每次请求头像时调用这个服务商提供的URL,参数为大尺寸头像的ID和请求尺寸,实时进行Resize操作,延迟很低。
1700509612
1700509613
本章涉及的所有查找性能指标都是近似理论值,在实际的生产环境或测试环境中很难观察到这样的测量数据。由于在实际环境中的CPU指令流和I/O吞吐的随机性很高,因此在数据存储环节的各种性能观测都混杂着一定的未知干扰。除此之外,不同的系统软件(尤其是那些非开源的软件)及其不同版本对这些存储和查找的算法实现也有不同程度的优化。这样一来,观测值就与理论值有了差异。在真实环境中进行测试时,还是建议用真实场景中的读写特性作为测试样例进行测试,以逼近实际生产环境的性能。
1700509614
1700509615
(1) Oracle自动存储管理(Automatic Storage Management)。
1700509616
1700509617
(2) NoSQL是指非关系型数据库。
1700509618
1700509619
(3) 基于笛卡尔乘积(Cartesian Product)的查询与过滤。
1700509620
1700509621
(4) 包括插入(Insert)、更新(Update)和删除(Delete)。
1700509622
1700509623
(5) Skew(Skewness)。
1700509624
1700509625
(6) 压缩率(Compresson Ratio)由压缩后占用空间大小除以压缩前占用空间大小得出。
1700509626
1700509627
1700509628
1700509629
1700509631
数据科学家养成手册 第14章 数据统计
1700509632
1700509633
将数据收集到数据库或者数据仓库中以后,就可以进行统计和分析了。
1700509634
1700509635
统计的目的就是将大量离散的数据经过统计计算,形成集中性的指标或者粗粒度单位。统计是在海量数据分析之前必须要做的一步工作。从本身的目的来说,统计将大量复杂的数据个体宏观特征化,简化了数据解读者对认知对象的了解过程。换句话说,数据统计的意义主要在于数据画像,节约阅读时间。
1700509636
1700509637
1700509638
1700509639
1700509641
数据科学家养成手册 14.1 此“统计”恐非彼“统计”
1700509642
1700509643
说到“统计”,很容易让我们想到在学校里学习的“统计学”课程内容,只是因为统计任务已经被规约成任务单一的指标计算或同比和环比计算,所以我们在日常运营工作中用到的统计知识相对比较简单。而且,在全样本统计成本越来越低的情况下,通常不会用到太多高级统计学中有关从抽样误差反推到全样本误差的知识。不过,这仍然是统计,所以我们在统计学中需要注意的问题,在这里也一样需要注意。
1700509644
1700509645
既然数据统计的意义主要在于用数据为认知对象画像,那么数量统计、数值加和、数值平均、方差、同比、环比等就成了绝大多数单位在运营过程中所需的基本数据资源。在这样的情况下,我们就把这种一般性的“操作”当成“统计”来介绍,把“高级技巧”放在后面作为分析的内容来讲解。
1700509646
1700509647
据我所知,现在很多人都有这样的误解:在数据库里使用AVG、SUM、COUNT这样的语句进行统计是一件档次很低的事情,因为操作太简单,有一点SQL语言基础的人都能做到。但我并不这么看。统计通常用于把认知对象的维度从低变高,从高变低,从简易变得复合,从复合变得简易。这种认知维度升降中的变化,可以帮助认知对象在观测过程中处于复杂度适中的状态,从而为人们进行认知与归纳总结提供便利。
1700509648
1700509649
我们先说降维认知。当数据处于高维状态的时候,我们一般喜欢把它们降维到适当的状态来认知。数据挖掘领域使用的“数据立方体”(Data Cube,如图14-1所示)就是一种降维认知手段。在描述一个维度极为丰富的高维数据记录组(例如销售记录)的时候,这种记录可能会包含销售时间、销售地点、销售类目、销售金额、销售数量、折扣率、售货人员等各种维度的信息,而且会有数以百万计的数据记录量。假设有m个维度和n条销售记录,那么这些数据会形成一个m×n的巨型矩阵。但是,销售额是一个对加和值敏感的数据种类,在使用
1700509650
1700509651
1700509652
1700509653
1700509654
图14-1 数据立方体
1700509655
1700509656
SELECT SUM(XXX)GROUP BY XXX
1700509657
1700509658
之后,就会忽略一些我们不那么关心的维度数据,并将一个确定的加和值返回,从而代替数以万计的具体销售记录。这种就是典型的降维认知——只关注最为关键的数据维度,只关注一个统计值而非单个个体值。
1700509659
[
上一页 ]
[ :1.70050961e+09 ]
[
下一页 ]