打字猴:1.70050976e+09
1700509760 数据科学家养成手册 [:1700503637]
1700509761 数据科学家养成手册 14.4 注意性能
1700509762
1700509763 在统计性能方面,尽量使用可以进行分布式计算的方式或者模型,以充分利用服务器各方面的资源。以Hive为例,在一次大量数据的统计过程中,如果覆盖的块均匀分布在每个节点上,那么在进行统计计算时就不会出现负载歪斜(一个集群中只有部分主机的资源非常繁忙,其他主机都处于空闲状态,这通常是由架构规划不良导致的)的情况。
1700509764
1700509765 此外,就是避免在全局使用类似DISTINCT这种不满足分配律的操作。这种操作的含义是在全局范围内做去重操作,也就意味着所有的数据必须拿到单台主机上做去重操作,而这会使一台主机成为整个计算的瓶颈。
1700509766
1700509767 在分布式计算领域用到的负载分散技巧主要是计算资源的哈希问题。在以Key-Value为计算基础的Map-Reduce分布式计算模型中,通常要把Key设计得更为合理,让它能够均匀分散在多个节点上,从而提高计算效率。
1700509768
1700509769
1700509770
1700509771
1700509772 数据科学家养成手册 [:1700503638]
1700509773 数据科学家养成手册 14.5 本章小结
1700509774
1700509775 本章讨论了有关数据统计的问题。这里说的统计泛指所有通过数据的统合计算产生的抽象性指标系统。这种认知方式会帮助观察者从大量纷杂的个体对象中归纳出某种宏观性的表象信息。
1700509776
1700509777 在任何与从宏观角度认知大量事物特性有关的研究领域,例如社会学、经济学、生物学,以及更为底层的统计物理学等方面,科研工作者也都是通过对事物宏观特性的统计归纳来试探性地进行解释和分析的,这个过程带有明显的“试错”意味。数据科学在其中所起的作用,就是帮助人们用辩证的、量化的方法过滤那些不可靠的数据假说。在数据统计这个环节中的归纳,就是对不同数据对象进行升降维的尝试而已。
1700509778
1700509779 (1) 出自《论语·先进》:“子贡问:‘师与商也孰贤?’子曰:‘师也过,商也不及。’曰:‘然则师愈与?’子曰:‘过犹不及。’”译为:孔子的学生子贡问孔子,他的同学子张和子夏哪个更贤明一些。孔子说,子张常常超过周礼的要求,子夏则常常达不到周礼的要求。子贡又问,子张能超过是不是好一些。孔子回答说,超过和达不到的效果是一样的。
1700509780
1700509781 (2) 阿尔伯特·奥图·赫希曼(Albert Otto Hirschman,1915年4月~2012年12月),知名经济学家、思想家,著有《叛离、抗议与忠诚》及《反动的修辞》两本政治学经典著作。
1700509782
1700509783 (3) 在一个总体(国家、地区)内,以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应其他各个人口百分比的收入百分比的点组成的曲线。为了研究国民收入在国民之间的分配问题,美国统计学家M.O.洛伦兹(Max Otto Lorenz,1876年9月~1959年7月)于1907年提出了著名的洛伦兹曲线。
1700509784
1700509785
1700509786
1700509787
1700509788 数据科学家养成手册 [:1700503639]
1700509789 数据科学家养成手册 第15章 数据建模
1700509790
1700509791 数据建模是一项非常重要的技能,尤其是对数据分析师来说,就像吃饭、睡觉、走路甚至呼吸一样不可或缺。
1700509792
1700509793 数据建模,也可以叫作“数学建模”(这两个概念研究的问题几乎没有差别)。关于数学建模的例题和方法论等,现在市面上的很多资料中都有讲述,方法各异,形形色色。如果想从纷杂的方法中总结出一些相对完整的、泛用性好的方法论,我觉得也不难——只要抓住数据建模和数据分析的本质,思路很快就会有了。
1700509794
1700509795 数据建模其实是一门为了解决数据之间定量的逻辑关系问题的学科,是一种通过对数据进行分析处理,定量描述其间关系的方法论学科(如图15-1所示)。数据建模贯穿在我们接触过的各种学科中,例如物理学、化学、地理学、天文学,这些学科的研究对象也是五花八门、种类繁多,但其本质都是在精确地定量研究这些对象的转化条件、转化规律或逻辑。
1700509796
1700509797
1700509798
1700509799
1700509800 图15-1 数据建模
1700509801
1700509802 数据建模基本可以分为如下4个步骤。
1700509803
1700509804 (1)观察记录
1700509805
1700509806 用相对准确或精确的方式,通过观测来记录观测值数据。
1700509807
1700509808 (2)猜测假说
1700509809
[ 上一页 ]  [ :1.70050976e+09 ]  [ 下一页 ]