1700505040
4.1.3 数据科学的本质
1700505041
1700505042
在了解科学和数据的定义后,我们基本可以给数据科学下一个完整的定义了——数据科学是一种研究信息感知、抽象、保存、建模、传输,以及数据之间的逻辑、数量统计、计算和转化关系的综合应用科学。数据科学的本质就是表述和指导对事物认知的关系量化,把普适性的科学思维方式应用到数据上,使其成为一门窄而深的、精确的、拥有完整体系的学科。这就是数据科学要解决的本质问题。
1700505043
1700505044
如果尝试对数据科学这个庞大的体系进行细分,可以分为很多专注于数据某一方面处理的专项学科。例如,数据贮存学研究数据存储中的数据体积、存取效率、可靠性问题等,数据传输学研究传输速度、传输质量问题等。在这两个大的领域中,所有可能影响数据存储和传输的因素都会被讨论和研究,计算机硬件制造、光电信号传输、数据有损/无损压缩、数据冗余与高可用、数据校验等都是研究的对象。
1700505045
1700505046
此外,还有研究如何在数据中进行信息抽象、计算、查找、分析等诸多度量与换算问题的数据算法学,以及其他一切能够对数据的感知、抽象、保存、建模、传输,甚至是数据的可视化、数据之间的辩证逻辑提供支持的学科等。其他分类同样会由于产业分化的需要而随时产生。这种平衡中的变化不断发生,一些小的分支和分类也会由于科研工作者潜移默化的努力而逐渐融合为一个大的分支。这些方式同样是仁者见仁,智者见智,不一而足。
1700505047
1700505048
1700505049
1700505050
1700505052
数据科学家养成手册 4.2 万能的数据科学
1700505053
1700505054
伴随着高纯硅提炼技术的进步,以及全球工业化进程的发展,CPU中二极管的数量越来越多,集成电路的规模越来越大,计算的速度越来越快,电子计算机的制造成本也越来越低。在IT界,几乎每个人都知道著名的“摩尔定律”。
1700505055
1700505056
摩尔定律是由英特尔(Intel)的创始人之一戈登·摩尔(Gordon Moore,如图4-13所示)提出的。他指出:当价格不变时,集成电路上可容纳的元器件的数目,大约每隔18~24个月便会增加1倍,性能也将提升1倍。尽管这种趋势已经持续了超过半个世纪,但摩尔定律仍应该被认为是一种观测或推测,而不是一个物理或自然法。然而,2010年国际半导体技术发展路线图表明,这种增长已经在2013年年底放缓,之后晶体管数量预计每3年翻一番。
1700505057
1700505058
1700505059
1700505060
1700505061
图4-13 戈登·摩尔
1700505062
1700505063
关于摩尔定律是否即将失效,目前还无法得出结论。但是,即便摩尔定律失效了,我们也只能说摩尔定律走到了它的边界。在它应验的这几十年中,还是很好地预测了计算能力攀升的速度。不论摩尔定律是否失效,计算机科学的进步都将是一种不可逆的趋势,这能够在很大程度上帮助数据科学应用加速落地。
1700505064
1700505065
可以说,数据科学存在于生产和生活的各个方面,贯穿于人类社会发展的始终。正因如此,数据科学也可以称为“万能科学”,因为各行各业的生产问题,以及人类社会中的种种问题,都可以尝试转化成数据科学所擅长的数学问题并通过相应的工具去量化解决。
1700505066
1700505068
4.2.1 测量
1700505069
1700505070
测量是人类量化认知身边事物的一种手段。人们采用可靠的量具对事物的形状、尺寸、颜色、质量等方面进行度量的行为就是测量。在任何一个年代,任何一个国度,人类都曾尽其所能采用当时最可靠的量具来进行物体的测量工作。在不同的年代和不同的场合,人类会采用不同的度量手段来保证其可靠性和成本可控。
1700505071
1700505072
为了满足不同的测量需求,人类发明了各种各样的测量工具(如图4-14所示)。测量长度时,根据精度和单位,我们可以用卷尺来测量,可以用超声来测量,也可以用激光来测量。测量质量时,我们同样可以用不同量程和精度的量具来测量,例如手持式弹簧秤、电子磅秤、地秤等。测量之后,我们把量取的对象及读数记录下来,就基本完成了测量这个工作环节。
1700505073
1700505074
1700505075
1700505076
1700505077
图4-14 毫米尺、电子磅秤、激光测距仪和超声探伤仪
1700505078
1700505079
在现代社会,如果我们要对互联网、物联网中的测量对象(分布范围较广、较分散)进行测量,往往需要采用程序检测与报告的方式。
1700505080
1700505081
对于可以接入互联网的“节点”来说,只要能够将数据以数据包的方式报送给某个IP地址或者域名所对应的服务器就可以了。对使用Wi-Fi或者有线以太网的手机或PC用户来说,这种条件基本都是天然的了,因为它们所依赖的通信模块和上层的协议栈早已植入终端之中(如图4-15所示)。
1700505082
1700505083
1700505084
1700505085
1700505086
图4-15 有线以太网和无线以太网接入
1700505087
1700505088
在道路、旷野或其他有线以太网和Wi-Fi无法覆盖的地区也不是没有办法。例如,测量者通常会使用不同规格的DTU(Data Transfer Unit,如图4-16所示)模块进行连接。DTU向下连接检测设备,例如湿度探测器、温度探测器、PM2.5探测器、辐射探测器等;向上通过GPRS、3G-CDMA、4G-CDMA协议,甚至可以通过卫星信号,以类似拨号上网的方式接入互联网。
[
上一页 ]
[ :1.700505039e+09 ]
[
下一页 ]