1700509165
数据科学家养成手册 12.4 本章小结
1700509166
1700509167
数据采集是数据生命周期的开始,充分考虑各个环节能给整个大数据系统带来非常关键的影响。
1700509168
1700509169
对于高昂的带宽资源,文本压缩是一种比较好的选择。例如,把文本日志进行压缩后传输,通常可以有效地解决带宽不足的问题。是否一定要传输原始日志,是否可以进行有损压缩,在具体应用场景中都是可以探讨的问题。
1700509170
1700509171
此外,由于加/解密本身也需要成本,所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值,就不要做加密了。而在确实需要加密的场合,加密的方案也要与时俱进,因为破解能力也会随着计算机计算能力的增强而提升。在任何时候,只要能保证当时的破解成本远高于破解后的收益,就是一种性价比合适的加密方案。
1700509172
1700509173
在数据采集环节,除了由DTU或者终端设备直接报送的数据,还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过,负责结算的工作人员会观察当前进行交易的顾客的年龄(当然只是粗略估计年龄段),并通过收银系统将此数据记录在案。
1700509174
1700509175
获取数据的环节很多。在获取数据的过程中,非常需要用“匠人精神”去把控每一个细节,并通过工具改造、环境改造等方式逐步进行完善和优化。
1700509176
1700509177
(1) 木马软件(Trojan Horse Program),含有恶意代码的程序。
1700509178
1700509179
(2) 官网地址:http://www.fluentd.org/。
1700509180
1700509181
(3) 官网地址:http://flume.apache.org/。
1700509182
1700509183
(4) 文档地址:http://hekad.readthedocs.io/。
1700509184
1700509185
(5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。
1700509186
1700509187
(6) 美国甲骨文公司的数据库拳头产品,8i版本在1998年发布,目前最高版本为12c。
1700509188
1700509189
(7) 主要是指IEEE 802.11x协议族。
1700509190
1700509191
(8) “MIPS”是“Million Instructions Per Second”(单字长定点指令平均执行速度)的缩写,每秒处理的百万级的机器语言指令数。
1700509192
1700509193
1700509194
1700509195
1700509197
数据科学家养成手册 第13章 数据存储
1700509198
1700509199
当一台服务器收到由其他服务器传来的日志数据时,一般有两种处理方式:一种是在内存中直接处理,进行流计算,计算完毕后将计算结果保存或者输出到指定位置,原始日志数据直接丢弃;另一种是直接写入持久化存储介质(例如文件、数据库等),以备后续的查询和统计分析等。还有一些场景会将两种方式结合使用,既做流处理用于快速反馈数据,也把日志进行持久化归档处理。
1700509200
1700509201
流处理不属于数据存储的范畴,这里就不多讨论了。我们只需要理解这样一个概念:这种处理就是在内存中留一个池空间,当数据从网络高速写入这个内存池空间的时候,可以根据需要把这个池空间当成磁盘上的文件进行相应的统计计算,然后设置清空策略(可以采用滑动窗口策略,也可以进行固定时长清空)。
1700509202
1700509203
将数据保存到磁盘上是非常讲究的,需要考虑的问题也比较多。对一台服务器来说,当它收到数据准备写入磁盘的时候,会面临很多选择——没错,还是各种矛盾的权衡。
1700509204
1700509205
1700509206
1700509207
1700509209
数据科学家养成手册 13.1 读写不对等
1700509210
1700509211
一台服务器的硬件资源确定后,对于存储就有这样一个问题需要考虑——读写场景是什么?
1700509212
1700509213
“读写都少”的情况基本不用考虑对矛盾的权衡,因为此时的磁盘I/O资源非常充分。而在“读多写少”、“读少写多”、“读写都多”这3种场景中,还是要考虑资源怎么分配才能最大化地满足业务需要。
[
上一页 ]
[ :1.700509164e+09 ]
[
下一页 ]