打字猴:1.700509164e+09

1700509164 数据科学家养成手册 [:1700503614]

1700509165 数据科学家养成手册 12.4　本章小结

1700509166

1700509167 数据采集是数据生命周期的开始，充分考虑各个环节能给整个大数据系统带来非常关键的影响。

1700509168

1700509169 对于高昂的带宽资源，文本压缩是一种比较好的选择。例如，把文本日志进行压缩后传输，通常可以有效地解决带宽不足的问题。是否一定要传输原始日志，是否可以进行有损压缩，在具体应用场景中都是可以探讨的问题。

1700509170

1700509171 此外，由于加/解密本身也需要成本，所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值，就不要做加密了。而在确实需要加密的场合，加密的方案也要与时俱进，因为破解能力也会随着计算机计算能力的增强而提升。在任何时候，只要能保证当时的破解成本远高于破解后的收益，就是一种性价比合适的加密方案。

1700509172

1700509173 在数据采集环节，除了由DTU或者终端设备直接报送的数据，还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过，负责结算的工作人员会观察当前进行交易的顾客的年龄（当然只是粗略估计年龄段），并通过收银系统将此数据记录在案。

1700509174

1700509175 获取数据的环节很多。在获取数据的过程中，非常需要用“匠人精神”去把控每一个细节，并通过工具改造、环境改造等方式逐步进行完善和优化。

1700509176

1700509177 (1) 木马软件（Trojan Horse Program），含有恶意代码的程序。

1700509178

1700509179 (2) 官网地址：http://www.fluentd.org/。

1700509180

1700509181 (3) 官网地址：http://flume.apache.org/。

1700509182

1700509183 (4) 文档地址：http://hekad.readthedocs.io/。

1700509184

1700509185 (5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。

1700509186

1700509187 (6) 美国甲骨文公司的数据库拳头产品，8i版本在1998年发布，目前最高版本为12c。

1700509188

1700509189 (7) 主要是指IEEE 802.11x协议族。

1700509190

1700509191 (8) “MIPS”是“Million Instructions Per Second”（单字长定点指令平均执行速度）的缩写，每秒处理的百万级的机器语言指令数。

1700509192

1700509193

1700509194

1700509195

1700509196 数据科学家养成手册 [:1700503615]

1700509197 数据科学家养成手册第13章　数据存储

1700509198

1700509199 当一台服务器收到由其他服务器传来的日志数据时，一般有两种处理方式：一种是在内存中直接处理，进行流计算，计算完毕后将计算结果保存或者输出到指定位置，原始日志数据直接丢弃；另一种是直接写入持久化存储介质（例如文件、数据库等），以备后续的查询和统计分析等。还有一些场景会将两种方式结合使用，既做流处理用于快速反馈数据，也把日志进行持久化归档处理。

1700509200

1700509201 流处理不属于数据存储的范畴，这里就不多讨论了。我们只需要理解这样一个概念：这种处理就是在内存中留一个池空间，当数据从网络高速写入这个内存池空间的时候，可以根据需要把这个池空间当成磁盘上的文件进行相应的统计计算，然后设置清空策略（可以采用滑动窗口策略，也可以进行固定时长清空）。

1700509202

1700509203 将数据保存到磁盘上是非常讲究的，需要考虑的问题也比较多。对一台服务器来说，当它收到数据准备写入磁盘的时候，会面临很多选择——没错，还是各种矛盾的权衡。

1700509204

1700509205

1700509206

1700509207

1700509208 数据科学家养成手册 [:1700503616]

1700509209 数据科学家养成手册 13.1　读写不对等

1700509210

1700509211 一台服务器的硬件资源确定后，对于存储就有这样一个问题需要考虑——读写场景是什么？

1700509212

1700509213 “读写都少”的情况基本不用考虑对矛盾的权衡，因为此时的磁盘I/O资源非常充分。而在“读多写少”、“读少写多”、“读写都多”这3种场景中，还是要考虑资源怎么分配才能最大化地满足业务需要。

[ 上一页 ] [ :1.700509164e+09 ] [ 下一页 ]