打字猴:1.70050915e+09

1700509150

1700509151

1700509152 最终服务器上收集的数据量在实际产生的数据量中所占的比例，就可以用下面这个公式来计算：

1700509153

1700509154

1700509155

1700509156

1700509157 通过计算，数据收集率约为98.8％。如果这个指标已经满足了目前的业务需求且成本合理，就可以大胆使用了。如果无法满足需求，就要看可以在哪些环节进行优化，优先优化投入少且改进明显的环节。

1700509158

1700509159 其实，不管怎么优化，都面临投入成本和改造收益的权衡问题。刚刚说的这个场景在实时收集的场景中效果比较明显。在延时收集场景中，由于有足够的时间缓冲，可以等待网络的恢复或者终端、服务器等硬件的修复，所以只要数据保存策略没有问题，P的值可以无限接近100％。

1700509160

1700509161

1700509162

1700509163

1700509164 数据科学家养成手册 [:1700503614]

1700509165 数据科学家养成手册 12.4　本章小结

1700509166

1700509167 数据采集是数据生命周期的开始，充分考虑各个环节能给整个大数据系统带来非常关键的影响。

1700509168

1700509169 对于高昂的带宽资源，文本压缩是一种比较好的选择。例如，把文本日志进行压缩后传输，通常可以有效地解决带宽不足的问题。是否一定要传输原始日志，是否可以进行有损压缩，在具体应用场景中都是可以探讨的问题。

1700509170

1700509171 此外，由于加/解密本身也需要成本，所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值，就不要做加密了。而在确实需要加密的场合，加密的方案也要与时俱进，因为破解能力也会随着计算机计算能力的增强而提升。在任何时候，只要能保证当时的破解成本远高于破解后的收益，就是一种性价比合适的加密方案。

1700509172

1700509173 在数据采集环节，除了由DTU或者终端设备直接报送的数据，还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过，负责结算的工作人员会观察当前进行交易的顾客的年龄（当然只是粗略估计年龄段），并通过收银系统将此数据记录在案。

1700509174

1700509175 获取数据的环节很多。在获取数据的过程中，非常需要用“匠人精神”去把控每一个细节，并通过工具改造、环境改造等方式逐步进行完善和优化。

1700509176

1700509177 (1) 木马软件（Trojan Horse Program），含有恶意代码的程序。

1700509178

1700509179 (2) 官网地址：http://www.fluentd.org/。

1700509180

1700509181 (3) 官网地址：http://flume.apache.org/。

1700509182

1700509183 (4) 文档地址：http://hekad.readthedocs.io/。

1700509184

1700509185 (5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。

1700509186

1700509187 (6) 美国甲骨文公司的数据库拳头产品，8i版本在1998年发布，目前最高版本为12c。

1700509188

1700509189 (7) 主要是指IEEE 802.11x协议族。

1700509190

1700509191 (8) “MIPS”是“Million Instructions Per Second”（单字长定点指令平均执行速度）的缩写，每秒处理的百万级的机器语言指令数。

1700509192

1700509193

1700509194

1700509195

1700509196 数据科学家养成手册 [:1700503615]

1700509197 数据科学家养成手册第13章　数据存储

1700509198

1700509199 当一台服务器收到由其他服务器传来的日志数据时，一般有两种处理方式：一种是在内存中直接处理，进行流计算，计算完毕后将计算结果保存或者输出到指定位置，原始日志数据直接丢弃；另一种是直接写入持久化存储介质（例如文件、数据库等），以备后续的查询和统计分析等。还有一些场景会将两种方式结合使用，既做流处理用于快速反馈数据，也把日志进行持久化归档处理。

[ 上一页 ] [ :1.70050915e+09 ] [ 下一页 ]