1700509150
1700509151
1700509152
最终服务器上收集的数据量在实际产生的数据量中所占的比例,就可以用下面这个公式来计算:
1700509153
1700509154
1700509155
1700509156
1700509157
通过计算,数据收集率约为98.8%。如果这个指标已经满足了目前的业务需求且成本合理,就可以大胆使用了。如果无法满足需求,就要看可以在哪些环节进行优化,优先优化投入少且改进明显的环节。
1700509158
1700509159
其实,不管怎么优化,都面临投入成本和改造收益的权衡问题。刚刚说的这个场景在实时收集的场景中效果比较明显。在延时收集场景中,由于有足够的时间缓冲,可以等待网络的恢复或者终端、服务器等硬件的修复,所以只要数据保存策略没有问题,P的值可以无限接近100%。
1700509160
1700509161
1700509162
1700509163
1700509165
数据科学家养成手册 12.4 本章小结
1700509166
1700509167
数据采集是数据生命周期的开始,充分考虑各个环节能给整个大数据系统带来非常关键的影响。
1700509168
1700509169
对于高昂的带宽资源,文本压缩是一种比较好的选择。例如,把文本日志进行压缩后传输,通常可以有效地解决带宽不足的问题。是否一定要传输原始日志,是否可以进行有损压缩,在具体应用场景中都是可以探讨的问题。
1700509170
1700509171
此外,由于加/解密本身也需要成本,所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值,就不要做加密了。而在确实需要加密的场合,加密的方案也要与时俱进,因为破解能力也会随着计算机计算能力的增强而提升。在任何时候,只要能保证当时的破解成本远高于破解后的收益,就是一种性价比合适的加密方案。
1700509172
1700509173
在数据采集环节,除了由DTU或者终端设备直接报送的数据,还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过,负责结算的工作人员会观察当前进行交易的顾客的年龄(当然只是粗略估计年龄段),并通过收银系统将此数据记录在案。
1700509174
1700509175
获取数据的环节很多。在获取数据的过程中,非常需要用“匠人精神”去把控每一个细节,并通过工具改造、环境改造等方式逐步进行完善和优化。
1700509176
1700509177
(1) 木马软件(Trojan Horse Program),含有恶意代码的程序。
1700509178
1700509179
(2) 官网地址:http://www.fluentd.org/。
1700509180
1700509181
(3) 官网地址:http://flume.apache.org/。
1700509182
1700509183
(4) 文档地址:http://hekad.readthedocs.io/。
1700509184
1700509185
(5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。
1700509186
1700509187
(6) 美国甲骨文公司的数据库拳头产品,8i版本在1998年发布,目前最高版本为12c。
1700509188
1700509189
(7) 主要是指IEEE 802.11x协议族。
1700509190
1700509191
(8) “MIPS”是“Million Instructions Per Second”(单字长定点指令平均执行速度)的缩写,每秒处理的百万级的机器语言指令数。
1700509192
1700509193
1700509194
1700509195
1700509197
数据科学家养成手册 第13章 数据存储
1700509198
1700509199
当一台服务器收到由其他服务器传来的日志数据时,一般有两种处理方式:一种是在内存中直接处理,进行流计算,计算完毕后将计算结果保存或者输出到指定位置,原始日志数据直接丢弃;另一种是直接写入持久化存储介质(例如文件、数据库等),以备后续的查询和统计分析等。还有一些场景会将两种方式结合使用,既做流处理用于快速反馈数据,也把日志进行持久化归档处理。
[
上一页 ]
[ :1.70050915e+09 ]
[
下一页 ]