打字猴:1.70050915e+09
1700509150
1700509151
1700509152 最终服务器上收集的数据量在实际产生的数据量中所占的比例,就可以用下面这个公式来计算:
1700509153
1700509154
1700509155
1700509156
1700509157 通过计算,数据收集率约为98.8%。如果这个指标已经满足了目前的业务需求且成本合理,就可以大胆使用了。如果无法满足需求,就要看可以在哪些环节进行优化,优先优化投入少且改进明显的环节。
1700509158
1700509159 其实,不管怎么优化,都面临投入成本和改造收益的权衡问题。刚刚说的这个场景在实时收集的场景中效果比较明显。在延时收集场景中,由于有足够的时间缓冲,可以等待网络的恢复或者终端、服务器等硬件的修复,所以只要数据保存策略没有问题,P的值可以无限接近100%。
1700509160
1700509161
1700509162
1700509163
1700509164 数据科学家养成手册 [:1700503614]
1700509165 数据科学家养成手册 12.4 本章小结
1700509166
1700509167 数据采集是数据生命周期的开始,充分考虑各个环节能给整个大数据系统带来非常关键的影响。
1700509168
1700509169 对于高昂的带宽资源,文本压缩是一种比较好的选择。例如,把文本日志进行压缩后传输,通常可以有效地解决带宽不足的问题。是否一定要传输原始日志,是否可以进行有损压缩,在具体应用场景中都是可以探讨的问题。
1700509170
1700509171 此外,由于加/解密本身也需要成本,所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值,就不要做加密了。而在确实需要加密的场合,加密的方案也要与时俱进,因为破解能力也会随着计算机计算能力的增强而提升。在任何时候,只要能保证当时的破解成本远高于破解后的收益,就是一种性价比合适的加密方案。
1700509172
1700509173 在数据采集环节,除了由DTU或者终端设备直接报送的数据,还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过,负责结算的工作人员会观察当前进行交易的顾客的年龄(当然只是粗略估计年龄段),并通过收银系统将此数据记录在案。
1700509174
1700509175 获取数据的环节很多。在获取数据的过程中,非常需要用“匠人精神”去把控每一个细节,并通过工具改造、环境改造等方式逐步进行完善和优化。
1700509176
1700509177 (1) 木马软件(Trojan Horse Program),含有恶意代码的程序。
1700509178
1700509179 (2) 官网地址:http://www.fluentd.org/。
1700509180
1700509181 (3) 官网地址:http://flume.apache.org/。
1700509182
1700509183 (4) 文档地址:http://hekad.readthedocs.io/。
1700509184
1700509185 (5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。
1700509186
1700509187 (6) 美国甲骨文公司的数据库拳头产品,8i版本在1998年发布,目前最高版本为12c。
1700509188
1700509189 (7) 主要是指IEEE 802.11x协议族。
1700509190
1700509191 (8) “MIPS”是“Million Instructions Per Second”(单字长定点指令平均执行速度)的缩写,每秒处理的百万级的机器语言指令数。
1700509192
1700509193
1700509194
1700509195
1700509196 数据科学家养成手册 [:1700503615]
1700509197 数据科学家养成手册 第13章 数据存储
1700509198
1700509199 当一台服务器收到由其他服务器传来的日志数据时,一般有两种处理方式:一种是在内存中直接处理,进行流计算,计算完毕后将计算结果保存或者输出到指定位置,原始日志数据直接丢弃;另一种是直接写入持久化存储介质(例如文件、数据库等),以备后续的查询和统计分析等。还有一些场景会将两种方式结合使用,既做流处理用于快速反馈数据,也把日志进行持久化归档处理。
[ 上一页 ]  [ :1.70050915e+09 ]  [ 下一页 ]