1700509137
数据科学家养成手册 12.3 这只是不靠谱的开始
1700509138
1700509139
在一个复杂耦合的系统中,任何一个独立组件的有效性都会影响整个系统的有效性。就拿数据采集系统来说,每个采集点的有效性Pcollect、网络传输的可靠性Ptrans、服务器的有效性Pserver都会影响最终收集到的数据的有效性(或称“可靠性”)。如果没有办法直接从提供商那里得到这3个数值,就只能用其他办法进行测算了。
1700509140
1700509141
我们举个例子,假设能够测算出这3个值。
1700509142
1700509143
在测算过程中发现,Pcollect的有效性为99.9%,即平均1000条信息报送中会有1条信息由于收集终端的问题无法报送成功。
1700509144
1700509145
Ptrans有1%的失效概率(这个值已经很高了,说明运营商的网络状况非常不理想),那么Ptrans为99%。这里的失效概率不是丢包率,因为使用TCP协议族(包括HTTP和HTTPS)是有重传机制的,可以理解为网络层的故障、运营商的网络问题等导致在终端和服务器都正常的状态下无法访问的情况。
1700509146
1700509147
Pserver有0.1%的失效概率,即一段时间(例如1年)里有0.1%的时间处于无法工作的状态,而且这个时候也无法进行数据保存和重传。
1700509148
1700509149
1700509150
1700509151
1700509152
最终服务器上收集的数据量在实际产生的数据量中所占的比例,就可以用下面这个公式来计算:
1700509153
1700509154
1700509155
1700509156
1700509157
通过计算,数据收集率约为98.8%。如果这个指标已经满足了目前的业务需求且成本合理,就可以大胆使用了。如果无法满足需求,就要看可以在哪些环节进行优化,优先优化投入少且改进明显的环节。
1700509158
1700509159
其实,不管怎么优化,都面临投入成本和改造收益的权衡问题。刚刚说的这个场景在实时收集的场景中效果比较明显。在延时收集场景中,由于有足够的时间缓冲,可以等待网络的恢复或者终端、服务器等硬件的修复,所以只要数据保存策略没有问题,P的值可以无限接近100%。
1700509160
1700509161
1700509162
1700509163
1700509165
数据科学家养成手册 12.4 本章小结
1700509166
1700509167
数据采集是数据生命周期的开始,充分考虑各个环节能给整个大数据系统带来非常关键的影响。
1700509168
1700509169
对于高昂的带宽资源,文本压缩是一种比较好的选择。例如,把文本日志进行压缩后传输,通常可以有效地解决带宽不足的问题。是否一定要传输原始日志,是否可以进行有损压缩,在具体应用场景中都是可以探讨的问题。
1700509170
1700509171
此外,由于加/解密本身也需要成本,所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值,就不要做加密了。而在确实需要加密的场合,加密的方案也要与时俱进,因为破解能力也会随着计算机计算能力的增强而提升。在任何时候,只要能保证当时的破解成本远高于破解后的收益,就是一种性价比合适的加密方案。
1700509172
1700509173
在数据采集环节,除了由DTU或者终端设备直接报送的数据,还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过,负责结算的工作人员会观察当前进行交易的顾客的年龄(当然只是粗略估计年龄段),并通过收银系统将此数据记录在案。
1700509174
1700509175
获取数据的环节很多。在获取数据的过程中,非常需要用“匠人精神”去把控每一个细节,并通过工具改造、环境改造等方式逐步进行完善和优化。
1700509176
1700509177
(1) 木马软件(Trojan Horse Program),含有恶意代码的程序。
1700509178
1700509179
(2) 官网地址:http://www.fluentd.org/。
1700509180
1700509181
(3) 官网地址:http://flume.apache.org/。
1700509182
1700509183
(4) 文档地址:http://hekad.readthedocs.io/。
1700509184
1700509185
(5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。
[
上一页 ]
[ :1.700509136e+09 ]
[
下一页 ]