打字猴:1.700509164e+09
1700509164 数据科学家养成手册 [:1700503614]
1700509165 数据科学家养成手册 12.4 本章小结
1700509166
1700509167 数据采集是数据生命周期的开始,充分考虑各个环节能给整个大数据系统带来非常关键的影响。
1700509168
1700509169 对于高昂的带宽资源,文本压缩是一种比较好的选择。例如,把文本日志进行压缩后传输,通常可以有效地解决带宽不足的问题。是否一定要传输原始日志,是否可以进行有损压缩,在具体应用场景中都是可以探讨的问题。
1700509170
1700509171 此外,由于加/解密本身也需要成本,所以在选择方案的时候要评估成本及其带来的收益。如果有些数据确实没有太高的保密价值,就不要做加密了。而在确实需要加密的场合,加密的方案也要与时俱进,因为破解能力也会随着计算机计算能力的增强而提升。在任何时候,只要能保证当时的破解成本远高于破解后的收益,就是一种性价比合适的加密方案。
1700509172
1700509173 在数据采集环节,除了由DTU或者终端设备直接报送的数据,还有很多由分散在各处的工作人员观察并记录下来的数据。我曾经在某连锁便利店中见过,负责结算的工作人员会观察当前进行交易的顾客的年龄(当然只是粗略估计年龄段),并通过收银系统将此数据记录在案。
1700509174
1700509175 获取数据的环节很多。在获取数据的过程中,非常需要用“匠人精神”去把控每一个细节,并通过工具改造、环境改造等方式逐步进行完善和优化。
1700509176
1700509177 (1) 木马软件(Trojan Horse Program),含有恶意代码的程序。
1700509178
1700509179 (2) 官网地址:http://www.fluentd.org/。
1700509180
1700509181 (3) 官网地址:http://flume.apache.org/。
1700509182
1700509183 (4) 文档地址:http://hekad.readthedocs.io/。
1700509184
1700509185 (5) 目前的Fluentd版本默认只在S3为接收端的情况下提供对SSL证书的支持。
1700509186
1700509187 (6) 美国甲骨文公司的数据库拳头产品,8i版本在1998年发布,目前最高版本为12c。
1700509188
1700509189 (7) 主要是指IEEE 802.11x协议族。
1700509190
1700509191 (8) “MIPS”是“Million Instructions Per Second”(单字长定点指令平均执行速度)的缩写,每秒处理的百万级的机器语言指令数。
1700509192
1700509193
1700509194
1700509195
1700509196 数据科学家养成手册 [:1700503615]
1700509197 数据科学家养成手册 第13章 数据存储
1700509198
1700509199 当一台服务器收到由其他服务器传来的日志数据时,一般有两种处理方式:一种是在内存中直接处理,进行流计算,计算完毕后将计算结果保存或者输出到指定位置,原始日志数据直接丢弃;另一种是直接写入持久化存储介质(例如文件、数据库等),以备后续的查询和统计分析等。还有一些场景会将两种方式结合使用,既做流处理用于快速反馈数据,也把日志进行持久化归档处理。
1700509200
1700509201 流处理不属于数据存储的范畴,这里就不多讨论了。我们只需要理解这样一个概念:这种处理就是在内存中留一个池空间,当数据从网络高速写入这个内存池空间的时候,可以根据需要把这个池空间当成磁盘上的文件进行相应的统计计算,然后设置清空策略(可以采用滑动窗口策略,也可以进行固定时长清空)。
1700509202
1700509203 将数据保存到磁盘上是非常讲究的,需要考虑的问题也比较多。对一台服务器来说,当它收到数据准备写入磁盘的时候,会面临很多选择——没错,还是各种矛盾的权衡。
1700509204
1700509205
1700509206
1700509207
1700509208 数据科学家养成手册 [:1700503616]
1700509209 数据科学家养成手册 13.1 读写不对等
1700509210
1700509211 一台服务器的硬件资源确定后,对于存储就有这样一个问题需要考虑——读写场景是什么?
1700509212
1700509213 “读写都少”的情况基本不用考虑对矛盾的权衡,因为此时的磁盘I/O资源非常充分。而在“读多写少”、“读少写多”、“读写都多”这3种场景中,还是要考虑资源怎么分配才能最大化地满足业务需要。
[ 上一页 ]  [ :1.700509164e+09 ]  [ 下一页 ]