1700510140
1700510142
16.5.2 预测分析
1700510143
1700510144
预测分析也是在分析实践中使用比较多的。预测分析通常是对历史性的多维度数据进行建模和拟合,然后通过拟合出来的模型对未来或过去但未知的数据进行推测。
1700510145
1700510146
预测分析从目的上来说带有比较明确的量化目标。从数据科学的角度看,预测分析的准确性本身同样是无法自验证的。所以,在使用数据进行验证的过程中,只能选择其中的一部分作为训练数据供拟合使用,剩下的部分则供验证使用。在实践中,训练数据与验证数据通常为4∶1或3∶1(抑或其他比例)。这种验证集存在的目的主要是避免在预测分析过程中产生过拟合现象。这种同样通过量化数据的归纳得到的预测模型,是用验证集数据的召回率和准确率来做评价的,只要召回率和准确率满足场景的需求,就是一个科学的模型,可以用来做预测分析。
1700510147
1700510148
在预测分析中,如果预测的目标是连续的数值,通常期望被表达成一个解析解与误差的形式;而如果期望被表达成一个离散的枚举类型,通常期望被表达成一个概率形式。基于这种目的,通常会应用线性回归、逻辑回归、支持向量机、决策树、随机森林、隐马尔可夫模型等算法或者深度学习的相关算法。
1700510149
1700510150
这些方法无一例外,都是用“已知”的训练集数据来做训练,把模型训练好之后,再用验证集验算的方法来确定模型的可靠性(主要是验证数据召回率和准确率是否达到业务需求)。召回率和准确率是衡量模型准确性时最关键的指标,也是用数据为模型的可靠性提供证据的唯一标准。不管训练模型的人是什么专业毕业、有什么工作经验、采用什么理论依据,最后只看这两个指标。进行模型改进的时候,也是看这两个指标是否都有明显提高。
1700510151
1700510152
当模型的可靠性满足业务需求以后,就要让其进行预测分析了。这个预测分析就是将一个待预测标签的向量放入模型,使其生成一个标签的过程,通常是对一个未知的未来状态的预计值。
1700510153
1700510155
16.5.3 其他分析
1700510156
1700510157
在日常生产中,相关性分析和预测分析作为两种主要的分析目的,涵盖了大多数分析场景。这些分析的结果通常可以直接用来指导生产,相对而言,指导的目的比较清晰,要么解释或找到隐藏的因果关系及关联关系,要么通过模型来进行一定的预判和猜测。
1700510158
1700510159
除此以外的分析目的则相对是泛泛而谈,没有想要找到或解决的具体问题和确切的认知目标。这种情况下会使用一些无监督学习或者半监督学习的机器学习模型进行处理,例如聚类、半监督回归等。这类学习通常以试探为主,在分析前对分析的结果不具有明确的倾向性和期望。
1700510160
1700510161
如果你觉得这种说法不是很明确,那么我们来看一些统计应用中比较有趣的案例。
1700510162
1700510163
1700510164
1700510165
1700510167
数据科学家养成手册 16.6 有趣的统计应用
1700510168
1700510169
在和很多分析人员攀谈的过程中,我听到过一些抱怨:“这些数字完全是随机的,太糟糕了。”“随机的东西没什么价值。”不过,随机真的不好吗?
1700510170
1700510171
人们对客观事物认知的不断深入是一个熵减的过程。人们厌恶信息熵,总觉得它意味着杂乱、未知,是千百年来都要消灭的认知“大敌”。降低认知中的熵也是数据科学的使命中最为重要的组成部分。熵和随机不分家。在相同条件下重复进行试验,每次的结果未必相同——这种困扰对于认知能力有限的人类来说永远存在。然而,基于“尺有所短,寸有所长”的辩证逻辑观点,“随机没有价值”这样的观点是值得怀疑的。著名统计学家R.C.Rao的Statistics and Truth一书中有一些案例就很好地利用了随机这种特性的优点。
1700510172
1700510174
16.6.1 不规则图形的面积
1700510175
1700510176
平面中有一个不规则图形(如图16-13所示),我们能求出它的面积吗?乍一看用初等数学中的割补法恐怕难有进展,所以不妨把它放到计算机中,用统计学中的概率来尝试计算。
1700510177
1700510178
1700510179
1700510180
1700510181
图16-13 不规则图形
1700510182
1700510183
随机产生一个平均分布的序列x,取值范围为1到n,n为整个矩形的宽度像素数。随机产生一个平均分布的序列y,取值范围为1到m,m为整个矩形的高度像素数。在大量产生向量ai=(x, y)坐标值的过程中,由于x和y是平均分布的,所以落入图形中的概率值与整个矩形的概率值之比就是其面积。在i无限趋向∞的过程中,这个比值也在无限接近理想的面积S。
1700510184
1700510185
如果能够获得这些图形边线的方程当然很好。如果不能,也可以用颜色差异来判断生成的ai向量落入不规则图形与未落入不规则图形的区别。这就是一个巧妙利用随机求不规则图形的数值解的方法,而且可以推广到无限高维。
1700510186
1700510188
16.6.2 套出你的实话
1700510189
[
上一页 ]
[ :1.70051014e+09 ]
[
下一页 ]