打字猴:1.700498516e+09
1700498516 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497501]
1700498517 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.9 假设检验
1700498518
1700498519 假设检验(Hypothesis Test)是现代统计学的基础和核心之一,其主要研究在一定的条件下,总体是否具备某些特定特征。
1700498520
1700498521 假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生。如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中,小概率事件没有发生,那么也只能说明没有足够理由相信假设是错误的,但是也并不能说明假设是正确的,因为无法收集到所有的证据来证明假设是正确的。
1700498522
1700498523 假设检验的结论是在一定的显著性水平下得出的。因此,当采用此方法观测事件并下结论时,有可能会犯错,这些错误主要有两大类:
1700498524
1700498525 ❑第Ⅰ类错误:当原假设为真时,却否定它而犯的错误,即拒绝正确假设的错误,也叫弃真错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,α=1-置信度。
1700498526
1700498527 ❑第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误,即接受错误假设的错误,也叫纳伪错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。
1700498528
1700498529 上述这两类错误在其他条件不变的情况下是相反的,即α增大时,β就减小;α减小时,β就增大。α错误容易受数据分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05,也可以取0.1或0.001。
1700498530
1700498531 在数据化运营的商业实践中,假设检验最常用的场景就是用于“运营效果的评估”上,本书第12章将针对最常见、最基本的假设检验形式和技术做出比较详细的梳理和举例。
1700498532
1700498533
1700498534
1700498535
1700498536 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497502]
1700498537 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.4 互联网行业数据挖掘应用的特点
1700498538
1700498539 相对于传统行业而言,互联网行业的数据挖掘和数据化运营有如下的一些主要特点:
1700498540
1700498541 ❑数据的海量性。互联网行业相比传统行业第一个区别就是收集、存储的数据是海量的,这一方面是因为互联网的使用已经成为普通人日常生活和工作中不可或缺的一部分,另一方面更是因为用户网络行为的每一步都会被作为网络日志记录下来。海量的数据、海量的字段、海量的信息,尤其是海量的字段,使得分析之前对于分析字段的挑选和排查工作显得无比重要,无以复加。如何大浪淘沙挑选变量则为重中之重,对此很难一言以蔽之的进行总结,还是用三分技术,七分业务来理解吧。本书从第7~12章,几乎每章都用大量的篇幅讨论如何在具体的分析课题和项目中选择变量、评估变量、转换变量,乃至如何通过清洗后的核心变量完成最终的分析结论(挖掘模型)。
1700498542
1700498543 ❑数据分析(挖掘)的周期短。鉴于互联网行业白热化的市场竞争格局,以及该行业相对成熟的高级数据化运营实践,该行业的数据分析(挖掘)通常允许的分析周期(项目周期)要明显短于传统行业。行业技术应用飞速发展,产品和竞争一日千里,都使该行业的数据挖掘项目的时间进度比传统行业的项目模式快得多。一方面要保证挖掘结果的起码质量,另一方面要满足这个行业超快的行业节奏,这也使得传统的挖掘分析思路和步调必须改革和升华,从而具有鲜明的Internet色彩。
1700498544
1700498545 ❑数据分析(挖掘)成果的时效性明显变短。由于互联网行业的用户行为相对于传统行业而言变化非常快,导致相应的数据分析挖掘成果的时效性也比传统行业明显缩短。举例来说,互联网行业的产品更新换代很多是以月为单位的,新产品层出不穷,老产品要及时下线,因此,针对具体产品的数据分析(挖掘)成果的时效性也明显变短;或者说,用户行为变化快,网络环境变化快,导致模型的维护和优化的时间周期也明显变短,传统行业里的“用户流失预测模型”可能只需要每年更新优化一次,但是在互联网行业里类似的模型可能3个月左右就有必要更新优化了。
1700498546
1700498547 ❑互联网行业新技术、新应用、新模式的更新换代相比于传统行业而言更加迅速、周期更短、更加具有颠覆性,相应地对数据分析挖掘的应用需求也更为苛刻,且要多样化。以中国互联网行业的发展为例,作为第一代互联网企业的代表,新浪、搜狐、雅虎等门户网站的Web 1.0模式(传统媒体的电子化)从产生到被以Google、百度等搜索引擎企业的Web 2.0模式(制造者与使用者的合一)所超越,前后不过10年左右的时间,而目前这个Web 2.0模式已经逐渐有被以微博为代表Web 3.0模式(SNS模式)超越的趋势。具体到数据分析所服务的互联网业务和应用来说,从最初的常规、主流的分析挖掘支持,到以微博应用为代表的新的分析需求,再到目前风头正健的移动互联网的数据分析和应用,互联网行业的数据分析大显身手的天地在不断扩大,新的应用源源不断,新的挑战让人们应接不暇,这一切都要求数据分析师自觉、主动去学习、去充实、去提升自己、去跟上互联网发展的脚步。
1700498548
1700498549
1700498550
1700498551
1700498552 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497503]
1700498553 数据挖掘与数据化运营实战:思路、方法、技巧与应用 第3章 数据化运营中常见的数据分析项目类型
1700498554
1700498555 千举万变,其道一也。
1700498556
1700498557 ——《荀子·儒效》
1700498558
1700498559 3.1 目标客户的特征分析
1700498560
1700498561 3.2 目标客户的预测(响应、分类)模型
1700498562
1700498563 3.3 运营群体的活跃度定义
1700498564
1700498565 3.4 用户路径分析
[ 上一页 ]  [ :1.700498516e+09 ]  [ 下一页 ]