打字猴:1.700433185e+09
1700433185
1700433186 新数据每一次都会胜过新的工具和方法
1700433187
1700433188 新的数据输入对模型的影响要远远大于新的工具或方法。在传统的分析流程中增加新的数据会显著提升分析效果,这比新工具和新方法的提升更多更明显。这就是为什么重要的是获取大数据,而不是简单地升级并处理你已有的数据。
1700433189
1700433190 最后要提醒读者,本章的重点是分析工具和方法的演进。对于分析的质量和效果,可用的新数据比工具和方法本身有更大影响力。例如,获得了以前不具备的客户浏览Web详细数据会显著提升倾向模型的预测效果,这种效果提升要远远大于逻辑回归或组合模型等具体算法的创新。工具的进步有助于获得最新的数据源,但是数据本身才是最重要的价值驱动因素。这就是为什么企业要不断收集和使用各类可用大数据源的根本原因。
1700433191
1700433192 驾驭大数据 [:1700430612]
1700433193 6.3 本章小结
1700433194
1700433195 以下是本章的主要内容。
1700433196
1700433197 ■ 组合模型利用了群体的智慧,通过组合多种方法的预测结果,最终获得了比每种方法都要好的答案。
1700433198
1700433199 ■ 简易模型的目标是快速并尽量自动化地开发一个足够好的模型,而模型是否最优,所有精力是否用尽,这些并不是关注的重点。
1700433200
1700433201 ■ 简易模型把模型的应用扩展到了低价值的问题,也包括那些需要对大量模型进行人工调整的复杂问题。
1700433202
1700433203 ■ 大数据的时代,文本分析已经成为一个非常重要的主题。文本数据的处理方法发展迅速,并得到了广泛应用。
1700433204
1700433205 ■ 文本分析的一个巨大挑战是,仅仅词语本身并不能说明全部问题,因为在文本中没有包含重音、语调和变调等信息。
1700433206
1700433207 ■ 用户界面已经发展到包括强大的图形、可视化工作流图表和专业的单点解决方案。
1700433208
1700433209 ■ 用户界面是分析专家提升生产力的工具,前提是这些分析专家知道自己在做什么,并能确保该工具“最适当地”工作,在友好的使用界面下其实更容易把事情搞砸。
1700433210
1700433211 ■ 单点分析解决方案专注于一个具体领域的分析,如欺诈或定价,并在该领域内进行深入分析。这些工具的影响力在不断地提升。
1700433212
1700433213 ■ R是一个开源分析工具,近年来被越来越多地使用。R的一个优点是在软件中增加新算法的速度,它的一个缺点是其目前缺乏企业级的分析可扩展性。
1700433214
1700433215 ■ 与文字解释或电子表格数据相比,可视化方式可以更容易地发现模式。现代可视化工具可以直接连接数据库,建立数据联系与交互式分析图形,具备比传统图表分析工具更多的可视化选项。
1700433216
1700433217 ■ 数据可视化的重点不是华丽的图形,而是如何对数据进行展示,以获得对分析结论更深入地理解。
1700433218
1700433219 〔1〕你可以在这个网站找到更多相关信息:www.DMG.org。
1700433220
1700433221 〔2〕麦肯锡管理咨询公司,Clearing the Air on Cloud Computing,2009年3月。
1700433222
1700433223 〔3〕美国国家标准技术研究所,草案,NIST Working Definition of Cloud Computing,8-21-09,第15版,http://csrc.nist.gov/publications/drafts/800-146/Draft-NIST-SP800-146.pdf。
1700433224
1700433225 〔4〕美国国家标准技术研究所,www.nist.gov/itl/cloud/index.com。
1700433226
1700433227 〔5〕译者注:英文有26个字母。
1700433228
1700433229 〔6〕Giovanni Seni and John Elder, Ensemble methods in Data Mining: Improving Accuracy through Combining Predictions, Morgan and Clay-pool Publishers, 2010.
1700433230
1700433231 〔7〕James Surowiecki, The Wisdom of Crowds, Anchor Books, 2005.
1700433232
1700433233 〔8〕The Comprehensive R Network (CRAN), http://cran.r-project.org/doc/FAQ/R-FAQ.html#Why-is-R-Named-R_03f.
1700433234
[ 上一页 ]  [ :1.700433185e+09 ]  [ 下一页 ]