1700433180
重要的是专注于可视化的影响力,让一个观点更容易地被看到和理解。可太多的人沉溺于使用绚丽的分析图形,仅仅因为他们可以这么做。事实上,简单才是最好的,除非有明确的需求,否则不应该使用过于绚丽或复杂的图形。
1700433181
1700433182
请注意,我们强调的不是图形本身。很多人经常使用过于复杂的图形,仅仅是因为他们可以这么做。实际上,一个不加任何分析内容的3D条形图看起来很华丽,但比2D条形图更难以阅读和理解。重点应该放在可视化的有效性与影响力上,即可以比其他方式更清楚地说明要点上。一个很漂亮但没有要点的图形只会减损需传递的信息,造成混乱。
1700433183
1700433184
有时候一个简单的表格就足够了。在某些情况下,一个合适的可视化内容会让客户对要点的理解程度提升好几个数量级。回想一下我们之前提到过的地图的例子。理解如何可视化数据与结果可以帮助分析专家更好、更有效、更成功地工作。可视化工具的影响才刚刚开始。这些工具未来将被更多地用于分析和交流结果。
1700433185
1700433186
新数据每一次都会胜过新的工具和方法
1700433187
1700433188
新的数据输入对模型的影响要远远大于新的工具或方法。在传统的分析流程中增加新的数据会显著提升分析效果,这比新工具和新方法的提升更多更明显。这就是为什么重要的是获取大数据,而不是简单地升级并处理你已有的数据。
1700433189
1700433190
最后要提醒读者,本章的重点是分析工具和方法的演进。对于分析的质量和效果,可用的新数据比工具和方法本身有更大影响力。例如,获得了以前不具备的客户浏览Web详细数据会显著提升倾向模型的预测效果,这种效果提升要远远大于逻辑回归或组合模型等具体算法的创新。工具的进步有助于获得最新的数据源,但是数据本身才是最重要的价值驱动因素。这就是为什么企业要不断收集和使用各类可用大数据源的根本原因。
1700433191
1700433193
6.3 本章小结
1700433194
1700433195
以下是本章的主要内容。
1700433196
1700433197
■ 组合模型利用了群体的智慧,通过组合多种方法的预测结果,最终获得了比每种方法都要好的答案。
1700433198
1700433199
■ 简易模型的目标是快速并尽量自动化地开发一个足够好的模型,而模型是否最优,所有精力是否用尽,这些并不是关注的重点。
1700433200
1700433201
■ 简易模型把模型的应用扩展到了低价值的问题,也包括那些需要对大量模型进行人工调整的复杂问题。
1700433202
1700433203
■ 大数据的时代,文本分析已经成为一个非常重要的主题。文本数据的处理方法发展迅速,并得到了广泛应用。
1700433204
1700433205
■ 文本分析的一个巨大挑战是,仅仅词语本身并不能说明全部问题,因为在文本中没有包含重音、语调和变调等信息。
1700433206
1700433207
■ 用户界面已经发展到包括强大的图形、可视化工作流图表和专业的单点解决方案。
1700433208
1700433209
■ 用户界面是分析专家提升生产力的工具,前提是这些分析专家知道自己在做什么,并能确保该工具“最适当地”工作,在友好的使用界面下其实更容易把事情搞砸。
1700433210
1700433211
■ 单点分析解决方案专注于一个具体领域的分析,如欺诈或定价,并在该领域内进行深入分析。这些工具的影响力在不断地提升。
1700433212
1700433213
■ R是一个开源分析工具,近年来被越来越多地使用。R的一个优点是在软件中增加新算法的速度,它的一个缺点是其目前缺乏企业级的分析可扩展性。
1700433214
1700433215
■ 与文字解释或电子表格数据相比,可视化方式可以更容易地发现模式。现代可视化工具可以直接连接数据库,建立数据联系与交互式分析图形,具备比传统图表分析工具更多的可视化选项。
1700433216
1700433217
■ 数据可视化的重点不是华丽的图形,而是如何对数据进行展示,以获得对分析结论更深入地理解。
1700433218
1700433219
〔1〕你可以在这个网站找到更多相关信息:www.DMG.org。
1700433220
1700433221
〔2〕麦肯锡管理咨询公司,Clearing the Air on Cloud Computing,2009年3月。
1700433222
1700433223
〔3〕美国国家标准技术研究所,草案,NIST Working Definition of Cloud Computing,8-21-09,第15版,http://csrc.nist.gov/publications/drafts/800-146/Draft-NIST-SP800-146.pdf。
1700433224
1700433225
〔4〕美国国家标准技术研究所,www.nist.gov/itl/cloud/index.com。
1700433226
1700433227
〔5〕译者注:英文有26个字母。
1700433228
1700433229
〔6〕Giovanni Seni and John Elder, Ensemble methods in Data Mining: Improving Accuracy through Combining Predictions, Morgan and Clay-pool Publishers, 2010.
[
上一页 ]
[ :1.70043318e+09 ]
[
下一页 ]