1700433107
1700433108
开源工具达到了世界先进分析水平的一个例子是针对统计计算的R开源项目,也被简称为“R”。R是免费的开源分析软件包,它直接与各种商业分析工具进行竞争并互相补充。R最初是从“S”派生出来的,S是十多年前为统计计算开发的一种早期语言。使用R命名的原因是英文字母S后是R,并且该项目主要开发者的名字也是以R开头(Robert Gentleman与Ross Ihaka)。〔8〕
1700433109
1700433110
R得到了快速发展并且被大量的分析专家使用,在高校和研究领域使用尤为普遍。在现今的企业环境中,如果有一个大型的分析专家团队,通常至少有几个成员在使用R。
1700433111
1700433112
虽然商业工具更加优秀,但是R的影响力仍然在不断扩大。迄今为止,R已经拥有了大量的用户,主要分布在学术界而不是大型企业内。R更多用于研发类任务,而不是针对海量数据的关键生产分析流程。这种情况可能随着时间发生改变,但至少目前是这样的。
1700433113
1700433114
R具有许多强大的功能。相对于其他的分析工具集,R是面向对象的。它能和常用的编程平台,比如C++和JAVA进行连接,这使得在应用程序中嵌入R变得可行。事实上,商业分析工具已经能在内部工具集中执行R程序,这是一个非常吸引人的特性。这个话题的详细讨论超出了本书的范围。
1700433115
1700433116
也许,R的最大优势在于,只要新的模型或分析方法开发完成,这个分析功能就会被人集成到R中。R开发并上线新功能的速度远远超过其他的商业软件,一想到这点,就会感觉特别爽。通常情况下,当某个算法被证明有市场需求后,商业工具的开发商才会考虑将其整合到商业工具中。然后他们将把这个算法加入开发计划,进行编码,把这项工程放入未来的发布版中,这个过程可能会耗费好几年。但是R就不同了,一旦有人认为某一个算法是有价值的,人们就会在R中开发并实现它。
1700433117
1700433118
你在使用R吗?
1700433119
1700433120
R是一个有前途的开源分析工具集。近些年来,R获得了长足的发展并被广泛使用。R有自己的优势和缺点,并不是每一个组织或者组织中的任何问题都适合使用R。但无论如何,R总会有它自己的位置。
1700433121
1700433122
事实上,R是免费的,很多人非常看重这一点。然而,与其他的开源项目一样,有专门提供专有组件和服务的付费公司,这些公司能够帮助你实施或开发R程序,在某些情况下,它们拥有改进开源软件功能的组件。免费软件的一个消极方面是没有商业软件那样的支持。你可能或多或少地需要依靠自己去寻找答案,虽然有大型网络社区能寻找答案,但是并没有一个单独的个人或团队来负责提供支持。
1700433123
1700433124
R还有一个缺点是过于依靠编程。虽然R有一些图形化用户界面,但是很多用户仍然主要依靠编写代码。另外,R与类似的商业软件的接口还不够成熟。当然,随着时间推移和R的发展,这种情况可能会有所改变。
1700433125
1700433126
R的最大的劣势可能在于它的可扩展性。近期虽然有所改善,但是R仍然不具有其他商业软件和数据库那种级别的处理能力。R的基础软件运行在内存中而不是文件中,这意味着它仅能处理和机器可用内存相同大小的数据。即使一台非常昂贵的计算机,其内存总和也远远少于企业级数据集的处理需求,更别说大数据了。如果一个组织想要处理大数据,R可以是解决方案的一部分,但是由于R现今的地位,要成为解决方案的唯一组成部分还不现实。
1700433127
1700433128
越来越多的工具在开发R的连接包,包括一些商业分析软件。它会成为像Linux或Apache这样领先的产品吗?还是会继续保持小众,如开源办公套件那样?在专业分析领域,R未来会有什么样的地位与表现,这个问题只有时间才能回答。
1700433129
1700433131
6.2.4 数据可视化的历史
1700433132
1700433133
数据可视化和数据本身一样古老。最近它成为了一个行业,不少人以讨论、研究和分析可视化技术作为职业,如Edward Tufte,他在这个领域创作了很多本书,其中就包括经典的A visual Display of Quantitative Information。〔9〕
1700433134
1700433135
Charles Joseph Menard对1812年拿破仑军队在莫斯科被消灭的描述一直被认为是最好的可视化例子。〔10〕如果通过本页注释的链接去看他绘制的图片,你就能清楚地想象出这些部队的经历。
1700433136
1700433137
在分析的领域里,可视化涉及图表、图像和展示数据的表格。在电脑未出现的时代,图像是手工绘制的。电脑彻底改变了数据的可视化方法,创建可视化变得更容易了。我的第一台彩色打印机,连接在我的老式计算机上。它有一个小巧的彩色圆珠笔,打印纸看起来像是宽的收据纸,圆珠笔在纸面上移动生成要绘制的图形。我可以创建一些低解析度的基础柱状图,稍微复杂点的图形就不行了。
1700433138
1700433139
早期分析软件实际上相当巧妙地采用了键盘字符来创建图表,可能并不漂亮,但是确实把意思表达得很清楚。柱状图中的每一个柱体由x字符组成,如图6-1所示,饼图由一段线段、逗号和破折号组成,而表格则由破折号“——”和竖线“|”组成框架。
1700433140
1700433141
1700433142
1700433143
1700433144
图6-1 早期、初级的柱状图
1700433145
1700433146
等到桌面办公软件流行后,几乎任何人都可以做一个漂亮的、五颜六色的图表或曲线图,并具有完整的标签、图例和坐标轴。分析工具的绘图能力也在提升,远远超过了基于文本的简单绘图模式。
1700433147
1700433148
然而,直到近期,可视化大多还是静态的。桌面报告或电子制表工具创建的图表通常是是静态的,除非数据被更新。通常,更新是手动完成的。如今,可视化工具甚至实现了与图形进行交互分析,以新的强大的方式来探索与分析数据。
1700433149
1700433150
现代的可视化工具
1700433151
1700433152
可视化工具发展得如此迅速,以至于许多人并没有意识到它拥有的力量。Tableau、JMP、Advizor、Spotfire这些可视化分析工具帮助分析专家和业务用户创建各种分析图形,不仅能够清晰地描述出已发生的现象与事实,还提供了一种可视化的交互分析方式来发现新的事实。
1700433153
1700433154
今天的可视化工具,可以让多个选项卡内的图形和图表直接链接到基础数据。更重要的是,这些标签、图形和图表是互相关联的。例如,如果用户单击了东北地区的图形区域,所有其他图表将立刻进行调整,只显示东北地区的数据。
1700433155
1700433156
这些新的工具被认为是演示文稿和电子表格软件的“锦囊妙计”。一些可视化工具不仅具有类似电子表格程序的透视和数据处理能力,还具有超出演示程序的图表图形绘制能力。现在这些工具还增加了新的功能,如连接大型数据库、可视化交互分析、随意探索和下钻等。这让分析变得极为强大。
[
上一页 ]
[ :1.700433107e+09 ]
[
下一页 ]