打字猴:1.7004331e+09
1700433100 有一些被广泛使用的、成功的开源软件。网络浏览器Firefox就是一个例子,还有Linux操作系统和Apache Web Server软件。之前我们说过了,因特网的高速发展产生了大量的开源活动和社区。网络世界产生了大量的创新,自然也包括了大量的开源创新。
1700433101
1700433102 目前看起来开源软件似乎已经涵盖了各个方面,有开源的数据库、开源的商业智能和报表工具、开源的数据整合工具、开源的办公套件等等。还有一些情况,如Linux和Apache,开源的工具集就算不是领导者,也已经成为相关领域内被大众认可的首选工具。但更多的情况下,开源软件并不是市场的主流,只是在一些特殊的领域内使用,Office办公套件就是这种情况的一个例子。通常来说,大型公司或成立很久的老牌公司,比初创公司或学术型组织更少地使用开源工具。
1700433103
1700433104 开源工具一个引人注目的特点是有成千上万的人为改善提高该工具的性能在持续地做着贡献。由于有大量的开发者在其空闲时间持续优化这个工具,如果发现了某个错误,它会被很快修复。大部分开源项目有正式的组织进行支持。在某些情况下,这些组织可能是完全自愿的;在另一些情况下,可能有非营利组织的全职员工在管理这些项目。通过捐赠,非营利组织可以提供工资,但目的并不是通过软件本身获取收益,仅仅是确保对开源项目的有效管理。开源项目一直对各个领域有着巨大影响,也包括分析领域。下面我们来介绍R项目。
1700433105
1700433106 针对统计计算的R项目
1700433107
1700433108 开源工具达到了世界先进分析水平的一个例子是针对统计计算的R开源项目,也被简称为“R”。R是免费的开源分析软件包,它直接与各种商业分析工具进行竞争并互相补充。R最初是从“S”派生出来的,S是十多年前为统计计算开发的一种早期语言。使用R命名的原因是英文字母S后是R,并且该项目主要开发者的名字也是以R开头(Robert Gentleman与Ross Ihaka)。〔8〕
1700433109
1700433110 R得到了快速发展并且被大量的分析专家使用,在高校和研究领域使用尤为普遍。在现今的企业环境中,如果有一个大型的分析专家团队,通常至少有几个成员在使用R。
1700433111
1700433112 虽然商业工具更加优秀,但是R的影响力仍然在不断扩大。迄今为止,R已经拥有了大量的用户,主要分布在学术界而不是大型企业内。R更多用于研发类任务,而不是针对海量数据的关键生产分析流程。这种情况可能随着时间发生改变,但至少目前是这样的。
1700433113
1700433114 R具有许多强大的功能。相对于其他的分析工具集,R是面向对象的。它能和常用的编程平台,比如C++和JAVA进行连接,这使得在应用程序中嵌入R变得可行。事实上,商业分析工具已经能在内部工具集中执行R程序,这是一个非常吸引人的特性。这个话题的详细讨论超出了本书的范围。
1700433115
1700433116 也许,R的最大优势在于,只要新的模型或分析方法开发完成,这个分析功能就会被人集成到R中。R开发并上线新功能的速度远远超过其他的商业软件,一想到这点,就会感觉特别爽。通常情况下,当某个算法被证明有市场需求后,商业工具的开发商才会考虑将其整合到商业工具中。然后他们将把这个算法加入开发计划,进行编码,把这项工程放入未来的发布版中,这个过程可能会耗费好几年。但是R就不同了,一旦有人认为某一个算法是有价值的,人们就会在R中开发并实现它。
1700433117
1700433118 你在使用R吗?
1700433119
1700433120 R是一个有前途的开源分析工具集。近些年来,R获得了长足的发展并被广泛使用。R有自己的优势和缺点,并不是每一个组织或者组织中的任何问题都适合使用R。但无论如何,R总会有它自己的位置。
1700433121
1700433122 事实上,R是免费的,很多人非常看重这一点。然而,与其他的开源项目一样,有专门提供专有组件和服务的付费公司,这些公司能够帮助你实施或开发R程序,在某些情况下,它们拥有改进开源软件功能的组件。免费软件的一个消极方面是没有商业软件那样的支持。你可能或多或少地需要依靠自己去寻找答案,虽然有大型网络社区能寻找答案,但是并没有一个单独的个人或团队来负责提供支持。
1700433123
1700433124 R还有一个缺点是过于依靠编程。虽然R有一些图形化用户界面,但是很多用户仍然主要依靠编写代码。另外,R与类似的商业软件的接口还不够成熟。当然,随着时间推移和R的发展,这种情况可能会有所改变。
1700433125
1700433126 R的最大的劣势可能在于它的可扩展性。近期虽然有所改善,但是R仍然不具有其他商业软件和数据库那种级别的处理能力。R的基础软件运行在内存中而不是文件中,这意味着它仅能处理和机器可用内存相同大小的数据。即使一台非常昂贵的计算机,其内存总和也远远少于企业级数据集的处理需求,更别说大数据了。如果一个组织想要处理大数据,R可以是解决方案的一部分,但是由于R现今的地位,要成为解决方案的唯一组成部分还不现实。
1700433127
1700433128 越来越多的工具在开发R的连接包,包括一些商业分析软件。它会成为像Linux或Apache这样领先的产品吗?还是会继续保持小众,如开源办公套件那样?在专业分析领域,R未来会有什么样的地位与表现,这个问题只有时间才能回答。
1700433129
1700433130 驾驭大数据 [:1700430611]
1700433131 6.2.4 数据可视化的历史
1700433132
1700433133 数据可视化和数据本身一样古老。最近它成为了一个行业,不少人以讨论、研究和分析可视化技术作为职业,如Edward Tufte,他在这个领域创作了很多本书,其中就包括经典的A visual Display of Quantitative Information。〔9〕
1700433134
1700433135 Charles Joseph Menard对1812年拿破仑军队在莫斯科被消灭的描述一直被认为是最好的可视化例子。〔10〕如果通过本页注释的链接去看他绘制的图片,你就能清楚地想象出这些部队的经历。
1700433136
1700433137 在分析的领域里,可视化涉及图表、图像和展示数据的表格。在电脑未出现的时代,图像是手工绘制的。电脑彻底改变了数据的可视化方法,创建可视化变得更容易了。我的第一台彩色打印机,连接在我的老式计算机上。它有一个小巧的彩色圆珠笔,打印纸看起来像是宽的收据纸,圆珠笔在纸面上移动生成要绘制的图形。我可以创建一些低解析度的基础柱状图,稍微复杂点的图形就不行了。
1700433138
1700433139 早期分析软件实际上相当巧妙地采用了键盘字符来创建图表,可能并不漂亮,但是确实把意思表达得很清楚。柱状图中的每一个柱体由x字符组成,如图6-1所示,饼图由一段线段、逗号和破折号组成,而表格则由破折号“——”和竖线“|”组成框架。
1700433140
1700433141
1700433142
1700433143
1700433144 图6-1 早期、初级的柱状图
1700433145
1700433146 等到桌面办公软件流行后,几乎任何人都可以做一个漂亮的、五颜六色的图表或曲线图,并具有完整的标签、图例和坐标轴。分析工具的绘图能力也在提升,远远超过了基于文本的简单绘图模式。
1700433147
1700433148 然而,直到近期,可视化大多还是静态的。桌面报告或电子制表工具创建的图表通常是是静态的,除非数据被更新。通常,更新是手动完成的。如今,可视化工具甚至实现了与图形进行交互分析,以新的强大的方式来探索与分析数据。
1700433149
[ 上一页 ]  [ :1.7004331e+09 ]  [ 下一页 ]