1700498086
1700498087
1961年:美国通用电气公司(General Electric)的Charles Bachman开发了第一个数据库管理系统——IDS。
1700498088
1700498089
1969年:E.F.Codd发明了关系数据库。
1700498090
1700498091
1973年:由John J.Cullinane领导的Cullinane公司开发了IDMS——一个针对IBM主机的基于网络模型的数据库。
1700498092
1700498093
1976年:Honeywell公司推出了Multics Relational Data Store——第一个商用关系数据库产品。
1700498094
1700498095
1979年:Oracle公司引入了第一个商用SQL关系数据库管理系统。
1700498096
1700498097
1983年:IBM推出了DB2数据库产品。
1700498098
1700498099
1985年:为Procter&Gamble系统设计的第一个商务智能系统产生。
1700498100
1700498101
1991年:W.H.BillInmon发表了文章《构建数据仓库》。
1700498102
1700498103
2012年:最新的存储技术为分布式数据仓库、海量数据存储技术和流计算的实时数据仓库技术。
1700498104
1700498105
回首中国企业的数据存储之路,国内的数据存储技术的发展经历了将近30年,而真正的飞速发展则是最近10年。
1700498106
1700498107
国内的数据存储的先驱是国有银行,在21世纪初,四大国有银行的全国数据中心项目(将分布在全国各个省行和直属一级分行的数据集中到数据中心)拉开了数据技术飞速发展的帷幕。
1700498108
1700498109
以发展最具代表性的中国工商银行为例,中国工商银行从2001年开始启动数据集中项目,刚开始考虑集中中国北部的数据到北京,中国南部的数据到上海,最终在2004年将全部数据集中到了上海,而北京则作为灾备中心,海外数据中心则安置在深圳。中国工商银行的数据量在当时是全中国最大的,大约每天的数据量都在TB级别。由于银行业存在一定的特殊性(性能要求低于安全和稳定要求),又因为当时业内可选的技术不多,因此中国工商银行选择了大型机+DB2的技术方案,实际上就是以关系型数据库作为数据存储的核心。
1700498110
1700498111
在3年的数据集中和后续5年基于主题模型(NCR金融模型)的数据仓库建设期间,中国工商银行无论在硬件网络和软件人力上都投入了巨大的资源,其数据仓库也终于成为中国第一个真正意义上的企业级数据中心和数据仓库。
1700498112
1700498113
其他银行和证券保险,甚至电信行业以及房地产行业的数据仓库建设,基本上也都是采用与工商银行相似的思路和做法在进行。
1700498114
1700498115
不过,随着时间的推移,数据量变得越来越大,硬件的更新换代也越来越快,于是,这类数据仓库逐渐显现出了问题,主要表现如下:
1700498116
1700498117
❑少数几台大型机已经无法满足日益增加的日终计算任务的执行需求,导致很多数据结果为T-2(当天数据要延后2天才完成),甚至是T-3(当天数据要延后3天才完成)。
1700498118
1700498119
❑硬件升级和存储升级的成本非常昂贵,维护、系统开发以及数据开发的人力资源开支也逐年加大。
1700498120
1700498121
❑由于全国金融发展的进程差异很大,数据需求各不一样,加上成本等原因,不得不将一些数据计算任务下放到各个一级分行或者省分行进行,数据中心不堪重负。
1700498122
1700498123
随着互联网行业的逐渐蓬勃兴盛,占领数据存储技术领域巅峰的行业也从原有的国有银行企业转移到了阿里巴巴、腾讯、盛大、百度这样的新兴互联网企业。以阿里巴巴为例,阿里巴巴数据仓库也是经历了坎坷的发展历程,在多次重建后才最终站在了中国甚至世界的顶峰。
1700498124
1700498125
最开始的阿里巴巴互联网数据仓库建设,几乎就是中国工商银行的缩小版,互联网的数据从业人员几乎全部来自国内各大银行或电信行业,或者来自国外类似微软、yahoo这样的传统IT企业。
1700498126
1700498127
随着分布式技术的逐渐成熟和工业化,互联网数据仓库迎来了飞速发展的春天。现在,抛弃大型机+关系型数据库的模型,采用分布式的服务器集群+分布式存储的海量存储器,无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲,都是一次飞跃。更重要的是,解决了困扰数据仓库发展的一个非常重要的问题,即计算能力不足的问题,当100~200台网络服务器一起工作的时候,无论是什么样的大型机,都已经无法与之比拟了。
1700498128
1700498129
拿现在阿里云(阿里巴巴集团数据中心服务提供者)来讲,近1000台网络服务器分布式并行,支持着每日淘宝、支付宝、阿里巴巴三大子公司超过PB级别的数据量,随着技术的日益成熟和硬件成本的逐渐降低,未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。
1700498130
1700498131
[1]本节内容由阿里巴巴B2B的数据仓库专家蒿亮编写,蒿亮的微博地址为http://weibo.com/airjam,电子邮件为airjam.hao@gmail.com。
1700498132
1700498133
1700498134
1700498135
[
上一页 ]
[ :1.700498086e+09 ]
[
下一页 ]