打字猴:1.700498109e+09
1700498109 以发展最具代表性的中国工商银行为例,中国工商银行从2001年开始启动数据集中项目,刚开始考虑集中中国北部的数据到北京,中国南部的数据到上海,最终在2004年将全部数据集中到了上海,而北京则作为灾备中心,海外数据中心则安置在深圳。中国工商银行的数据量在当时是全中国最大的,大约每天的数据量都在TB级别。由于银行业存在一定的特殊性(性能要求低于安全和稳定要求),又因为当时业内可选的技术不多,因此中国工商银行选择了大型机+DB2的技术方案,实际上就是以关系型数据库作为数据存储的核心。
1700498110
1700498111 在3年的数据集中和后续5年基于主题模型(NCR金融模型)的数据仓库建设期间,中国工商银行无论在硬件网络和软件人力上都投入了巨大的资源,其数据仓库也终于成为中国第一个真正意义上的企业级数据中心和数据仓库。
1700498112
1700498113 其他银行和证券保险,甚至电信行业以及房地产行业的数据仓库建设,基本上也都是采用与工商银行相似的思路和做法在进行。
1700498114
1700498115 不过,随着时间的推移,数据量变得越来越大,硬件的更新换代也越来越快,于是,这类数据仓库逐渐显现出了问题,主要表现如下:
1700498116
1700498117 ❑少数几台大型机已经无法满足日益增加的日终计算任务的执行需求,导致很多数据结果为T-2(当天数据要延后2天才完成),甚至是T-3(当天数据要延后3天才完成)。
1700498118
1700498119 ❑硬件升级和存储升级的成本非常昂贵,维护、系统开发以及数据开发的人力资源开支也逐年加大。
1700498120
1700498121 ❑由于全国金融发展的进程差异很大,数据需求各不一样,加上成本等原因,不得不将一些数据计算任务下放到各个一级分行或者省分行进行,数据中心不堪重负。
1700498122
1700498123 随着互联网行业的逐渐蓬勃兴盛,占领数据存储技术领域巅峰的行业也从原有的国有银行企业转移到了阿里巴巴、腾讯、盛大、百度这样的新兴互联网企业。以阿里巴巴为例,阿里巴巴数据仓库也是经历了坎坷的发展历程,在多次重建后才最终站在了中国甚至世界的顶峰。
1700498124
1700498125 最开始的阿里巴巴互联网数据仓库建设,几乎就是中国工商银行的缩小版,互联网的数据从业人员几乎全部来自国内各大银行或电信行业,或者来自国外类似微软、yahoo这样的传统IT企业。
1700498126
1700498127 随着分布式技术的逐渐成熟和工业化,互联网数据仓库迎来了飞速发展的春天。现在,抛弃大型机+关系型数据库的模型,采用分布式的服务器集群+分布式存储的海量存储器,无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲,都是一次飞跃。更重要的是,解决了困扰数据仓库发展的一个非常重要的问题,即计算能力不足的问题,当100~200台网络服务器一起工作的时候,无论是什么样的大型机,都已经无法与之比拟了。
1700498128
1700498129 拿现在阿里云(阿里巴巴集团数据中心服务提供者)来讲,近1000台网络服务器分布式并行,支持着每日淘宝、支付宝、阿里巴巴三大子公司超过PB级别的数据量,随着技术的日益成熟和硬件成本的逐渐降低,未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。
1700498130
1700498131 [1]本节内容由阿里巴巴B2B的数据仓库专家蒿亮编写,蒿亮的微博地址为http://weibo.com/airjam,电子邮件为airjam.hao@gmail.com。
1700498132
1700498133
1700498134
1700498135
1700498136 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497484]
1700498137 数据挖掘与数据化运营实战:思路、方法、技巧与应用 1.4.2 精细化运营的需求
1700498138
1700498139 大数据时代的互联网行业所面临的竞争压力甚至已超过了传统行业。主要原因在于互联网行业的技术真正体现了日新月异、飞速发展的特点。以中国互联网行业的发展为例,作为第一代互联网企业的代表,新浪、搜狐、雅虎等门户网站的Web 1.0模式(传统媒体的电子化)从产生到被以Google、百度等搜索引擎企业的Web 2.0模式(制造者与使用者的合一)所超越,前后不过10年左右的时间,而目前Web 2.0模式已经逐渐有被以微博为代表的Web 3.0模式(SNS模式)超越的趋势。
1700498140
1700498141 互联网行业近乎颠覆性模式的进化演绎、技术的更新换代,既为互联网企业提供了机遇,又带给其沉重的竞争压力与生存的挑战。面对这种日新月异的竞争格局,互联网企业必须寻找比传统的粗放型运营更加有效的精细化运营制度和思路,以提升企业的效益和效率,而数据化运营就是精细化运营,它强调的是更细分、更准确、更个性化。没有精细化运营的需求,就不需要数据化运营;只有数据化运营,才可以满足精细化的效益提升。
1700498142
1700498143
1700498144
1700498145
1700498146 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497485]
1700498147 数据挖掘与数据化运营实战:思路、方法、技巧与应用 1.4.3 数据分析和数据挖掘技术的有效应用
1700498148
1700498149 数据分析和数据挖掘技术的有效应用是数据化运营的基础和技术保障,没有这个基础保障,数据化运营就是空话,就是无本之水,无缘之木。
1700498150
1700498151 这里的有效应用包括以下两层含义。
1700498152
1700498153 一是企业必须拥有一支能够胜任数据分析和数据挖掘工作的团队和一群出色的数据分析师。一名出色的数据分析师必须是多面手,他不仅要具备统计技能(能熟练使用统计技术和统计工具进行分析挖掘)、数据仓库知识(比如熟悉主流数据库基本技术,可以自助取数,可以有效与数据仓库团队沟通)、数据挖掘技能(熟练掌握主流数据挖掘技术和工具),更重要的是他还要具有针对具体业务的理解能力和快速学习能力,并且要善于与业务方沟通、交流。数据分析挖掘绝不是数据分析师或团队的闭门造车,要想让项目成功应用,必须要自始至终与业务团队并肩作战,从这点来看,业务理解力和沟通交流能力的重要性甚至要远远超过技术层面的能力(诸如统计技能、挖掘技能、数据仓库的技能)。从之前的分析可以看出,一名出色的数据分析师是需要时间、项目经验去磨砺去锻炼成长的,而作为企业来说,如何选择、培养、配备这样一支合格的分析师队伍,才是数据化运营的基础保障。
1700498154
1700498155 二是企业的数据化运营只有在分析团队与业务团队协同配合下才可能做出成绩,取得效果。分析团队做出的分析方案、数据模型,必须要在业务应用中得到检验,这不仅要求业务方主观的参与和支持,也要求业务方的团队和员工同样要具有相应的数据化运营能力和水平,运营团队的人员需要具备哪些与数据化运营相关的技能呢?这个问题我们将在第4章阐述。
1700498156
1700498157 无论是数据分析团队的专业能力,运营团队的专业能力,还是其他业务团队的专业能力,所体现的都是互联网企业的人才价值,这个人才价值与数据的价值一样,都是属于互联网行业的核心竞争力,正如阿里巴巴集团董事会主席兼CEO马云在多个场合强调的那样,“人才和数据是阿里巴巴集团最大的财富和最强大的核心竞争力”。
1700498158
[ 上一页 ]  [ :1.700498109e+09 ]  [ 下一页 ]