1700511340
大数据比数据科学的范围更为具象。数据通过各种软件进行收集,通过网络进行传输,通过云数据中心进行存储,通过数据科学家或者行业专家进行建模和加工。通过数据分析得到的是一种知识,是一种人们通过数据洞悉世界的能力。数据之间原本错综复杂的潜在关系,会使大量孤立且多来源的数据因为同时出现在一个舞台而显得更为有趣,大量看似不相关的事情却能够通过观察与分析使人们知晓更多背后的因果。这些因果联系的意义会让人们能够在各个方面推测未来的趋势,减少试错的机会,缩减成本,降低风险,解放劳动力。这是大数据产业本身的价值与意义所在。
1700511341
1700511342
问:数据科学能解决所有的问题吗?
1700511343
1700511344
答:数据科学作为一种贯穿于所有生产与认知领域的学科,是一种类似方法论的学科。因为未知事物永远比已知事物多,所以如何正确地、科学地认知未知事物并使其成为已知,就是一个指导思想方面的问题了。形成这样一种思维方式比具体解开一个局部性的问题更为重要。
1700511345
1700511346
数据科学的套路也非常固定。
1700511347
1700511348
(1)建立假说
1700511349
1700511350
建立一个概念假说作为研究的目标。
1700511351
1700511352
(2)观测与证明
1700511353
1700511354
将这个假说的条件和环境设定放到生产生活中加以观察,或者干脆在实验室环境中设计一个完整的实验,通过不断地观测,尤其是量化观测,对假说的内容进行证明或证伪。因为数据科学本身就注重精确性(也就是量化环节),而且一切科学全都是以实验为本,也就是说,以观测到的结果作为认知依据,以此判定是否应验,所以这个量化观测最为关键。
1700511355
1700511356
(3)归纳与调整
1700511357
1700511358
在观测的过程中会获得大量的观测数据,要对这些数据进行充分且科学化的分析,然后根据这些数据进行归纳总结,进而对假说的内容进行相应的调整。因为最初假说中的内容很可能与实际的观测结果有出入,所以这个时候就要在辩证思维的帮助下去发现和排除观测中不周密的因素,或者重新审视假说的严谨性,并进行相应的调整。
1700511359
1700511360
这种套路可以复用在很多的科学与生产场景中,屡试不爽。
1700511361
1700511362
问:数学不好是不是就不能学习数据科学呢?
1700511363
1700511364
答:首先,数据科学作为一种贯穿于所有生产与认知领域的学科,是一种方法论类型的学科。既然是方法论,那么学习过程中要着重理解其运作方式。
1700511365
1700511366
所谓数学不好,或许是指无法在课堂上解决数学题或者不具备用数学建模的方式解决复杂问题的能力。但是,对于事物的认知,尤其是基于统计的认知,关键在于悉心观察与思考,而是否一定要用高深的数学功底去解决一个问题,要视所在领域而定。所以,数学不好对于学习数据科学的影响是有限的,我们只要能在自己擅长的领域去应用数据科学的认知方式就好。
1700511367
1700511368
问:数据科学能帮我们解决具体问题吗?
1700511369
1700511370
答:数据科学是一种方法论类别的学科。方法论类别的学科最大的劣势就是与解决具体问题的距离相对比较远。在日常生产和运营场景中,除了一般性的认知问题以外,还有决策问题等可能也需要我们用数据科学的思路去解决。
1700511371
1700511372
在日常生产和运营中,几乎避免不了要在决策中对多个方案进行比较和裁决。但是,比较和裁决通常会由于没有相应的标准而争执不下,所有人都会说某种方案好或不好、有利或不利。如果只是到此为止,那么大家就都是靠发表感慨的强烈程度或者声音大小来做判断了,这是难以服众的。
1700511373
1700511374
如果要用数据科学的观点来解决这类问题,通常有这样两个步骤。
1700511375
1700511376
(1)明确目标或目的
1700511377
1700511378
决策的内容通常是一个方案是否要去实施,或者在多个方案中哪个好、优先做哪个的问题。那么,裁定的过程就需要明确究竟以什么目的为准,是收益相等的情况下投入最小,投入相等的情况下收益最大,还是收益比投入的商值最大。这3种方案都是有道理的,只是收益与投入的核算边界要清晰,要明确规定是只计算材料成本,还是要同时计算人员及其他管理成本等。
1700511379
1700511380
(2)量化
1700511381
1700511382
决策的实质是一个评价过程或比较过程。只有有大小的东西才能比较,也就是说,决策中的每个方案、每个提议都要能够量化才具有说服力。即使争执再多,再赞同自己的观点或不赞同对方的观点,都要基于具体的数据说话。
1700511383
1700511384
数据这东西有一个奇怪的作用——即使人们再质疑其准确性,也是有比没有要好,权威数据比民间数据要好。有了数据,就可以把问题量化、简化。所以,如果不想糊里糊涂地做决策,那就用翔实的数据来做自己的武器吧。
1700511385
1700511386
问:数据科学研究问题的时候应该怎么去划定一个问题的边界呢?“打破砂锅问到底”这样的精神应该贯彻到什么程度呢?
1700511387
1700511388
答:对一个研究对象,首先要划定研究的边界。我认为,这个边界在具体的生产中可以只限定于解决一个或一类基本问题(痛点)即可。否则,无休止地“打破砂锅”也会大量消耗成本。
1700511389
[
上一页 ]
[ :1.70051134e+09 ]
[
下一页 ]