1700511370
答:数据科学是一种方法论类别的学科。方法论类别的学科最大的劣势就是与解决具体问题的距离相对比较远。在日常生产和运营场景中,除了一般性的认知问题以外,还有决策问题等可能也需要我们用数据科学的思路去解决。
1700511371
1700511372
在日常生产和运营中,几乎避免不了要在决策中对多个方案进行比较和裁决。但是,比较和裁决通常会由于没有相应的标准而争执不下,所有人都会说某种方案好或不好、有利或不利。如果只是到此为止,那么大家就都是靠发表感慨的强烈程度或者声音大小来做判断了,这是难以服众的。
1700511373
1700511374
如果要用数据科学的观点来解决这类问题,通常有这样两个步骤。
1700511375
1700511376
(1)明确目标或目的
1700511377
1700511378
决策的内容通常是一个方案是否要去实施,或者在多个方案中哪个好、优先做哪个的问题。那么,裁定的过程就需要明确究竟以什么目的为准,是收益相等的情况下投入最小,投入相等的情况下收益最大,还是收益比投入的商值最大。这3种方案都是有道理的,只是收益与投入的核算边界要清晰,要明确规定是只计算材料成本,还是要同时计算人员及其他管理成本等。
1700511379
1700511380
(2)量化
1700511381
1700511382
决策的实质是一个评价过程或比较过程。只有有大小的东西才能比较,也就是说,决策中的每个方案、每个提议都要能够量化才具有说服力。即使争执再多,再赞同自己的观点或不赞同对方的观点,都要基于具体的数据说话。
1700511383
1700511384
数据这东西有一个奇怪的作用——即使人们再质疑其准确性,也是有比没有要好,权威数据比民间数据要好。有了数据,就可以把问题量化、简化。所以,如果不想糊里糊涂地做决策,那就用翔实的数据来做自己的武器吧。
1700511385
1700511386
问:数据科学研究问题的时候应该怎么去划定一个问题的边界呢?“打破砂锅问到底”这样的精神应该贯彻到什么程度呢?
1700511387
1700511388
答:对一个研究对象,首先要划定研究的边界。我认为,这个边界在具体的生产中可以只限定于解决一个或一类基本问题(痛点)即可。否则,无休止地“打破砂锅”也会大量消耗成本。
1700511389
1700511390
以本书开头提到的历法研究问题为例。在这个问题中,核心研究的对象是地球公转周期、自转周期及附带的气候变化问题,所以把带有这几个因素的模型讨论清楚就可以了。这个问题属于初等天文学和地理学研究的范畴,我们只要掌握天体运行周期之间的关系就足够了,没必要深究。至于导致四季变化的太阳直射角度问题,即为什么太阳直射会比斜射使地面温度更高,往深里研究是物理学和原子学的范畴,可以在其他学科里单独研究和讨论,而如果把这个问题也放在历法研究中的话,就会使历法的研究变得过于复杂,反而不利于讨论。所以,边界的划定在一个问题的研究中还是非常重要的。
1700511391
1700511392
问:我知道数学应该是挺有用的,但是为什么我对学习数学一点兴趣都没有?有什么方法可以帮助我学习数学吗?
1700511393
1700511394
答:数学是一种抽象科学,是把很多事物中共通的模型抽取出来进行量化研究的学科,它的特点有如下两个。
1700511395
1700511396
(1)抽象
1700511397
1700511398
数学作为已经剥离得一点“血肉”都没有的“骨架”,看上去当然不会让人有亲近感。但正因为数学把这些无关的维度从人类的视线感知中移除,才使人类更能把精力集中在对共通性质的研究上。
1700511399
1700511400
(2)泛化性好
1700511401
1700511402
所谓泛化性好,就是可以进行迁移应用,即换到任何一个场景中,只要模型一致或者类似,就可以应用。这个应用就是一个认知维度最小范围扩大化的过程,所以,在这个过程中我们会明白为什么以前在学校里总听老师说“要理论联系实际”。理论是认知维度极小化的精简描述,是忽略其他因素的割裂性的描述,其本质是认知维度扩大的迁移过程,因此有差异是理所当然的事情。
1700511403
1700511404
如果对数学没兴趣,可以把数学套用在你喜欢的场景里去学习。例如,《九章算术》中每个问题的场景都是实际生产中可能发生的,所以民间传抄就非常踊跃,根本不用人去鼓励。换成我们自己,可以套用经济学里的理财收益计算、理财产品设计思路,计算机领域的服务器负载计算与预测,以及身边任何我们感兴趣或者与我们的利益相关的场景,估计会有比较好的效果。
1700511405
1700511406
问:有没有必要研究Hive、SparkSQL、MySQL这些开源数据库软件的源代码呢?
1700511407
1700511408
答:这个问题要看个人的职业规划如何。如果你现在供职或者未来计划供职的是一家对这些软件有很强的个性化需求(例如对性能要求很高或者对数据支持规模很大)的公司,并且愿意投入足够多的人力来进行代码的修改和维护的话,还是可以花一些力气去研究的。否则,就个人修改这些代码并提交到GitHub而言,通常会由于你的修改是一种偏重场景的修改而导致受众较少,这意味着可能没人愿意与你合并代码,也就没有人愿意帮你一起维护这个Branch,你要永久独自维护这个Branch,花费的时间成本非常高。不过从个人兴趣和学习的角度来看,对这些开源软件的代码进行研究肯定是没有坏处的。
1700511409
1700511410
问:既然数据科学这么好,数字化这么好,为什么现在仍然有很多地方没有进行数字化呢?
1700511411
1700511412
答:数字化可以解决描述的简洁性和精确性问题,对完整的体系性、精确性认知有极大的帮助。然而,在数据科学和数字化落地的过程中,我们不能不注意落地本身的成本问题,因为这涉及这种行为是不是可以市场化,以及在市场化之后是不是能够得到广泛的认可。
1700511413
1700511414
现在大家看到的数字化落实比较好的领域,大都是高、精、尖领域及体量比较大的产业领域,因此在一些个人、小型企业和个体工商单位做数字化落地通常是很困难的,主要原因就是数字化落地的成本与收益的问题。在高、精、尖领域和大体量产业,投入的数字化和数据分析成本可以通过其体量的红利来产生大量的剩余价值,因此在这些领域进行数字化的阻力当然比较小,数字化甚至会成为其顺利进行的不可或缺的工具。而对于个人、小型企业和个体工商单位,数据科学及数字化的落地就意味着要投入成本,而这个成本在当前的体量下无法获得好的加成效果,因此对其剩余价值也就很难有所期许。
1700511415
1700511416
所以,数据科学或数字化的落地与研究是否适合当前的个体或组织的需要,仍然是一个ROI的决策问题。我认为,如果要在全社会范围内实现数据科学的普及化和数字化,还是需要走服务化的道路,提供高内聚、低耦合的数据服务才是普及的最佳路径。
1700511417
1700511418
问:数据科学如何帮助公司的日常管理?有方法可循吗?
1700511419
[
上一页 ]
[ :1.70051137e+09 ]
[
下一页 ]