打字猴:1.70051139e+09
1700511390 以本书开头提到的历法研究问题为例。在这个问题中,核心研究的对象是地球公转周期、自转周期及附带的气候变化问题,所以把带有这几个因素的模型讨论清楚就可以了。这个问题属于初等天文学和地理学研究的范畴,我们只要掌握天体运行周期之间的关系就足够了,没必要深究。至于导致四季变化的太阳直射角度问题,即为什么太阳直射会比斜射使地面温度更高,往深里研究是物理学和原子学的范畴,可以在其他学科里单独研究和讨论,而如果把这个问题也放在历法研究中的话,就会使历法的研究变得过于复杂,反而不利于讨论。所以,边界的划定在一个问题的研究中还是非常重要的。
1700511391
1700511392 问:我知道数学应该是挺有用的,但是为什么我对学习数学一点兴趣都没有?有什么方法可以帮助我学习数学吗?
1700511393
1700511394 答:数学是一种抽象科学,是把很多事物中共通的模型抽取出来进行量化研究的学科,它的特点有如下两个。
1700511395
1700511396 (1)抽象
1700511397
1700511398 数学作为已经剥离得一点“血肉”都没有的“骨架”,看上去当然不会让人有亲近感。但正因为数学把这些无关的维度从人类的视线感知中移除,才使人类更能把精力集中在对共通性质的研究上。
1700511399
1700511400 (2)泛化性好
1700511401
1700511402 所谓泛化性好,就是可以进行迁移应用,即换到任何一个场景中,只要模型一致或者类似,就可以应用。这个应用就是一个认知维度最小范围扩大化的过程,所以,在这个过程中我们会明白为什么以前在学校里总听老师说“要理论联系实际”。理论是认知维度极小化的精简描述,是忽略其他因素的割裂性的描述,其本质是认知维度扩大的迁移过程,因此有差异是理所当然的事情。
1700511403
1700511404 如果对数学没兴趣,可以把数学套用在你喜欢的场景里去学习。例如,《九章算术》中每个问题的场景都是实际生产中可能发生的,所以民间传抄就非常踊跃,根本不用人去鼓励。换成我们自己,可以套用经济学里的理财收益计算、理财产品设计思路,计算机领域的服务器负载计算与预测,以及身边任何我们感兴趣或者与我们的利益相关的场景,估计会有比较好的效果。
1700511405
1700511406 问:有没有必要研究Hive、SparkSQL、MySQL这些开源数据库软件的源代码呢?
1700511407
1700511408 答:这个问题要看个人的职业规划如何。如果你现在供职或者未来计划供职的是一家对这些软件有很强的个性化需求(例如对性能要求很高或者对数据支持规模很大)的公司,并且愿意投入足够多的人力来进行代码的修改和维护的话,还是可以花一些力气去研究的。否则,就个人修改这些代码并提交到GitHub而言,通常会由于你的修改是一种偏重场景的修改而导致受众较少,这意味着可能没人愿意与你合并代码,也就没有人愿意帮你一起维护这个Branch,你要永久独自维护这个Branch,花费的时间成本非常高。不过从个人兴趣和学习的角度来看,对这些开源软件的代码进行研究肯定是没有坏处的。
1700511409
1700511410 问:既然数据科学这么好,数字化这么好,为什么现在仍然有很多地方没有进行数字化呢?
1700511411
1700511412 答:数字化可以解决描述的简洁性和精确性问题,对完整的体系性、精确性认知有极大的帮助。然而,在数据科学和数字化落地的过程中,我们不能不注意落地本身的成本问题,因为这涉及这种行为是不是可以市场化,以及在市场化之后是不是能够得到广泛的认可。
1700511413
1700511414 现在大家看到的数字化落实比较好的领域,大都是高、精、尖领域及体量比较大的产业领域,因此在一些个人、小型企业和个体工商单位做数字化落地通常是很困难的,主要原因就是数字化落地的成本与收益的问题。在高、精、尖领域和大体量产业,投入的数字化和数据分析成本可以通过其体量的红利来产生大量的剩余价值,因此在这些领域进行数字化的阻力当然比较小,数字化甚至会成为其顺利进行的不可或缺的工具。而对于个人、小型企业和个体工商单位,数据科学及数字化的落地就意味着要投入成本,而这个成本在当前的体量下无法获得好的加成效果,因此对其剩余价值也就很难有所期许。
1700511415
1700511416 所以,数据科学或数字化的落地与研究是否适合当前的个体或组织的需要,仍然是一个ROI的决策问题。我认为,如果要在全社会范围内实现数据科学的普及化和数字化,还是需要走服务化的道路,提供高内聚、低耦合的数据服务才是普及的最佳路径。
1700511417
1700511418 问:数据科学如何帮助公司的日常管理?有方法可循吗?
1700511419
1700511420 答:数据科学作为一种认知科学,其本身有相对固定的实施套路。公司的日常管理,说到底是协作问题。好的管理会使协作效率提高,不好的管理会使协作效率降低。
1700511421
1700511422 如果希望从数据层面对日常管理的有效性进行改进,应该注意日常工作效率的指标化,并不断通过各种局部的战术层面的工作方式改进与已有的工作模式进行对照,用这种方式来量化解释新的工作方式是否有助于协作效率的提高。这种方法很有效,而且极有说服力。如果你是一位希望提高工作中协作效率的管理者,就应该想办法从这一刻开始努力量化工作中诸多对工作效率进行描述的环节,并通过对方法的改进,逐步观察这些效率是否因你的改进而得到了明显的提高。
1700511423
1700511424 问:可以用数据科学精确地解释市场经济行为吗?
1700511425
1700511426 答:我想问这个问题的目的应该是希望通过对市场数据的分析进行市场预测。
1700511427
1700511428 市场是由大量商品供需的成交而形成的体系。市场中的交易动机,不论是为了投机,还是作为最终用户直接使用,在市场上体现出来的都是对某种商品买入或者卖出的情绪——不管是汽车、房子、农产品、石油,还是智能手机、中草药,甚至是某种虚拟或者实体的货币。
1700511429
1700511430 影响市场的因素非常复杂。人们购买一些东西,有的时候可能是受周围人的购入或卖出情绪的影响,有的时候可能是受新闻中释放出来的信号的影响。在华尔街有一句谚语:“市场是在爬一堵担忧的墙。”这句话主要应用在金融市场,大意是说,市场上都是由于某些担忧的情绪,才会去抛出一些风险高的产品,买入一些可以避险的产品。这种对于产品喜爱或厌恶的情绪通常体现在其他产品的供需上,产品价格的波动通常而且一定是由供需不平衡造成的。
1700511431
1700511432 市场情绪和其他我们能够感知的内容之间应该有着某种“客观存在”的联系,而大多数情况下的主要矛盾是我们对这些消息的获取能力很低,对相关维度的感知能力很低——无法获取这些数据,造成我们对市场行为的判断不准确。这也是没有办法的事情,因为建立模型的任务确实复杂到了一个人或者一个小型组织无法负担的程度——不知道拉普拉斯妖有没有这个能力,或许有。
1700511433
1700511434 当然,在一些情况下,市场对于某些商品的追逐确定性是比较高的。
1700511435
1700511436 我们以避险货币日元为例,由于其流动性好,所以在市场上出现一些风险事件的时候,日元往往会表现出大涨的现象。例如,“英国脱欧”、“苏格兰脱英公投”这种风险事件的消息一旦放出,短时间内会就看到日元有一波比较明显的上涨。
1700511437
1700511438 除了货币以外,其他商品同样拥有一些影响权重极大的信息维度可以让我们在不参考太多其他因素的情况下判断涨跌,例如房价问题。房价在中国也是一个非常复杂的问题,虽然在很多城市都有一些政策性的行为参与楼市调控,让人感觉预测起来非常困难,总是不知道“泡沫”有多大、哪里是拐点,但是房价的本质仍然是房屋的供需问题。一个城市的房价是上涨还是下跌,主要是当地外来人口的涌入速度和房屋建设速度较量的结果。三四线城市房价上涨乏力的原因是房屋建设太多,没有足够的外来人口支撑买盘压力。因为到三四线城市买房的人可能大都是周边乡村的人,如果这些人的就业问题无法在这些城市得到解决,房价的保持就根本无从谈起。而像北、上、广、深等大城市,只要外来人口持续快速涌入,而房屋的供应无法跟上,那么结果确实只有一个——房价一定有极大的上涨压力。而不知道“泡沫”有多少、哪里是拐点,原因无非就是没有掌握相关数据。一旦能够拿到相关数据,我们就可以用数据认知的方法来处理——“拟合”一下就可以对中短期的房价趋势作出相对准确的判断。至于长期判断应当如何做,真的不好说——谁让这个混沌的世界会不时地给我们带来一些意外呢?
1700511439
[ 上一页 ]  [ :1.70051139e+09 ]  [ 下一页 ]