1700505286
4.3.3 目标一致与不一致
1700505287
1700505288
说到“使用数据科学来求解问题”这个课题,我们必须认同一个重要的观点——出发点必须一致。如果出发点不一致,每个人都站在不同的观点上对事情进行评价,每个参与的人都用自己的价值观和利益观点来进行评价,就无法得到公允的解决方案——因为公允的评价方式不存在。怎么办?还是要回归到简化模型的观点上来——定义目标,量化目标。
1700505289
1700505290
在机器学习领域有一个概念叫作“损失函数”,相信对机器学习有过一些研究的读者朋友不会感到陌生。其实,不仅是机器学习领域,在数据分析和工程优化等领域都有这个概念存在。所谓损失函数就是用来衡量和比较多种方案的优劣程度的量化工具。对于一个问题的多个解的比较过程,只要比较损失函数的值就可以了——这是一种极为理想的方案。
1700505291
1700505292
损失函数根据定义,会有一个对评价的完整解释,例如“损失函数越小,说明解越好”。在线性回归中的表示方法如下:
1700505293
1700505294
1700505295
1700505296
1700505297
这个模型希望把误差e描述成所有的样本值y与axi+b的差,也就是e为0的时候最为理想,拟合没有误差(12)。当然,误差e越大,说明拟合失真越大,拟合效果越不好。
1700505298
1700505299
1700505300
1700505301
1700505302
在机器学习领域,每种模型的训练都需要定义Loss函数,它表示的意义通常也是拟合结果与期望结果的差值的和——当然也是越小越好,和前面说的e的定义是一样的。在不同的场合,这种Loss函数的形式可能会不同。在损失函数的比较中,会认为其值越小越好;而在其他场合,会定义一些越大越好的目标函数来解释“收益”的问题,这种情况下函数值越大越好,考试成绩就是一种常见的目标函数。它们所完成的功能都是“评价”,即量化评价一个方案的效果如何。
1700505303
1700505304
目标的一致化给问题的讨论和求解带来了可能。这种方式给我们带来的好处在后面的章节还会具体讨论,现在我们只要知道这种目标一致的思路是数据科学解决问题思路的重要元素就可以了。
1700505305
1700505306
1700505307
1700505308
1700505310
数据科学家养成手册 4.4 本章小结
1700505311
1700505312
数据科学首先作为科学,应该满足科学的基本定义。在此之上,数据科学还兼具数据本身的一些特性。
1700505313
1700505314
数据作为信息的载体,通过在介质上的落地和传输,以及数据之间体系性的计算,给人类带来了“消除不确定性,降低试错成本”的巨大利益。在本章中,我们讨论的是数据科学的宏观价值与意义。至于整个数据科学在现代生产中如何落地,以及在每个环节应当注意的问题,在“实践篇”还会专门讨论。
1700505315
1700505316
(1) 中国黄河中游地区以龙山文化陶寺类型为主的遗址,还包括庙底沟二期文化和少量战国、汉、金、元时期的遗存。位于山西省襄汾县陶寺村南,东西约2000米,南北约1500米,面积约280万平方米,是中原地区龙山文化遗址中规模最大的一处。
1700505317
1700505318
(2) 根据碳-14衰变的程度来计算样品大概年代的一种测量方法。这一原理通常用来测定古生物化石的年代。
1700505319
1700505320
(3) 五帝之一尧的都城,建成年代比夏朝还要早。
1700505321
1700505322
(4) 英国质量单位,也叫“长吨”。1英吨等于2240磅,合1016.04千克。
1700505323
1700505324
(5) SOCKET方式、IP协议中的一种通信方式。源IP地址和目的IP地址及源端口号和目的端口号的组合称为套接字,用于标识客户端请求的服务器和服务。
1700505325
1700505326
(6) 简单对象访问协议是一种用于交换数据的协议规范,是一种轻量的、简单的、基于XML(标准通用标记语言下的一个子集)的协议,它被设计成在Web上交换结构化和固化的信息。
1700505327
1700505328
(7) 中国最早期的城市,现位于陕西省西安市长安区。
1700505329
1700505330
(8) 分离、分崩离析之含义。
1700505331
1700505332
(9) 节选自《后汉书》卷三十三志第二十三·郡国五。
1700505333
1700505334
(10) 节选自《后汉书》卷二十九志第十九·郡国一。
[
上一页 ]
[ :1.700505285e+09 ]
[
下一页 ]