1700532466
百面机器学习:算法工程师带你去面试 机器学习算法工程师的自我修养
1700532467
1700532468
通往机器学习算法工程师的进阶之路是崎岖险阻的。《线性代数》 《统计学习方法》《机器学习》《模式识别》《深度学习》,以及《颈椎病康复指南》,这些书籍将长久地伴随着你的工作生涯。
1700532469
1700532470
除了拥有全面、有条理的知识储备,我认为,想成为一名优秀的算法工程师,更重要的是对算法模型有着发自心底的热忱,对研究工作有一种匠心精神。这种匠心精神,直白来讲,可以概括为:发现问题的眼光、解决问题的探索精神,以及对问题究原竟委的执着追求。这里,我想给大家分享一个小故事,也是发生在本书作者身边真实的情景。
1700532471
1700532472
在微信红包占领家家户户年夜饭的那个时代,我们的小伙伴也没有例外。一群心有猛虎、细嗅蔷薇的算法研究员深切意识到自己不仅手速慢,运气也可谓糟糕。在埋头疯点手机屏幕的间隙,他们查阅了抢红包策略的相关文献,发现国内外对这一理论框架的探究极度匮乏。知识拯救命运,他们决定将红包机制的公平性提升到理论高度。通过大量的模拟实验,统计在不同顺位领到红包的大小。数据分析显示,越后面领到红包的人,虽然红包金额的期望(均值)和前面的人相同,但方差会更大,这也意味着他们更容易获得一些大额红包。从此,掌握这一规律的研究员们在各个群中“屡试不爽”,再也没有抢到过红包,留下的只有“手慢了,红包派完了”几个大字。
1700532473
1700532474
新年钟声敲响的时分临近,Boss级别的人物往往会在群里发一些超级大额的红包。最夸张的一次有一位幸运儿在10人红包中领到2角钱,还没来得及在心中完成“老板真抠门”的碎碎念,抬头定睛一看,最佳手气500多元。判若云泥的手气虽没有埋下同事关系间的芥蒂,却让这帮算法工程师们产生了新的思考——如果把大额红包分成多份给大家抢,会减小“人品”因素带来的“贫富差距”吗?理论结合实际,他们不仅通过数学推导确认这一结论,还设计了一系列实验证明了多个红包的确会缩小不同人领到红包金额之间的差异性(方差)。从此,他们组的Leader在发大红包的时候都会刻意平均分成几份,既增加了大家抢红包的乐趣,又避免了有人因运气不佳而扼腕兴叹的愤懑。
1700532475
1700532476
当然,故事不止于此。他们还利用红包的特性编写了一系列面试题,筛选着一批又一批的机器学习算法工程师,例如,“用红包产生随机数”“用红包随机选出n个候选人”,诸如此类源自生活的小问题在本书后续章节中亦不难寻其踪迹。
1700532477
1700532478
这种探究问题的匠心精神充斥着他们生活的各个角落。每天下楼吃饭等电梯的时候,因担心上厕所错过电梯,他们建立多个模型分析不同时段电梯平均等待时间对应厕所时机的最优选择;在夕阳的余晖下欣赏湖光塔影时,他们会思考为何粼粼波光成了图像编码中的棘手难题;打开购物APP看着目不暇接的喜欢抑或不喜欢的商品,他们反思自己搭建的推荐系统是否也会让用户有着相同的无奈或是欣喜。每一件小事,因为对研究有了热爱,都可以成为工作的一部分,成为开启机器学习大门的钥匙。
1700532479
1700532480
工作中的算法工程师,很多时候,会将生活中转瞬即逝的灵感,付诸产品化。组里的一位同事在看某国产剧的时候,发现可以非常方便地跳过片头和片尾。从消费者的角度出发,这的确是一个大有裨益的产品特征,于是他仔细统计了我们自己平台的视频源数据,发现只有一部分视频含有片头、片尾的时间点信息,而且都是人为标记的。试想,对于一家具有百万量级内容源的视频公司,在所有的剧集上人为标记片头、片尾信息有如天方夜谭。通过广泛的背景调研、方法尝试,攫取前人工作之精华,不断加以创新,依据自己的数据特点量体裁衣,他们的团队设计出了一种基于深度神经网络与浅层特征融合的片尾自动检测模型。经过反复的迭代与充分的实验,得到了令人满意的结果。这一工作也申请了美国发明专利,并一步步走向产品化。
1700532481
1700532482
将算法研究应用到工作中,与纯粹的学术研究有着一点最大的不同,即需要从用户的角度思考问题。很多时候,你需要明确设计的产品特征、提升的数据指标,是不是能真正迎合用户的需求,这便要求算法工程师能在多个模型间选择出最合适的那个,然后通过快速迭代达到一个可以走向产品化的结果。这种创新精神与尝试精神便是“匠心”一词在工作中的体现。
1700532483
1700532484
当然,匠心精神诚可贵,知识储备作为成功的根底亦必不可少,这也是我们写作这本书的初衷。扎实的数学基础、完整的算法体系、深入的模型理解,是我们想传达给读者的精华之所在。本书前几章内容,如特征工程、模型评估、经典模型等,是机器学习领域的基石,是每个算法工程师应该融会贯通,内化于自己知识体系中的。而想成为一个研究专业或是应用领域的专家,则需要在技能树中的某几个分支不断生长发展。或许大家都听过啤酒与尿布的小故事,但搭建一个成熟、稳定的推荐系统,不仅需要通晓降维(第4章)、优化算法(第7章),更要对神经网络(第9章、第10章)、强化学习(第11章)等新生代模型不断钻研、深入理解,将学术前沿与产品形态紧密结合。例如,若是在技能树中专攻马尔可夫模型、主题模型(第6章),建立完整的概率图模型知识网络,并将循环神经网络(第10章)的理论体系融会贯通,形成自己独到的理解和感悟,便可以在机器翻译、语音聊天助手等自然语言处理的应用场景中驾轻就熟,游刃有余。
1700532485
1700532486
成为机器学习算法工程师的道路固然崎岖,却充满着旖旎和壮阔。你需要做的只是,想清自己真正想成为的那个角色,踏踏实实地在本书中汲取足够多的养分,然后,静静合上书页,在生活中体会种种细节,感受机器学习的璀璨多姿。
1700532487
1700532488
葫芦娃
1700532489
1700532490
2018年4月
1700532491
1700532492
1700532493
1700532494
1700532495
问题 页码 难度级 笔记 第1章 特征工程 为什么需要对数值类型的特征做归一化? 002 ★☆☆☆☆ 怎样处理类别型特征? 004 ★★☆☆☆ 什么是组合特征?如何处理高维组合特征? 006 ★★☆☆☆ 怎样有效地找到组合特征? 009 ★★☆☆☆ 有哪些文本表示模型?它们各有什么优缺点? 011 ★★☆☆☆ 如何缓解图像分类任务中训练数据不足带来的问题? 016 ★★☆☆☆ Word2Vec是如何工作的?它和隐狄利克雷模型有什么区别与联系? 013 ★★★☆☆ 第2章 模型评估 准确率的局限性。 022 ★☆☆☆☆ 精确率与召回率的权衡。 023 ★☆☆☆☆ 平方根误差的“意外”。 025 ★☆☆☆☆ 什么是ROC曲线? 027 ★☆☆☆☆ 为什么要进行在线A/B测试? 037 ★☆☆☆☆ 如何进行线上A/B测试? 038 ★☆☆☆☆ 过拟合和欠拟合具体是指什么现象? 045 ★☆☆☆☆ 如何绘制ROC曲线? 028 ★★☆☆☆ 如何计算AUC? 030 ★★☆☆☆ 为什么在一些场景中要使用余弦相似度而不是欧氏距离? 033 ★★☆☆☆ 如何划分实验组和对照组? 038 ★★☆☆☆ 模型评估过程中的验证方法及其优缺点。 040 ★★☆☆☆ 能否说出几种降低过拟合和欠拟合风险的方法? 046 ★★☆☆☆ ROC曲线相比P-R曲线有什么特点? 030 ★★★☆☆ 余弦距离是否是一个严格定义的距离? 034 ★★★☆☆ 自助法采样在极限情况下会有多少数据从未被选择过? 041 ★★★☆☆ 超参数有哪些调优方法? 043 ★★★☆☆ 第3章 经典算法 逻辑回归相比线性回归,有何异同? 058 ★★☆☆☆ 决策树有哪些常用的启发函数? 062 ★★☆☆☆ 线性可分的两类点在SVM分类超平面上的投影仍然线性可分吗? 051 ★★★☆☆ 证明存在一组参数使得高斯核SVM的训练误差为0。 054 ★★★☆☆ 加入松弛变量的SVM的训练误差可以为0吗? 056 ★★★☆☆ 用逻辑回归处理多标签分类任务的一些相关问题。 059 ★★★☆☆ 如何对决策树进行剪枝? 067 ★★★☆☆ 训练误差为0的SVM分类器一定存在吗? 055 ★★★★☆ 第4章 降维 从最大方差的角度定义PCA的目标函数并给出求解方法。 074 ★★☆☆☆ 从回归的角度定义PCA的目标函数并给出对应的求解方法。 078 ★★☆☆☆ 线性判别分析的目标函数以及求解方法。 083 ★★☆☆☆ 线性判别分析与主成分分析的区别与联系 086 ★★☆☆☆ 第5章 非监督学习 K均值聚类算法的步骤是什么? 093 ★★☆☆☆ 高斯混合模型的核心思想是什么?它是如何迭代计算的? 103 ★★☆☆☆ K均值聚类的优缺点是什么?如何对其进行调优? 094 ★★★☆☆ 针对K均值聚类的缺点,有哪些改进的模型? 097 ★★★☆☆ 自组织映射神经网络是如何工作的?它与K均值算法有何区别? 106 ★★★☆☆ 怎样设计自组织映射神经网络并设定网络训练参数? 109 ★★★☆☆ 以聚类算法为例,如何区分两个非监督学习算法的优劣? 111 ★★★☆☆ 证明K均值聚类算法的收敛性。 099 ★★★★☆ 第6章 概率图模型 写出图6.1(a)中贝叶斯网络的联合概率分布。 118 ★☆☆☆☆ 写出图6.1(b)中马尔可夫网络的联合概率分布。 119 ★☆☆☆☆ 解释朴素贝叶斯模型的原理,并给出概率图模型表示。 121 ★★☆☆☆ 解释最大熵模型的原理,并给出概率图模型表示。 122 ★★☆☆☆ 常见的主题模型有哪些?试介绍其原理。 133 ★★☆☆☆ 如何确定LDA模型中的主题个数? 136 ★★☆☆☆ 常见的概率图模型中,哪些是生成式的,哪些是判别式的? 125 ★★★☆☆ 如何对中文分词问题用隐马尔可夫模型进行建模和训练? 128 ★★★☆☆ 如何用主题模型解决推荐系统中的冷启动问题? 137 ★★★☆☆ 最大熵马尔可夫模型为什么会产生标注偏置问题?如何解决? 129 ★★★★☆ 第7章 优化算法 有监督学习涉及的损失函数有哪些? 142 ★☆☆☆☆ 训练数据量特别大时经典梯度法存在的问题,如何改进? 155 ★☆☆☆☆ 机器学习中哪些是凸优化问题?哪些是非凸优化问题? 145 ★★☆☆☆ 无约束优化问题的求解。 148 ★★☆☆☆ 随机梯度下降法失效的原因。 158 ★★☆☆☆ 如何验证求目标函数梯度功能的正确性? 152 ★★★☆☆ 随机梯度下降法的一些变种。 160 ★★★☆☆ L1正则化使得模型参数具有稀疏性的原理是什么? 164 ★★★☆☆ 第8章 采样 如何编程实现均匀分布随机数生成器? 174 ★☆☆☆☆ 简述MCMC采样法的主要思想。 185 ★☆☆☆☆ 举例说明采样在机器学习中的应用。 172 ★★☆☆☆ 简单介绍几种常见的MCMC采样法。 186 ★★☆☆☆ MCMC采样法如何得到相互独立的样本? 187 ★★☆☆☆ 简述一些常见的采样方法的主要思想和具体操作。 176 ★★★☆☆ 如何对高斯分布进行采样? 180 ★★★☆☆ 如何对贝叶斯网络进行采样? 190 ★★★☆☆ 当训练集中正负样本不均衡时,如何处理数据以更好地训练分类模型? 194 ★★★☆☆ 第9章 前向神经网络
1700532496
1700532497
1700532499
百面机器学习:算法工程师带你去面试 第1章 特征工程
1700532500
1700532501
俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征便是“米”,模型和算法则是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。正如一句业界经典的话所说,“Garbage in,garbage out”。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。
1700532502
1700532503
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
1700532504
1700532505
本章主要讨论以下两种常用的数据类型。
1700532506
1700532507
(1)结构化数据。结构化数据类型可以看作关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种基本类型;每一行数据表示一个样本的信息。
1700532508
1700532509
(2)非结构化数据。非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。
1700532510
1700532511
1700532512
1700532513
[
上一页 ]
[ :1.700532465e+09 ]
[
下一页 ]