1700540840
在介绍计算广告的常用算法模型之前,先对互联网广告的主要产品类型和商业模式进行介绍。这里按照互联网广告的商业模型,将其分为合约广告、竞价广告、程序化交易广告等类型。
1700540841
1700540842
合约广告一般在门户网站和视频网站中较为常见,例如,Hulu广告收入的绝大部分来自于合约广告。这是由于用户与视频广告的交互较少,缺乏点击等反馈数据,不宜直接评估后续的转化效果。合约广告的客户通常是品牌类广告主,它们的主要诉求是向公众宣传自己的品牌形象,并不显式地评估后续的转化效果。合约广告一般以CPM(Cost per mille,千次曝光成本)进行结算,即每完成一千次曝光流量平台向广告主收取固定的成本。图14.2(a)在Hulu网站上观看美剧《实习医生格蕾》(Grey’s Anatomy)时,浏览器展示的视频广告截图。
1700540843
1700540844
竞价广告最重要的形式是搜索广告。搜索广告的标的物是关键词,每个搜索广告可以对一些特定的关键词进行出价。用户输入的查询与广告竞标的关键词进行匹配,检索出所有符合条件的广告,并选择其中的一条或几条广告与搜索的网页结果一起展示,通常广告排在网页之前。搜索广告一般按点击结算,在用户点击之后按照广告主对该关键词的出价收费,没有点击则不收费,因此点击率预估算法对竞价广告的优化至关重要。图14.2(b)展示了在百度中搜索“深度学习”时返回的搜索结果页面,其中第一条即竞价系统所选择的广告,在下方有“广告”字样。
1700540845
1700540846
程序化交易广告能够让广告主更加灵活地选择自己的受众群体和曝光时机。在每一次展示机会到来之时,广告交易平台将流量的相关信息和竞价请求发送给需求方平台(Demand Side Platform,DSP),需求方平台根据流量的实际情况代表广告主进行出价,价高者得到本次的曝光机会。程序化交易广告通常以CPA(Cost Per Action,每次行动成本)的方式进行结算,因此需要综合考虑广告预估的点击率、转化率等因素。图14.2(c)为在CSDN的某个博客页面上,京东赢得一次实时竞价机会而展示的一个商品广告。
1700540847
1700540848
1700540849
1700540850
1700540851
(a)合约广告
1700540852
1700540853
1700540854
1700540855
1700540856
(b)竞价广告
1700540857
1700540858
1700540859
1700540860
1700540861
(c)程序化交易广告
1700540862
1700540863
图14.2 常见的广告类型
1700540864
1700540865
不同类型的广告在广告系统设计上有所区别,比如合约广告一般不需要考虑广告的实际效果,所以没有CTR模块;程序化交易广告需要对接广告交易平台等第三方信息,所以需要更多的数据对接模块。但总体来说,广告系统的整体架构是通用的。图14.3是一个简化的广告系统框架,主要展示了与算法相关的模块,而对其他系统模块有所省略。系统由分布式计算平台、流式计算平台和广告投放机三大部分组成。分布式计算平台负责根据海量的投放日志进行批处理计算,得到算法分析和建模的结果,例如用户画像、点击率/转化率建模等算法都是在分布式计算平台上运行的,并将得到的用户标签、模型特征和参数等数据更新至数据库中。流式计算平台负责收集和计算有实时需求的用户标签、特征、点击反馈等数据,并将它们实时地同步到数据库中去。当一个请求到来时,广告投放机根据请求对应的用户、上下文等信息以及数据库当前的状态进行广告检索、排序和选择。一次广告投放完成之后,相关的记录将被流式计算平台及时地获取并处理,同时它们也被收集到投放日志中,供分布式计算平台稍后使用。
1700540866
1700540867
广告系统的各个算法模块,不仅与Spark、HDFS、Kafka等大数据工具息息相关,更涉及大量机器学习的知识。如果要成为广告算法工程师,在打牢算法基础的同时,还需要对广告的商业模型,各模块的业务功能有较深的了解。下面就对广告系统各个模块涉及的算法和机器学习知识进行逐一介绍。
1700540868
1700540869
1700540870
1700540871
1700540872
图14.3 广告系统架构图
1700540873
1700540874
■ 用户画像
1700540875
1700540876
用户画像是计算广告学的核心组成部分之一,在合约广告、搜索广告、程序化交易广告等产品形式中广泛存在。在合约广告中,广告主可以根据自身品牌的受众群体指定合适的定向条件,以节省成本;搜索广告和程序化交易广告可以根据用户的画像对该用户对各广告的点击率和转化率进行更精确的预估,从而优化整体的投放效果。
1700540877
1700540878
监督学习和非监督学习技术在用户画像中都得到了广泛的应用。例如,性别预测问题就是一个典型的监督学习问题。我们根据用户填写的性别信息可以得到一些用户的性别,而对于另外一些用户我们无法得知他们的准确性别,但是有些广告主要求针对特定的性别进行品牌推广。例如,一个主要经营男装的广告主可能需要对广告的受众定向设为男性。为了满足广告主的类似需求,我们需要通过用户过去的行为和其他已有特征对用户性别进行建模和预测,比如通过某个用户经常观看足球、拳击等项目的历史行为,预测出他是男性的概率更高,对于其他的用户标签也是类似的。只要我们有了足够多的标注样本,都可以用监督学习的方式对用户标签进行建模和预测。
1700540879
1700540880
监督学习的模型可以采用逻辑回归、支持向量机、决策树、随机森林、梯度提升决策树、前向神经网络等,采用的特征因具体的业务而异。例如,在搜索引擎中,可以根据用户的搜索和浏览历史来对用户的性别进行预测,从而实现更精准的搜索广告投放。参考文献[45]利用一个大型网站的历史访问数据进行实验,输入的特征为该用户搜索和浏览过的历史网页文本,其中的每个词作为单独的一维特征,最终分类器学习到的较为显著的文本特征如图14.4所示。可以发现,在预测女性时,较为重要的特征是孩子、食物、家庭等;而对于男性来说,较为显著的特征是体育、车、因特网等。所以,对特征的学习结果还是比较符合直觉的。
1700540881
1700540882
1700540883
1700540884
1700540885
图14.4 男性和女性的文本特征
1700540886
1700540887
另外一大类用户画像方法是采用非监督学习。非监督学习的目的是发现数据本身存在的规律,并不需要使用带标注的数据。根据用户以往的行为和已有的特征,我们可以将用户聚为一些特定的类别。对于每一类用户,虽然很难描述他们所对应的确切标签,但是可以知道他们拥有很高的相似度,并据此预期他们对广告具有某种相似的兴趣。这样,通过应用聚类技术,并将得到的聚类结果用于点击率预估、广告排序与选择,通常能够带来明显的效果提升。常用的聚类方法有K均值、高斯混合模型、主题模型等,它们都属于非监督学习的范畴。
1700540888
1700540889
参考文献[46]是一个用非监督学习的方法挖掘用户兴趣主题的例子。该论文结合了用户在移动端的搜索内容和上下文特征(时间、地点等),利用主题模型对用户的行为数据进行建模。图14.5展示了两个挖掘出来的主题实例,其中左边的主题可以理解为在工作日的早晨搜索股票的相关信息;右边的主题可以理解为在周末的晚上搜索聚会的酒吧;IsRelevant表示该特征的取值与我们对主题的解读是否相关,这是一种人工的判断。可以发现,绝大多数的特征都是与主题相关的,说明主题挖掘的效果较好。
[
上一页 ]
[ :1.70054084e+09 ]
[
下一页 ]