行业人物

对话品友超级技术咖,谈机器学习的无上限营销优化!

xiaoyao  · 2014-09-05 10:02

【摘要】 对话品友超级技术咖,谈机器学习的无上限营销优化!

1.png

Morketing在“勾搭机器学习”系列中对机器学习在DSP中的运用已经有一定的描述。在如今数字广告程序化购买时代,各家DSP对于算法运用持不同观点。品友互动在2013年曾经发起过全球RTB算法大赛,许多在校学子和工程师纷纷踊跃报名参与,掀起了一股算法热潮,至今热度依旧。据品友官方称,全球RTB算法大赛搭建了一个数据算法评估平台,其最大特点是将最核心的DSP优化问题完全抛给参赛者,使其在真实的RTB广告投放环境下研究算法如何发挥最大的商业价值。

DSP通俗讲是一个“撮合”系统,它实现受众和广告主精准匹配。那么是如何实现的呢?算法扮演了非常关键的角色。匹配的“好与坏”直接影响广告主和DSP的双方利益。广告投放有2个关键:“匹配”和“出价”,机器学习实现有效匹配后还得预测出价。Morketing对话品友互动首席技术官沈学华,探讨机器学习在品友DSP中的运用。

2.png

Morketing:简单通俗地谈谈“机器学习”?

沈学华:机器学习就是Learning from Data(从数据中学习)。举例,我有一个问题,知道X条件下指向的结果,但需要了解Y条件下指向的结果。机器学习算法根据X1、X2、X3……指向的结果得出一个F(X)函数,F的作用在于输入一个X,可以预测得出Y的结果。X是已知的信息向量, F(X)函数通过已有的数据X1, X2,X3学习而得到。在DSP系统里,为用户X竞价,可以通过算法得出一个函数来预测这个用户的点击率也即所谓的“CTR预测”。DSP公司会将这些向量X1、X2、X3等以一个日志的形式收集整合起来。当遇到下一个新用户时,根据新用户的属性,机器可通过对此前积累的竞价经验的自主学习,预测用户的点击率。当然,以上仅是机器学习中的一种,即分类(Classification)。总体上讲,机器学习是将海量且无序的数据进行整合分析,从中学习一些有价值的信息。 

Morketing:机器学习中哪些算法用得最广泛?

沈学华:线性回归(Linear Regression)和逻辑回归(Logistic Regression)。 

在处于工业时代繁荣阶段的六七十年代,线性回归应用得最广泛。线性回归,简单来说就是一条直线型的函数。虽然在真实的物理分割中,这个函数并不是一条直线。迫于当时的计算能力有限,为了简单,就做了一个直线模型,以此来描述这个自然现象。而且,哪怕是一个多维度空间,依旧做一个平面化模型,用平面模型来模拟空间。线性回归的应用效果不错,广泛应用于保险、医疗、银行等行业。随着PC端云计算的发展,海量数据计算成为可能,使得整个计算能力呈爆发式增长。 

另外,逻辑回归在竞价预估中经常使用。竞价预估实质是一个概率问题,而逻辑回归正是合适解决概率问题。在DSP里,竞价预估很重要,但除了“竞价预估”,更重要的是“出价”。DSP不单单估计点击率,另一个重点是对于流量的估值。也即解决CTR问题,更加关注后续转化,也即CPA后面的“A”或其他转化行为,DSP核心体现在广告效率上。  

Morketing:具体谈谈机器学习在DSP中发挥的价值?

沈学华:机器学习在DSP中发挥的价值是极大的,主要体现在:Bidding Function(竞价函数)、防作弊以及流量分配。其中CTR预测是Bidding的一个组成部分,它运用了最传统机器学习中的分类功能。在全球RTB算法大赛中,我们将CTR和BiddingFunction两者结合。我们跟北京大学、哈佛大学、普林斯顿大学等高校联合做全球RTB算法大赛的时候,发现一个有趣的现象“和大学教授讨论机器学习,教授们会把问题直接引导至CTR上,这是为什么?因为CTR相对简单一些,学生做起来基本没什么问题。但当CTR和博弈论结合的时候,就很有难度”。  

另外,在防作弊上,判断一个email是否是garbage email(垃圾邮箱),在RTB里面,判断曝光是虚假曝光还是真实曝光是一个典型的分类问题。这里还有一个线性规划和流量预测,运用了机器学习的跨流量分配。需要注意的是:我们不仅仅看一次曝光来满足肯德基、麦当劳或者必胜客的需求,我们应该站在更高点,去预测今天有多少流量,广告主总共的需求如何,我们应该考虑如何去最大满足广告主组合起来的需求。  

Morketing:机器学习必须基于数据基础的,品友的人群数据如何?

沈学华:获取人群数据大概有3种方式:一,广告主自己第一方数据,比如网站服务、大型电商、京东、唯品会等,他们跟品友合作后,品友把代码附上去,那么他们的网站数据我们就能看到;第二,通过Exchange交易平台每天获得的80亿次竞价请求数据,这里面本身含有巨量的信息。通过一个简单的网络协议,同时通过互联网发一个请求给我们,数据包里含请求信息,比如用户访问的域名、广告位、广告位的尺寸、用户IP地址等。每天的原始日志在3T左右;第三,就是第三方数据提供方,比如品友跟秒针、AdMaster等合作,他们会提供一些数据第三方数据。Morketing:不断进行算法优化,可以理解为对自然人的行为推测?

沈学华:三个维度:1、自然人,对于用户的理解;2、广告主的需求;3、广告位出现在什么媒体上,这是三位一体的。一个自然人可能适合这个广告主,然后我们去撮合,让广告主的需求和用户的兴趣匹配上。  

Morketing:你们做算法的团队有多大?

沈学华:品友的数据算法团队是一个小而精的30人左右的团队。另外,我们办全球RTB算法大赛,其实有几个目的: 

1、鼓励更多热爱计算广告学或者机器学习的人研究如何提高算法。对比以前其他领域的算法比赛,品友全球RTB算法大赛是唯一一个使用实际广告投放在线数据集的比赛,在学术上很有研究价值,我刚刚从今年在纽约召开的SIGKDD会议上回来,我们算法团队和第三赛季冠军团队的论文,都被今年的SIGKDD接收,这也是品友为计算广告学做出的贡献; 

2、品友DSP将来的目标是成为一个开放的系统平台,可以在品友平台通过API的方式插入收费的第三方工具,比如人群标签工具、算法模型工具、数据监测工具等等; 

3、我们也想考验一下第三方平台的可扩展性。 最后,我想说一句话:“广告主需求、受众、广告技术是不断发展的,没有绝对的好算法!”。

本文转载自『Morketing』,作者:Morketing,Morketing经授权发布,转载或内容合作请点击版权说明,违规转载法律必究。

已有0人收藏

+1

已有0人点赞

+1

发表评论

请先后参与评论

已有0

转发

入驻
机构号