澳门新普京网站:回想推特(TWTR.US)优秀CTSportage预估模型

雷锋(Lei Feng)网 AI
科技评价按,本文作者是硅谷高工王喆,原版的书文刊载在微信公众号/网易专栏
王喆的机械学习笔记上,雷正兴网获授权转发。

ABSTRACT

转载自:http://www.cbdio.com/BigData/2015-08/27/content\_3750170.htm

1、 背景

CT普拉多预估(Click-Through Rate
Prediction)是网络总结广告中的关键环节,预估正确性直接影响公司广告收入。CT科雷傲预估中用的最多的模型是LPRADO(Logistic
Regression)[1],L锐界是广义线性模型,与理念线性模型对照,LTiguan使用了Logit调换将函数值映射到0~1区间[2],映射后的函数值正是CTLacrosse的预估值。L悍马H2那种线性模型很轻便并行化,管理上亿条磨练样本不是主题素材,但线性模型学习才能有限,要求多量特点工程先行分析出可行的性情、特征结合,从而去直接进步L汉兰达的非线性学习才具。

LXC90模型中的特征结合很关键,
但又胸中无数直接通过特征笛卡尔积解决,只能依附人工经验,耗费时间耗力同时并不一定会牵动作效果益进步。怎么着自动开掘有效的性状、特征结合,弥补人工业经济验不足,减少L大切诺Kit征实验周期,是内需消除的问题。脸谱201肆年的小说介绍了经过GBDT(Gradient Boost Decision
Tree)化解LPRADO的性子结合难题[3],随后Kaggle比赛也有举办此思路[4][5],GBDT与L本田UR-V融入起来挑起了业界关怀。

GBDT(Gradient Boost Decision
Tree)是1种常用的非线性模型[6][7][8][9],它依照集成学习中的boosting理念[10],每便迭代都在缩小残差的梯度方向新创立1颗决策树,迭代多少次就能够变动多少颗决策树。GBDT的怀想使其持有后天优势能够发现有余有区分性的风味以及特色结合,决策树的不二秘诀能够平素当做LSportage输入特征使用,省去了人工找出特征、特征结合的步调。这种经过GBDT生成L奥迪Q三特征的不二法门(GBDT+LHummerH二),产业界已有实践(推特(Twitter),Kaggle-201四),且效果不错,是卓殊值得尝试的笔触。下图一为运用GBDT+L智跑前后的特色实验示意图,融入前人工寻觅有区分性特征(raw
feature)、特征结合
(cross
feature),融入后直接通过黑盒子(Tree模型GBDT)进行特色、特种组合的自行开掘。

澳门新普京网站 1

此地是「王喆的机械学习笔记」的第八篇小说,今天大家重读一篇杰出的 CT路虎极光预估领域的舆论,推特(TWTR.US) 在 201四 发表的「Practical Lessons from
Predicting Clicks on Ads at 推特(TWTR.US)」。

那篇paper中作者结合GBDT和LRAV4,获得了很好的效用,比单个模型的职能赶上三%。随后我切磋了对完全预测系统发生影响的多少个要素,发掘Feature(能发掘出用户和广告的历史消息)+Model(GBDT+LMurano)的孝敬程度最大,而别的因素(数据实时性,模型学习速率,数据采样)的熏陶则极小。

1、背景

CT本田UR-V预估,广告点击率(Click-Through Rate
Prediction)是网络总括广告中的关键环节,预估准确性直接影响集团广告收入。CTSportage预估中用的最多的模子是LSportage(Logistic
Regression)[1],L景逸SUV是广义线性模型,与价值观线性模型对照,L昂Cora使用了Logit转换将函数值映射到0~1区间
[2],映射后的函数值正是CTEscort的预估值。L牧马人,逻辑回归模型,那种线性模型很轻松并行化,管理上亿条磨炼样本不成难点,但线性模型学习才能有限,供给多量风味工程先期分析出可行的风味、特征结合,从而去直接提升L牧马人的非线性学习技艺。

L汉兰达模型中的特征结合很入眼,但又无所适从直接通过特征笛卡尔积
消除,只好凭仗人工业经济验,耗费时间耗力同时并不一定会带来意义进步。如何自动开采有效的特点、特征结合,弥补人工业经济验不足,裁减L猎豹CS六特征实验周期,是亟需解决的主题材料。推特(TWTR.US)201四年的小说介绍了经过GBDT (Gradient Boost Decision
Tree)化解LLX570的风味结合难点[3],随后Kaggle竞技也有实施此思路[4][5],GBDT与LHummerH二融入起来引起了产业界关心。

GBDT(Gradient Boost Decision
Tree)是一种常用的非线性模型[6][7][8][9],它依照集成学习中的boosting观念[10],每一趟迭代都在回落残差的梯度方向新确立一颗决策树,迭代多少次就能转换多少颗决策树。GBDT的构思使其具备自然优势,可以窥见有余有区分性的特征以及特色结合,决策树的渠道能够直接当做L纳瓦拉输入特征使用,省去了人工搜索特征、特征结合的步骤。那种通过GBDT生成LHighlander特征的秘技(GBDT+LRAV4),产业界已有施行(推特,Kaggle-2014),且功效不错,是不行值得尝试的思绪。下图壹为利用GBDT+L福睿斯前后的特征实验暗示图,融合前人工找寻有区分性特征(raw
feature)、特征结合(cross
feature),融合后直接通过黑盒子(Tree模型GBDT)进行特色、特种组合的自发性发掘。

澳门新普京网站 2

image

2、 GBDT与L索罗德融合现状

GBDT与L本田UR-V的同甘共苦情势,Twitter(TWT冠道.US)的paper有个例证如下图2所示,图中Tree1、Tree二为经过GBDT模型学出来的两颗树,x为一条输入样本,遍历两棵树后,x样本分别达到两颗树的卡牌节点上,各种叶子节点对应LLacrosse1维风味,那么通过遍历树,就获得了该样本对应的具有L大切诺Kit征。由于树的每条路线,是因此最小化均方差等艺术最后分割出来的有区分性路线,依据该路径获得的特色、特征结合都相对有区分性,效果理论上不会不比人工业经济验的管理格局。

澳门新普京网站 3

GBDT模型的表征,格外适合用来打通有效的表征、特征结合。产业界不唯有GBDT+LRubicon融入有实施,GBDT+FM也有进行,二零一五Kaggle
CT牧马人竞技亚军正是应用GBDT+FM,可知,使用GBDT融入别的模型是那些值得尝试的思路[11]。

小编调研了推特、Kaggle比赛关于GBDT建树的细节,发掘三个关键点:选拔ensemble决策树而非单颗树;建树接纳GBDT而非奥德赛F(Random
Forests)。解读如下:

在那篇小说中,推特(TWTR.US) 提议了杰出的 GBDT(Gradient Boosting Decision
Trees)+L逍客(Logistics Regression) 的 CT奇骏模型结构,能够说开启了特征工程模型化、自动化的新阶段。别的其在伍年前就利用的
online learning,online data joiner,negative down sampling
等技术时至后天也有极强的工程意义。上边大家就一路纪念一下那篇当时热热闹闹,未来仍常看常新的舆论呢。

 

二、GBDT营造新特点的思路

关键观念:GBDT每棵树的门道直接当做LKuga输入特征使用。
用已有风味磨练GBDT模型,然后选用GBDT模型学习到的树来布局新特点,最终把那个新天性参加原有风味一同练习模型。构造的新特征向量是取值0/一的,向量的每种成分对应于GBDT模型中树的卡片结点。当3个样本点通过某棵树最后落在那棵树的三个卡牌结点上,那么在新特征向量中那个叶子结点对应的成分值为壹,而那棵树的别样叶子结点对应的要素值为0。新特征向量的尺寸等于GBDT模型里有着树包蕴的叶子结点数之和。

澳门新普京网站 4

上海教室为混合模型结构。输入特征通过提升的决策树进行更动。
种种单独树的输出被视为稀疏线性分类器的归类输入特征。
巩固的决策树被验证是十三分有力的性状调换。

事例一:上海体育场所有两棵树,左树有多个叶子节点,右树有七个叶子节点,最终的性状即为5维的向量。对于输入x,假如他落在左树第3个节点,编码[1,0,0],落在右树第一个节点则编码[0,1],所以完全的编码为[1,0,0,0,1],那类编码作为特色,输入到线性分类模型(LR
or FM)中举行分拣。

故事集中GBDT的参数,树的多寡最多500颗(500上述就平昔不晋升了),每棵树的节点不多于1二。

3、GBDT与LOdyssey融入现状

GBDT与LOdyssey的融入方式,Instagram的paper有个例子如下图贰所示,图中Tree壹、Tree二为经过GBDT模型学出来的两颗树,x为一条输入样本,遍历两棵树后,x样本分别落成两颗树的叶子节点上,每一种叶子节点对应LCR-V一维风味,那么通过遍历树,就获得了该样本对应的享有L劲客特征。由于树的每条渠道,是通过最小化均方差等方式最终分割出来的有区分性路线,依照该路径获得的风味、特征结合都相对有区分性,效果理论上不会未有人工业经济验的管理方式。

澳门新普京网站 5

image

GBDT模型的表征,万分适合用来打通有效的性状、特征结合。产业界不止GBDT+L库罗德融入有进行,GBDT+FM也有进行,2014Kaggle
CT智跑比赛亚军正是应用GBDT+FM,可知,使用GBDT融入别的模型是尤其值得尝试的思绪[11]。

小编科学商讨了Facebook、Kaggle竞技关于GBDT建树的细节,开掘四个关键点:选用ensemble决策树而非单颗树;建树选择GBDT而非奥迪Q3F(Random
Forests)。解读如下:

1)为啥建树选拔ensemble决策树?

一棵树的表明工夫很弱,不足以表明四个有区分性的表征结合,多棵树的表明工夫更加强一些。GBDT每棵树都在攻读前边棵树尚存的不足,迭代多少次就能够变动多少颗树。按paper以及Kaggle竞技前的GBDT+LLX570融入方式,多棵树正好满足L普拉多每条练习样本能够由此GBDT映射成三个特色的急需。

二)为什么建树接纳GBDT而非景逸SUVF?

澳门新普京网站,RF也是多棵树,但从效率上有实行注脚不比GBDT。且GBDT前边的树,特征差距主要展示对大许多样本有区分度的特征;前面包车型的士树,主要反映的是通过前N颗树,残差依旧十分的大的少数样书。优先采取在壹体化上有区分度的性子,再选拔针对少数样本有区分度的特色,思路越发客观,那应当也是用GBDT的缘故。

只是,Twitter和Kaggle竞技的思路是不是能直接知足将来CTBMWX伍预估场景吧?

依据Facebook、Kaggle竞技的思路,不进入广告侧的AD
ID特征?然则现CTLX570预估中,AD ID类特征是很重大的特色,故建树时必要挂念AD
ID。直接将AD ID加入到建树的feature中?可是AD ID过多,直接将AD
ID作为feature进行建树不可行。上面第三部分将介绍针对现存CT汉兰达预估场景GBDT+L昂Cora的丹舟共济方案。

肆、GBDT与L卡宴融合方案

AD ID类特征在CTOdyssey预估中是13分首要的特点,直接将AD
ID作为feature进行建树不可行,故考虑为各样AD
ID建GBDT树。但网络时期长尾多少现象充裕断定,广告也设有长尾风貌,为了进步广告全体投放效果,不得不考虑长尾广告[12]。在GBDT建树方案中,对于暴光丰富练习样本足够的广告,能够单独建树,开掘对单个广告有区分度的性状,但对于暴光不丰裕样本不丰硕的长尾广告,无法单独建树,须要一种方案来消除长尾广告的难点。

综述思索方案如下,使用GBDT建两类树,非ID建一类树,ID建一类树。

一)非ID类树:不以细粒度的ID建树,此类树作为base,固然揭露少的广告、广告主,还能够经过此类树获得有区分性的表征、特征结合。

二)ID类树:以细粒度
的ID建壹类树,用于发掘暴露足够的ID对相应区分性的性状、特征结合。怎么样依据GBDT建的两类树,对原有特征实行映射?以如下图三为例,当一条样本x进来以往,遍历两类树到叶子节点,获得的特色作为L冠道的输入。当AD暴光不丰富不足以练习树时,别的树恰好作为补偿。

澳门新普京网站 6

image

经过GBDT
映射得到的表征三维如何?GBDT树有几个叶子节点,通过GBDT获得的性状空间就有多大。如下图四一颗树,三个叶子节点对应一种有区分性的特点、特征结合,对应L科雷傲的1维特征。那颗树有8个叶子节点,即对应L奥迪Q伍的八维特征。估量一下,通过GBDT调换得到的风味空间非常低,Base树、ID树各N颗,特征三个维度最高为N+N广告数+N广告主数+
N*广告类目数。其山东中国广播集团告数、广告主数、广告类目数都以零星的,同时参考Kaggle竞技前树的数目N最多为30,则估计通过GBDT
映射获得的个性三个维度并不高,且并不是每种ID磨炼样本都得以练习多颗树,实际上通过GBDT
映射得到的风味三个维度更低。

澳门新普京网站 7

image

怎么行使GBDT
映射获得的表征?通过GBDT生成的表征,可平昔作为LHaval的性状使用,省去人工管理分析特征的环节,L昂Cora的输入特征完全信赖于经过GBDT获得的特点。此思路已尝试,通过试验开采GBDT+LCRUISER在揭露充裕的广告上的确有功力,但完全效应须求权衡优化各个树的使用。同时,也可思考将GBDT生成特征与LRubicon原有风味结合起来使用,待尝试。

伍、总计与展望

点击率预估模型涉及的磨炼样本一般是上亿等第,样本量大,模型常动用速度非常快的LSportage。但L昂科雷是线性模型,学习才能轻松,此时特点工程进一步关键。现存的性状工程实践,首要集聚在搜索到有区分度的特征、特征结合,折腾壹圈未必会带动意义提高。GBDT算法的特性正好能够用来打通有区分度的特色、特征结合,减弱特征工程中人力财力,且产业界今后已有进行,GBDT+LHummerH贰、GBDT+FM等都以值得尝试的笔触。差异景观,GBDT融合LEvoque/FM的思路或许会略有不一致,能够各种角度尝试。(笔者:腾讯大数据)

参考文献:

[1].Chapelle O, Manavoglu E, Rosales R. Simple and scalable response
prediction for display advertising[J].
ACM[2].http://blog.csdn.net/lilyth\_lilyth/article/details/10032993

[3].He X, Pan J, Jin O, et al. Practical lessons from predicting
clicks on ads at facebook[C]. Proceedings of 20th ACM SIGKDD
Conference on Knowledge Discovery and Data Mining. ACM, 2014: 1-9.

[4].http://www.csie.ntu.edu.tw/~r01922136/Kaggle-2014-criteo.pdf

[5].https://github.com/guestwalk/Kaggle-2014-criteo

[6].http://www.cnblogs.com/leftnoteasy/archive/2011/03/07/random-forest-and-gbdt.html

[7].https://github.com/dmlc/xgboost

[8].http://cos.name/2015/03/xgboost/?replytocom=6610

[9].http://vdisk.weibo.com/s/vlQWp3erG2yo/1431658679

[10].Ensemble Methods: Foundations and Algorithms (Chapman & Hall/Crc
Machine Learnig & Pattern Recognition): Zhi-Hua Zhou: 9781439830031

[11].http://blog.csdn.net/hero\_fantao/article/details/42747281

[12]. Richardson M, Dominowska E, Ragno R. Predicting clicks:
estimating the click-through rate for new ads[C]. Proceedings of the
16th international conference on World Wide Web. ACM, 2007: 521-530.

一) 为何建树采取ensemble决策树?

一棵树的表达工夫很弱,不足以表明三个有区分性的表征结合,多棵树的表达技能越来越强一些。GBDT每棵树都在攻读后面棵树尚存的阙如,迭代多少次就能够转换多少颗树。按paper以及Kaggle比赛后的GBDT+L路虎极光融入格局,多棵树正好满意L帕杰罗每条陶冶样本能够通过GBDT映射成七个特征的要求。

用户场景

1. INTRODUCTION

贰) 为啥建树采取GBDT而非QX56F?

中华VF也是多棵树,但从成效上有奉行注明不比GBDT。且GBDT前边的树,特征分裂首要反映对超越1/二样书有区分度的特点;前面包车型大巴树,主要呈现的是透过前N颗树,残差依然非常大的个别样书。优先采用在完整上有区分度的风味,再选择针对少数样书有区分度的表征,思路尤其客观,那应该也是用GBDT的来头。

可是,推特(TWTR.US)和Kaggle竞技的思绪是或不是能一向满足现在CT奥迪Q7预估场景吧?

根据照片墙(TWT福睿斯.US)、Kaggle竞技的思绪,不插足广告侧的ADID特征?但是现CT凯雷德预估中,AD
ID类特征是很关键的风味,故建树时索要思量AD ID。直接将AD
ID参加到建树的feature中?不过AD ID过多,直接将AD
ID作为feature举办建树不可行。上边第3有的将介绍针对现成CT大切诺基预估场景GBDT+L本田UR-V的融合方案。

小说的用户场景是二个正经的点击率预估的光景,供给强调的唯有好几,因为我们供给动用
CT福睿斯 总结精准的出价、ROI 等注重的接轨预估值,因而 CT昂科威模型的预估值需假设多个颇具大要意义的精准的
CTR,而不是单纯输出广告排序的高低关系。所以文中不只把 CT奥迪Q三 calibration
作为重要的评价目标,更是在结尾介绍了模型改正的连带方法。

介绍了从前的一对连锁paper。包罗谷歌(Google),Yahoo,MS的有关CT揽胜Model方面包车型地铁paper。

叁、 GBDT与LEnclave融入方案

AD ID类特征在CT汉兰达预估中是老大重大的特点,间接将AD
ID作为feature实行建树不可行,顾思考为各样AD
ID建GBDT树。但互连网时代长尾数量现象分外强烈,广告也设有长尾现象,为了提高广告全体投放效果,不得不牵挂长尾广告[12]。在GBDT建树方案中,对于暴露丰裕练习样本丰裕的广告,能够独自行建造树,开掘对单个广告有区分度的表征,但对于暴光不丰盛样本不充沛的长尾广告,不能够独立建树,需求一种方案来化解长尾广告的主题材料。

总结思量方案如下,使用GBDT建两类树,非ID建1类树,ID建一类树。一)非ID类树:不以细粒度的ID建树,此类树作为base,就算暴光少的广告、广告主,还可以够透过此类树得到有区分性的风味、特征结合。二)ID类树:以细粒度的ID建一类树,用于开掘暴露充裕的ID对应该区分性的性状、特征结合。

哪些根据GBDT建的两类树,对原始特征举行映射?以如下图叁为例,当一条样本x进来未来,遍历两类树到叶子节点,获得的特点作为LKoleos的输入。当AD暴光不丰硕不足以磨炼树时,别的树恰好作为补偿。

澳门新普京网站 8

经过GBDT
映射获得的特色三个维度如何?GBDT树有几个叶子节点,通过GBDT获得的风味空间就有多大。如下图四一颗树,贰个叶子节点对应1种有区分性的性状、特征结合,对应L路虎极光的1维特征。那颗树有九个叶子节点,即对应LQX56的八维特征。推断一下,通过GBDT转变获得的天性空间极低,Base树、ID树各N颗,特征三个维度最高为(N+N广告数+N广告主数+
N广告类目数)叶子节点个数。其山西中国广播集团告数、广告主数、广告类目数都以有限的,同时参考Kaggle竞技后树的数目N最多为30,叶子节点个数小于十,则推断通过GBDT
映射获得的特色三个维度并不高,且并不是各种ID磨炼样本都得以陶冶多颗树,实际上通过GBDT
映射得到的表征三个维度更低。

澳门新普京网站 9

模型结构

而在照片墙(TWTEnclave.US),广告系统是由级联型的分类器(a cascade of
classifiers)组成,而本篇paper研商的CT中华V Model则是其1cascade
classifiers的末梢壹环节。

如何选取GBDT 映射得到的性格?

经过GBDT生成的特点,可径直当做L哈弗的特点使用,省去人工管理分析特征的环节,L瑞虎的输入特征完全依赖于通过GBDT得到的特色。此思路已尝试,通过实验发现GBDT+L卡宴在暴露丰裕的广告上真正有效果,但完全机能须求权衡优化各样树的使用。同时,也可考虑将GBDT生成特征与LRubicon原有风味结合起来使用,待尝试。

算算广告方向的同学应该都对 GBDT+LXC60那一个模型有所领悟,那或多或少也对事情未有什么益处是那篇小说最大的贡献。固然小说别的部分的价值丝毫不逊于该模型,但再也想起该模型,清楚明了其才能细节依旧不可缺少的。

 

四、 总结与展望

点击率预估模型涉及的演习样本一般是上亿等级,样本量大,模型常选取速度十分的快的LPAJERO。但LTucson是线性模型,学习技术有限,此时特色工程进一步关键。现存的风味工程实施,首要集中在查究到有区分度的性状、特征结合,折腾1圈未必会拉动作效果益提高。GBDT算法的特征正好能够用来打通有区分度的特点、特征结合,收缩特征工程中人力财力,且业界今后已有实施,GBDT+LOdyssey、GBDT+FM等都以值得尝试的笔触。不相同景色,GBDT融合L奥迪Q5/FM的思路恐怕会略有不相同,能够各样角度尝试。

伍、 参考文献

[1].Chapelle O, Manavoglu E, Rosales R. Simple and scalable
responseprediction for display advertising[J]. ACM

[2].
http://blog.csdn.net/lilyth\_lilyth/article/details/10032993

[3]. He X, Pan J, Jin O, et al. Practical lessons from predicting
clicks on adsat facebook[C]. Proceedings of 20th ACM SIGKDD Conference
on KnowledgeDiscovery and Data Mining. ACM, 2014: 1-9.

[4].
http://www.csie.ntu.edu.tw/~r01922136/Kaggle-2014-criteo.pdf

[5].
https://github.com/guestwalk/Kaggle-2014-criteo

[6].
http://www.cnblogs.com/leftnoteasy/archive/2011/03/07/random-forest-and-gbdt.html

[7].
https://github.com/dmlc/xgboost

[8].
http://cos.name/2015/03/xgboost/?replytocom=6610

[9].
http://vdisk.weibo.com/s/vlQWp3erG2yo/1431658679

[10]. Ensemble Methods: Foundations and Algorithms (Chapman& Hall/Crc
Machine Learnig & Pattern Recognition): Zhi-Hua Zhou:9781439830031

[11].
http://blog.csdn.NET/hero\_fantao/article/details/42747281

[12]. Richardson M, Dominowska E, Ragno R. Predicting clicks:
estimatingthe click-through rate for new ads[C]. Proceedings of the
16th internationalconference on World Wide Web. ACM, 2007: 521-530.
转自:http://blog.csdn.net/lilyth\_lilyth/article/details/48032119/

轻易易行,作品建议了1种选用 GBDT 自动实行特色筛选和整合,进而生成新的
feature vector,再把该 feature vector 当作 logistic regression
的模型输入,预测 CTQashqai 的模型结构。

2. EXPERIMENTAL SETUP

澳门新普京网站 10

笔者介绍了什么样营造training data和testing data,以及Evaluation
Metrics。
包括Normalized Entropy和Calibration。

GBDT+LHighlander 模型结构

Normalized Entropy的概念为每回显示时预测得到的log
loss的平均值,除以对全体数据集的平分log
loss值。之所以须要除以整个数据集的平均log loss值,是因为backgroud
CT福睿斯越接近于0或1,则越轻便预测获得较好的log
loss值,而做了normalization后,NE便会对backgroud
CT翼虎不敏感了。这一个Normalized
Entropy值越低,则注解预测的职能越好。上面列出表明式:

此间供给重申的是,用 GBDT 创设特色工程,和平运动用 LLAND 预测 CT驭胜两步是独自陶冶的。所以本来不设有啥将 LOdyssey 的梯度回传到 GBDT
这类复杂的难题,而选拔 L途胜 预测 CTEvoque的经过是扎眼的,在此不再赘言,大家入眼讲一讲哪些行使 GBDT
营造新的特征向量。

澳门新普京网站 11

世家清楚,GBDT
是由多棵回归树组成的森林,后一棵树利用前面树林的结果与实际结果的残差做为拟合目标。每棵树生成的长河是1棵标准的回归树生成进程,由此各类节点的差距是一个当然的特点选用的进度,而多层节点的构造自然实行了有效的特性结合,也就相当急速的消除了过去不胜吃力的风味选拔和特征结合的难题。

Calibration的概念为预估CT奥迪Q5除以真实CT奥迪Q5,即预测的点击数除以实际观看到的点击数。那个值越接近一,则表明预测效果越好。

作者们运用陶冶集中磨炼练好 GBDT
模型,之后就足以采纳该模型创设特色工程。具体进程是那样的,一个样本在输入
GBDT
的某一子树后,会依靠每种节点的条条框框最后落入某一卡片节点,那么大家把该叶子节点置为
1,别的叶子节点置为
0,全体叶子节点组成的向量即产生了该棵树的特征向量,把 GBDT
全体子树的特征向量 concatenate 起来,即产生了后续 LCRUISER 输入的特征向量。

 

比方来讲来说,举例 GBDT 由3颗子树构成,每一种子树有 4个叶子节点,1个练习样本进来后,先后完结了「子树 壹」的第 1个叶节点中,那么特征向量就是 [0,0,1,0],「子树 2」的第 二个叶节点,特征向量为 [1,0,0,0],「子树 3」的第 四 个叶节点,特征向量为
[0,0,0,1],最终 concatenate 全数特征向量,产生的末段的特征向量为
[0,0,1,0,1,0,0,0,0,0,0,1],大家再把该向量作为 L路虎极光 的输入,预测 CT卡宴。

3. PREDICTION MODEL STRUCTURE

引进了 GBDT+L汉兰达 的模型后,比较单纯的 L索罗德 和
GBDT,进步效益是分外明显的。从下表中得以看到,混合模型比单独的 LXC60 或
Trees 模型在 loss 上收缩了 三%。

作者介绍了两种Online Learning的天下无双。包括Stochastic Gradient
Descent(SGD)-based LKuga:

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*
*
Website