模型优化:
人群包生成:熟悉Lightgbm树模型原理,开发人群包样本生成、离线评估的整个流程,实验包行为率由
3.4%->13.99%
Masknet优化模型:dfm学习特征交叉能力有限,使用Masknet优化模型结构,首先通过Instance-Guided
Mask学习每个field的重要度,其次MaskBlock通过element-wise将Instance-Guided Mask作用于每个
embedding,从而突出重要的特征;效果提升稳定:收入增加6.57%,ecpm增加提升22.67%,曝光下降
13.12%
• 用户特征优化
(1)用户实时特征:
项目背景:为了更及时的抽象用户当前的场景、行为等使得模型预估更具准确性和时效性项目内容:
§ 深入了解统计对象、统计维度、统计指标以及时间窗口,以便精确地设计实时特征;
§ 制定了特征在线上的处理逻辑和数据交互方式,确保特征的高效使用;
§ 负责评估开发过程中的样本日志量增加比例,并进行成本预估,以确保项目的可行性
结果:基于base模型增加特征训练,ab实验效果,ecpm提升了5.2%,收入增长5.04%
(2)用户场景特征:
项目背景:基于shareit场景中广告行为数据较稀疏,模型不易建模用户兴趣;获取用户对各个功能的频率信
息以及使用时长,以丰富用户行为,挖掘用户兴趣
项目内容:
§ 离线大数据处理:Hive、pySpark对离线日志进行数据处理,使用udf、pivot、agg等,分析特征取值
的分布情况
§ 离线训练评估结果:针对连续特征通过裁剪、分桶、取对数等方式进行预处理并离线训练测评效果;
离线训练一周,ctr模型相对明显,auc提升1.22%,gauc提升0.448%,loss减少1.488%
§ 讨论并设计线上需求方案:同步特征抽取、线上服务、离线日志的协议
§ 特征输入写入:将离线特征数据通过Spark写入公司自研的实时数据库中;
结果:曝光增长3.42%,收入增长了3.55%;ecpm增长了0.12%,
§ 策略优化:
(1)新渠道接入:设计实时ctr出价、cvr及贝叶斯平滑出价策略,基于白名单、新单子保量、控量策
略、二次调价、PID控制等,保证新单子冷启阶策略出价累积充足样本
(2)实时后验策略设计:针对cpc、cpi订单,目标是利用选择更合适的粒度以更实时的方式计算ctr;
§ 方案设计:在一定时间窗口下,设置动态置信阈值,当曝光达到动态阈值后计算ctr
§ 设计实施方案:设定计算粒度以及可动态变化的曝光阈值;数据侧以主从数据存储的方式,将flink
的实时数据写入redis以及mysql;算法侧读取mysql数据库,通过proto协议存储为pb格式,分钟级
更新;工程侧实时读取pb数据;
§ 数据验证:验证实时流ctr的正确性和完整性,保障线上可回退机制;建立ab报表及监控,观测指定
维度上的效果
• 工程链路:
新渠道数据接入以及server路由拆分:梳理新渠道的数据链路、特征等,配合工程侧进行链路校验以及线上
线下特征一致性校验;了解请求、曝光从Flink实时流接入到日志拼接、特征抽取、生成训练样本、模型训
练的整体过程;