分享嘉宾:刘凯 滴滴出行 高级算法专家 文章整理:田小娣 内容来历:DataFunTalk 出品社区:DataFun 注:接待关注DataFunTalk同名公众号,收看第一手原创技术文章。 导读:本次分享的主题为强化进修在滴滴车服用户运营中的理论。在互联网场景下,面向用户的营销是每个营业所对的配合题目,而若何帮助滴滴车服运营提升营销的 ROI 是我们算法同学的工作重点之一。在本文,我们将向大师先容若何将车服的营销题目建模为一个强化进修进程,而且若何邃密化地对每小我做出本性化的营销行动,在现实营业中又获得了怎样的结果。本次分享首要包括:
——滴滴车服用户运营算法系统—— 1. 滴滴用户运营算法屋子图 为了支持用户增加的需求,滴滴车服构建了一个平台,一个系统以及四个算法战略模块:即流量分发平台、标签系统、画像模块、方针人群定向模块、营销战略模块、触达优化模块。
针对用户运营的四个阶段,也有响应的算法战略模块:
2. 野生运营的痛点息争决计划 野生运营的痛点息争决计划 野生运营和监视进修方式可以圈选方针人群进交运营活动,可是比力集约,依靠运营职员的经历,将用户生命周期强迫分红拉新、提频、沉默召回等阶段,由分歧运营职员负责,可是这样将持续进程割裂开晦气于运营结果的提升;同时没有操纵平台用户线上线下丰富的行为特征,很难对用户停止邃密化的分析和运营;消息提醒陈旧见解,用户会感应疲惫从而影响转化率。针对这些痛点,滴滴车服采用强化进修方式对用户战争台之间的交互进程停止建模,而且在消息提醒阶段,利用 graph embedding 方式按照用户的爱好停止本性化的消息提醒,实在的做到精准触达。 ——智能营销建模方式—— 1. 强化进修 强化进修是一种与监视进修纷歧样的进修范式,经过一个智能体与情况停止交互从而到达进修方针。其最重要的概念包括状态 State、行动 Action、回报 Reward,智能体接收到情况的状态后,对该状态做出一个行动,情况按照该行动做出一个回报,然落后行一轮一轮的进程进修。强化进修的典型利用有游戏、本性化保举、结果广告和网约车调剂,如 AlphaGo Zero 在围棋范畴克服天下顶级选手、多款游戏中的 OpenAI 根基克服人类,滴滴的网约车调剂也采用强化进修去猜测司机和乘客在时空中的婚配代价,进而在提升平台 GMV 的同时也提升了乘客和用户的产物体验。 强化进修分类 大的方面强化进修可分为 Model based 和 Model free,两者的区分是 Model based 可以完整的领会并进修 Agent 所处的情况,Model free 却不能。Model free 分为三方面:战略梯度优化、Q-learning 及两者的连系,战略梯度优化适用的场景是行动持续的大概行动空间很是大,比力合适保举或广告范畴,典型的方式有 A3C 和 PPO;Q-learning 合适的场景是行动空间有限的几个或几十个,典型方式有 deep Q-learning;两者连系的典型方式有 DDPG 和 SAC。针对车服用户运营的题目,首先两个实体中 Agent 是车服平台,Environment 是用户,大概其他高低文。在每一轮迭代中 Agent 会向情况发送一张一定面额一定周期的优惠券,大概一定周期的消息大概空行动,Environment 收到行动后经过一定周期会做出一个正向或负向反应,该反应被量化后发送给 Agent,情况状态的变化 State 也会返回给 Agent。 强化进修图解 + Action 周期 在这个场景里,强化进修的第一个要素 Action 包括分歧面额优惠券的推送、分歧周期的消息推送、空行动;第二个要素 State 是观察和抽取出来的一些特征的表征,包括用户线下行为、用户线上行为、静态行为、模子进修预估分;第三个要素 Reward 是用户对 Action 的反应,如空行动加油、消息推送加油、用优惠券加油;用户检察优惠券、检察消息;无加油无检察。除此之外,针对场景需要界说了两类 Action 周期:行动周期和沉默周期,传统强化进修当 Agent 发出行动 Environment 会顿时给出一个响应,但在 O2O 场景下用户需要一定周期(行动周期)对行动做出响应,如加油,而且鄙人一时辰用户不成能再去加油,会进入沉默周期。 Double DQN 算法流程 由于典范的 DQN 会带来 Q 值预估的 overstimatation,进而引发接下来练习的震动,所以具体的算法采用 Double deep Q-learning network,算法分为练习部分和猜测部分:练习部分的焦点是损失值 loss 的分歧,double DQN 中左侧收集练习的 Q 值会周期性的复制给右侧的 target Q-network,两者配合去计较获得终极的损失值 loss;猜测部分是 Environment 会把当前的状态输出给 Double DQN,经过计较将 Q 值最大的 Action 返回给情况,如发一张合适的优惠券、一个消息推送大概空行动。此外针对正负比例不平衡的情况,算法采用了负采样的方式。 2. Graph embedding 本性化消息触达 消息提醒部分可分为三个阶段:首先是运营同一设置,在这个阶段一切人收到的消息是一样的,用户轻易发生疲惫;其次是初步的本性化,同时构建用户的需求画像战争台的供给画像,然后将两者婚配起来,这样可以到达一个相对较好的成果;最初是为了到达更好的本性化成果,基于用户的行为序列构建响应的图,采用 graph embedding 进修方式实现本性化消息的推送,具体利用了三种方式:LINE、TransE、Graphsage。LINE 适用同质图停止进修,在同一空间表征用户和场站,利用用户在特权场站与非特权场站的融合转化序列数据;TransE 适用于异质图,节点的品种包括用户或场站,边为用户与场站的关系;Graphsage 适用于同质或异质图,可同时利用结构信息和量化特征。 3. 强化进修和 graph embedding 相连系 将强化进修和 graph embedding 两者连系,今朝在端到端 "无人驾驶" 的大流量上已经实现了自动化运营,经过在各个模块中机械进修模子的利用,实现了智能化运营。首先经过特征提取模块的进修获得强化进修所需要的 State、Action、Reword 三要素,然后放到强化进修算法中去进修和练习,产出营销行动进而履行,履行的时辰经过 graph embedding 本性化的消息推送,给每个用户婚配合适的办事,进而进步用户的消息翻开率和转化率,最初经过用户行为收集进入下一轮的迭代,而且在强化进修进程中,实现了中心参数持久化的无状态化练习。 ——结果展现—— 1. 强化进修算法结果 强化进修部分,从 ROI 的趋向图可以看到强化进修尝试组 ROI 是稳定的,根基上是稳定的高于对照组的。 ROI趋向图 今朝强化进修算法已经全流量覆盖加油营业用户,包括有券提醒和无券推送,强化进修桶比野生运营桶在拉新率和召回率上都有约8%的提升,同时本钱大约下降了一半,真正实现了一个比力高的 ROI,从而做到了加倍邃密化的运营。 强化进修拉新召回率对照 拉新本钱对照和召回本钱对照 2. Graph embedding 本性化消息提醒结果 关于本性化消息提醒方面的优化,首先用 LINE 方式和野生供需婚配做对照,在消息翻开率和转化率上别离提升了7%和10%;然后将 TransE 方式和 LINE 方式做对照,在翻开率和转化率方面别离提升了4%和6%,累计起来的话 TransE 方式比野生供需婚配在翻开率上提升11%,转化率上提升16%。总之,今朝基于 graph embedding 的本性化消息提醒方式在加油营业全流量上,天天对大量用户停止本性化的消息提醒,用户体验也明显提升。 在用户增加上,车服算法团队初步建立起来一套智能营销的系统,经过数据驱动的方式邃密化地赋能了运营,提升了用户增加的结果和效力。 本次分享就到这里,感谢大师! PS:滴滴车服智能营销算法团队也期待算法牛人加入,一路玩算法拿成果! 邮箱:kailiusci@163.com ——Q&A —— Q:智能运营的营业布景是? A:智能运营的寄义是数据化运营,经过用户在线上线下的各类行为所反应出来的偏好,经过响应的算法战略,可以切确地停止本性化的营销,进步用户的转化率,下降转化本钱,从而实现 ROI 可控的范围获客,智能的对用户全生命周期停止邃密运营。 Q:要招什么样的人? A:智能营销所处理的本质题目,还是若何实现人办事以及营销战略三者的切确婚配,所以从这个意义上来说,跟保举广告现实上是可以举一反三,基于用户行为停止偏好建模,并婚配本性化的营销战略。所以需要的根本还是机械进修,以及对数据营业场景的了解才能。 Q:智能营销的其他处理计划及结果? A:我们只是罗列了两个模块中的响应方式,那末在其他场景中,我们也采用了响应的新方式,并获得了正向的结果。比如说若何对明显提早反应的场景停止转化率预估的建模,还有若何在相关使命中利用多使命进修,既可以进步模子练习的效力,也可以经过相互引入噪声,进步模子练习的泛化才能,以进一步进步对于人群分层的结果等等。 Q:具体的模子实现? A:关于具体的实现,现在很轻易找到具体方式的开源实现。比如说强化进修的 DQN 算法,可以找到很多。关键的有两点,第一个是对于场景的了解,可以对这个营业场景的题目笼统成一个算法题目;第二点,可以深入的了解算法的细节以及优弱点,这样便可以,将场景和一些算法可以去婚配起来,用合适的算法来处理形式化出来的算法题目,这样便可以去适配营业场景,拿到正向的结果。 |
作为新手运营,你是否经常有这些困惑:思考的时候没有逻辑,面对问题不知道从哪里下手
既然选择做自媒体,那粉丝、流量这是无法绕开的话题如何增粉、如何增加阅读量?一方面
互联网运营培训近年来都很火,很多想转行互联网运营的小伙伴,通常都是0基础0经验。面
公众号:主播讲师大家好,我是网络主播讲师阿坤;首先在这里给大家道个歉,原谅一个懒
看着整个知乎上面关于#网络主播#这个话题下面的主播运营方面的内容少之又少,本人不才
从新媒体新人的角度,复盘的运营需要具备的六大技能。学习之前,看一下岗位职责吧一、
有很强的内容生产能力,却还没有找到好的变现方式?那你一定不能错过今日头条的付费专
你好,我是阿坤,很抱歉很久没更新,原因还是我很懒,懒得码字。其实我也没想到我随手
一直以来,大家都会认为产品和运营是一家,因为两者日常接触频繁,且最终目标是十分接
一个优秀的运营必然是具备良好的思维方式和至少一项拿得出手的硬技能的。一个是软实力
由于工作内容太单一,运营容易陷入固有的思维模式中,没有去更全面地接触和理解运营的
新媒体运营可以自学么?不少想要转行新媒体运营的小伙伴都有这样的疑问。一些人会说:
编辑导语:互联网公司的运营要求的能力还是相对较高的,那么做运营需要掌握哪些底层能
本文将讲述一些在解决问题时,可能有用的运营思维方法和技巧,它们可以构成产品运营做
尽可能吸收正确的思维方式,并把它植入到自己的工作里,养成好的思维习惯,能直接决定
宁可受苦而保持清醒,宁可忍受痛苦而思维,也胜似不进行思维。 ——茨威格在日常工作
思维模型会给你提供一种视角或思维框架,从而决定你观察事物和看待世界的视角。顶级的
1、什么是运营一切能够帮助产品进行推广、促进用户使用、提高用户认知的手段都是运营
古今成大事者、大学问者,必经过三种之境界。本文作者从这三种境界,分析如何开始学做
声明:本站内容由网友分享或转载自互联网公开发布的内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15314649589
Copyright @ 2022-2044 杭州共生网络 www.gongshengyun.cn Powered by Discuz!