共生运营网 网站首页 查看评论

  • 方方圆圆272 2023-1-12 16:42
    说实话百度一下或者百度知道的答案的水平也不比这个好
  • 老橡树1 2023-1-12 16:42
    强化学习跟GAN的确从结构上挺”一脉相承“的。不过我理解也是ChatGPT在推理时并不会像玩游戏一样走多步,而是直接使用那个优化好的PPO模型。
  • 潘金麟 2023-1-12 16:41
    这种双引擎的搜索引擎好像和magi的思路很像,只不过magi没有chatgpt这么强大的生成模型,只能抽取
  • 123456819 2023-1-12 16:41
    你都能找到事实,还生成个毛,直接给啊。
  • 天八部饶gc 2023-1-12 16:41
    楼主能讲讲生成“看上去很有道理,但是事实上是错误答案的内容”的解决办法吗?生成类,不论是文本还是图像,都有这方面的问题呀。加大模型貌似也无法fix[捂脸]
  • 公路美学 2023-1-12 16:40
    从一些样例来看,他的多轮效果也非常出色
  • 们至熟两创 2023-1-12 16:40
    我也感觉有点像是GAN,不是纯RL的那种MDP假设
  • 我爱霍启刚掖 2023-1-12 16:39
    hh,money is all you need[doge]
  • 缥缈的绽放山 2023-1-12 16:39
    您好,我是北京不断壮大公司的新媒体运营。我们公司主要是做Saas工具测评的。看到您的这篇文章,觉得写得很好!请问可以转载您的这篇文章到我们的小程序“叁肆”嘛,我们会标明作者和出处的,您可以在微信小程序上搜索“叁肆指南”了解我们的小程序。[大笑]
  • 啤酒瓶空了缓 2023-1-12 16:38
    名字已经给出了重点是chat,又何必苛求search呢[doge]
  • pcng417912 2023-1-12 16:38
    第三阶段的强化学习好像就是为了用到更多的无标注数据[大笑],如果单纯疯狂的扩充第一、二阶段的标注数据模型效果可能会更好但承受不住价格[发呆]
  • 冀苍鸾 2023-1-12 16:38
    第二阶段如果采用simcse的方式构造样本是不是可以更强
  • 醉于山水 2023-1-12 16:38
    非常棒
  • 公路美学 2023-1-12 16:37
    第一步就已经很贵了
  • 123456914 2023-1-12 16:37
    同感,第二步的RM模块是最重要的,听起来充满了金钱的味道,不知道这个标注是个什么量级的[捂脸]
  • 纵横捭阖804 2023-1-12 16:36
    对于睁眼胡说言之成理这种谬误,可不可以加载几个权威事实数据库作为“协处理器”来fact check一下,在用户端核查告知用户,数据库与训练模型脱钩/无关。        另外,新知识占比并不重要,通用搜索一般都是搜索正确的、旧知识, 需求频次和强大更大才对。     最后,在输出答案的最后一环,要不要引入言论的情绪值、震惊值 和 同类话题流量吸引力值(数值高就是价值低)甚至 文本诈骗风格近似度 等等这些乱七八糟的值,来过滤一遍?
  • xinting_6ym 2023-1-12 16:36
    可以的
  • 我是的十八簿 2023-1-12 16:35
    文中这句:“”有了单词序列的最终回报,就可以把每个单词看作一个时间步,把reward由后往前依次传递,由此产生的策略梯度可以更新PPO模型参数。这是标准的强化学习过程””,我觉得openai这里用RL有点挂羊头卖狗肉的意思,看起来更像是GAN的锁定判别器训练生成器的过程

    因为PPO利用价值网络估计“每一步”的value,然后用广义优势估计A引入训练,但是chatGPT的各单词步并没有独立的reward,也即RewardModel不估计半条回答状态下的价值,也就没有了各时间步状态的A,也就不能用任意时间步指导训练。

    所以这里并没有RL的时间step特点。看起来更像是连接了后端判别器,finetune前端生成器的GAN

    不知道张老师和其他大佬怎么看,谢指教[大哭][大哭]
  • 麻辣鸡翅 2023-1-12 16:34
    “旺知识”公众号申请转载此文,辛苦回复是否同意。转载将写明您为原作者,并标明知乎原文网址。
  • 123457010 2023-1-12 16:34
    哈哈,大家都忙着整活儿,终于等到张老师的科普了[赞]
商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信