ChatGPT会取代搜索引擎吗

共生网络 2023-1-12 16:33 10216人围观学习能力

作为智能对话系统，ChatGPT比来两天爆火，都火出技术圈了，网上处处都在转ChatGPT相关的内容和测试例子，结果确切很震动。我记得上一次能引发如此颤动的AI技术，NLP范畴是GPT 3公布，那都是两年半前的事了，那时野生智能方兴未艾如火如荼的红火日子，明天看来恍如隔世；多模态范畴则是以DaLL E2、Stable Diffusion为代表的Diffusion Model，这是比来泰半年火起来的AIGC模子；现在天，AI的星火传递到了ChatGPT手上，它毫无疑问也属于AIGC范围。所以说，在AI泡沫破裂后处于低谷期的明天，AIGC确切是给AI续命的良药，固然我们更期待估量很快会公布的GPT 4，愿OpenAI能继续撑起场面，给行业带来一丝暖意。

说回ChatGPT，例子就不举了，在网上比比皆是都是，我们首要从技术角度来聊聊。那末，ChatGPT究竟是采用了怎样的技术，才能做到如此超凡脱俗的结果？既然chatGPT功用如此强大，那末它可以取代Google、百度等现有搜索引擎吗？假如能，那是为什么，假如不能，又是为什么？

本文试图从我小我了解的角度，来尝试回答上述题目，很多小我概念，公允难免，还请谨慎参考。我们首先来看看ChatGPT到底做了什么才获得如此好的结果。

ChatGPT的技术道理

整体技术线路上，ChatGPT在结果强大的GPT 3.5大范围说话模子（LLM，Large Language Model）根本上，引入“野生标注数据+强化进修”（RLHF，Reinforcement Learning from Human Feedback ，这里的野生反应实在就是野生标注数据）来不竭Fine-tune预练习说话模子，首要目标是让LLM模子学会了解人类的号令指令的寄义（比如给我写一段小作文天生类题目、常识回答类题目、脑筋风暴类题目等分歧范例的号令），以及让LLM学会判定对于给定的prompt输入指令（用户的题目），什么样的答案是优良的（富含信息、内容丰富、对用户有帮助、无害、不包括轻视信息等多种标准）。

在“野生标注数据+强化进修”框架下，具体而言，ChatGPT的练习进程分为以下三个阶段：

ChatGPT:第一阶段

第一阶段：冷启动阶段的监视战略模子。靠GPT 3.5自己，虽然它很强，可是它很难了解人类分歧范例指令中包含的分歧意图，也很难判定天生内容能否是高质量的成果。为了让GPT 3.5初步具有了解指令中包含的意图，首先会从测试用户提交的prompt(就是指令或题目)中随机抽取一批，靠专业的标注职员，给出指定prompt的高质量答案，然后用这些野生标注好的<prompt,answer>数据来Fine-tune GPT 3.5模子。经过这个进程，我们可以以为GPT 3.5初步具有了了解人类prompt中所包括意图，并按照这个意图给出相对高质量回答的才能，可是很明显，仅仅这样做是不够的。

ChatGPT:第二阶段

第二阶段：练习回报模子（Reward Model,RM）。这个阶段的首要目标是经过野生标注练习数据，来练习回报模子。具体而言，随机抽样一批用户提交的prompt(大部分和第一阶段的不异)，利用第一阶段Fine-tune好的冷启动模子，对于每个prompt，由冷启动模子天生K个分歧的回答，因而模子发生出了<prompt,answer1>,<prompt,answer2>….<prompt,answerK>数据。以后，标注职员对K个成果依照很多标准（上面提到的相关性、富含信息性、有害信息等诸多标准）综合斟酌停止排序，给出K个成果的排名顺序，这就是此阶段野生标注的数据。

接下来，我们预备操纵这个排序成果数据来练习回报模子，采纳的练习形式实在就是平常经常用到的pair-wise learning to rank。对于K个排序成果，两两组合，构成 \binom{k}{2} 个练习数据对，ChatGPT采纳pair-wise loss来练习Reward Model。RM模子接管一个输入<prompt,answer>，给出评价回答质量凹凸的回报分数Score。对于一对练习数据<answer1,answer2>，我们假定野生排序中answer1排在answer2前面，那末Loss函数则激励RM模子对<prompt,answer1>的打分要比<prompt,answer2>的打分要高。

归纳下：在这个阶段里，首先由冷启动后的监视战略模子为每个prompt发生K个成果，野生按照成果质量由高到低排序，以此作为练习数据，经过pair-wise learning to rank形式来练习回报模子。对于学好的RM模子来说，输入<prompt,answer>，输出成果的质量得分，得分越高说明发生的回答质量越高。

chatGPT:第三阶段

第三阶段：采用强化进修来增强预练习模子的才能。本阶段无需野生标注数据，而是操纵上一阶段学好的RM模子，靠RM打分红果来更新预练习模子参数。具体而言，首先，从用户提交的prompt里随机采样一批新的号令（指的是和第一第二阶段分歧的新的prompt，这个实在是很重要的，对于提升LLM模子了解instruct指令的泛化才能很有帮助），且由冷启动模子来初始化PPO模子的参数。然后，对于随机抽取的prompt，利用PPO模子天生回答answer，并用上一阶段练习好的RM模子给出answer质量评价的回报分数score，这个回报分数就是RM赋予给全部回答（由单词序列组成）的整体reward。有了单词序列的终极回报，便可以把每个单词看做一个时候步，把reward由后往前依次传递，由此发生的战略梯度可以更新PPO模子参数。这是标准的强化进修进程，目标是练习LLM发生高reward的答案，也即是发生合适RM标准的高质量回答。

假如我们不竭反复第二和第三阶段，很明显，每一轮迭代都使得LLM模子才能越来越强。由于第二阶段经过野生标注数据来增强RM模子的才能，而第三阶段，经过增强的RM模子对新prompt发生的回答打分会更准，并操纵强化进修来激励LLM模子进修新的高质量内容，这起到了类似操纵伪标签扩大高质量练习数据的感化，因而LLM模子进一步获得增强。明显，第二阶段和第三阶段有相互促进的感化，这是为何不竭迭代会有延续增强结果的缘由。

虽然如此，我感觉第三阶段采用强化进修战略，一定是ChatGPT模子结果出格好的首要缘由。假定第三阶段不采用强化进修，换成以下方式：类似第二阶段的做法，对于一个新的prompt，冷启动模子可以发生k个回答，由RM模子别离打分，我们挑选得分最高的回答，组成新的练习数据<prompt,answer>,去fine-tune LLM模子。假定换成这类形式，我相信起到的感化能够跟强化进修比，虽然没那末精巧，可是结果也一定一定就差很多。第三阶段不管采纳哪类技术形式，本质上极能够都是操纵第二阶段学会的RM，起到了扩大LLM模子高质量练习数据的感化。

以上是ChatGPT的练习流程，首要参考自instructGPT的论文，ChatGPT是改良的instructGPT，改良点首要在收集标注数据方式上有些区分，在别的方面，包括在模子结构和练习流程等方面根基遵守instructGPT。可以预见的是，这类Reinforcement Learning from Human Feedback技术会快速舒展到别的内容天生偏向，比如一个很轻易想到的，类似“A machine translation model based on Reinforcement Learning from Human Feedback”这类，别的还有很多。可是，我小我以为，在NLP的某个具体的内容天生范畴再采用这个技术意义应当已经不大了，由于chatGPT自己能处置的使命范例很是多样化，根基涵盖了NLP天生的很多子范畴，所以某个NLP子范畴假如再零丁采用这个技术实在已经不具有太大代价，由于它的可行性可以以为已经被chatGPT考证了。假如把这个技术利用在比如图片、音频、视频等别的模态的天生范畴，能够是更值得摸索的偏向，也许未几后我们就会看到类似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”,诸如此类，这类工作应当还是很成心义的。

别的一个值得关注的采纳类似技术的工作是DeepMind的sparrow，这个工作颁发时候稍晚于instructGPT，假如你仔细分析的话，大的技术思绪和框架与instructGPT的三阶段根基类似，不外明显sparrow在野生标注方面的质量和工作量是不如instructGPT的。反过来，我感觉sparrow里把回报模子分为两个分歧RM的思绪，是优于instructGPT的，至于缘由鄙人面小节里会讲。

chatGPT能否取代Google、百度等传统搜索引擎

既然看上去chatGPT几近无所事事地回答各类范例的prompt，那末一个很自然的题目就是：ChatGPT大概未来行将面世的GPT4，能否取代Google、百度这些传统搜索引擎呢？我小我感觉今朝应当还不可，可是假如从技术角度稍微革新一下，理论上是可以取代传统搜索引擎的。

为什么说今朝形状的chatGPT还不能取代搜索引擎呢？首要有三点缘由：首先，对于很多常识范例的题目，chatGPT会给出看上去很有事理，可是究竟上是毛病答案的内容（参考上图的例子（from @Gordon Lee）,ChatGPT的回答看着胸有成竹，像我这么没文化的根基看了就信了它，回头查了下这首词里居然没这两句），斟酌到对于很多题目它又能回答得很好，这将会给用户形成困扰：假如我对我提的题目确切不晓得正确答案，那我是该相信ChatGPT的成果还是不应相信呢？此时你是没法作出判定的。这个题目能够是比力要命的。其次，ChatGPT今朝这类基于GPT大模子根本上进一步增加标注数据练习的形式，对于LLM模子吸纳新常识是很是不友爱的。新常识总是在不竭出现，而出现一些新常识就去重新预练习GPT模子是不现实的，不管是练习时候本钱还是金钱本钱，都不成接管。假如对于新常识采纳Fine-tune的形式，看上去可行且本钱相对较低，可是很轻易发生新数据的引入致使对原有常识的灾难忘记题目，特别是短周期的频仍fine-tune，会使这个题目更加严重。所以若何近乎实时地将新常识融入LLM是个很是有应战性的题目。其三，ChatGPT或GPT4的练习本钱以及在线推理本钱太高，致使假如面向实在搜索引擎的以亿记的用户请求，假定继续采纳免费战略，OpenAI没法承受，可是假如采纳免费战略，又会极大削减用户基数，能否免费是个两难决议，固然假如练习本钱可以大幅下降，则两难自解。以上这三个缘由，致使今朝ChatGPT应当还没法取代传统搜索引擎。

那末这几个题目，能否可以处理呢？实在，假如我们以ChatGPT的技术线路为主体框架，再吸纳别的对话系统采用的一些现成的技术手段，来对ChatGPT停止革新，从技术角度来看，除了本钱题目外的前两个技术题目，今朝看是可以获得很好地处理。我们只需要在ChatGPT的根本上，引入sparrow系统以下才能：基于retrieval成果的天生成果证据展现，以及引入LaMDA系统的对于新常识采纳retrieval形式，那末前面提到的新常识的实时引入，以及天生内容可信性考证，根基就不是什么大题目。

基于以上斟酌，在上图中展现出了我心目中下一代搜索引擎的整体结构:它实在是今朝的传统搜索引擎+ChatGPT的双引擎结构，ChatGPT模子是主引擎，传统搜索引擎是辅引擎。传统搜索引擎的首要帮助功用有两个：一个是对于ChatGPT发生的常识类题目标回答，停止成果可信性考证与展现，就是说在ChatGPT给出答案的同时，从搜索引擎里找到相关内容片断及url链接，同时把这些内容展现给用户，使得用户可以从额外供给的内容里考证答案能否实在可信，这样便可以处理ChatGPT发生的回答可信与否的题目，避免用户对于发生成果莫衷一是的场面。固然，只要常识类题目才有需要寻觅可信信息停止考证，很多其他自在天生范例的题目，比如让ChatGPT写一个满足某个主题的小作文这类完全自在发挥的内容，则无此需要。所以这里还有一个什么情况下会挪用传统搜索引擎的题目，具体技术细节完全可模仿sparrow的做法，里面有具体的技术计划。传统搜索引擎的第二个帮助功用是实时补充新常识。既然我们不成能随时把新常识快速引入LLM，那末可以把它存到搜索引擎的索引里，ChatGPT假如发现具偶然效性的题目，它自己又回答不了，则可以转向搜索引擎抽取对应的答案，大概按照返回相关片断再加上用户输入题目经过ChatGPT发生答案。关于这方面的具体技术手段，可以参考LaMDA，其中有关于新常识处置的具体方式。

除了上面的几种技术手段，我感觉相对ChatGPT只要一个综合的Reward Model，sparrow里把答案helpful相关的标准（比如能否富含信息量、能否符合逻辑等）采用一个RM，别的范例toxic/harmful相关标准（比如能否有bias、能否有害信息等）别的零丁采用一个RM，各司其职，这类形式要更清楚公道一些。由于单一范例的标准，更便于标注职员停止判定，而假如一个Reward Model融合多种判定标准，相互打架在所难免，判定起来就很复杂效力也低，所以感受可以引入到ChatGPT里来，获得进一步的模子改良。

经过吸收各类现有技术所长，我相信大致可以处理ChatGPT今朝所面临的题目，技术都是现成的，从发生内容结果质量上取代现有搜索引擎题目不大。固然，至于模子练习本钱和推理本钱题目，能够短期间内没法获得快速大幅下降，这能够是决议LLM能否可以取代现有搜索引擎的关键技术瓶颈。从形式上来看，未来的搜索引擎大要率是以用户智能助手APP的形式存在的，可是，从短期可行性上来说，在走到终极形状之前，过渡阶段大要率两个引擎的感化是反过来的，就是传统搜索引擎是主引擎，ChatGPT是辅引擎，形式上还是今朝搜索引擎的形状，只是部分搜索内容Top 1的搜索成果是由ChatGPT发生的，大大都用户请求，能够在用户看到Top 1成果就能满足需求，对于少数满足不了的需求，用户可以采用今朝搜索引擎翻页搜寻的形式。我猜搜索引擎未来大要率会以这类过渡阶段以传统搜索引擎为主，ChatGPT这类instruct-based天生模子为辅，渐渐切换到以ChatGPT天生内容为主，而这个切换节点，极能够取决于大模子练习本钱的大幅下降的时候，以此作为转换节点。

商业资源库

高端人脉微信群

人脉=钱脉，我们相信天下没有聚不拢的人脉，扫码进群找到你所需的人脉，对接你所需的资源。

商业资源库（5000G全网资料与课程）

商业资源库-5000G全网资料

全网商业资料，5000G各行业资源与课程，为创业、投资、营销、赚钱......超强赋能。你需要的资料都在这里。

精彩点评

方方圆圆272 2023-1-12 16:42

说实话百度一下或者百度知道的答案的水平也不比这个好

我要点评
老橡树1 2023-1-12 16:42

强化学习跟GAN的确从结构上挺”一脉相承“的。不过我理解也是ChatGPT在推理时并不会像玩游戏一样走多步，而是直接使用那个优化好的PPO模型。

我要点评
潘金麟 2023-1-12 16:41

这种双引擎的搜索引擎好像和magi的思路很像，只不过magi没有chatgpt这么强大的生成模型，只能抽取

我要点评
123456819 2023-1-12 16:41

你都能找到事实，还生成个毛，直接给啊。

我要点评
天八部饶gc 2023-1-12 16:41

楼主能讲讲生成“看上去很有道理，但是事实上是错误答案的内容”的解决办法吗？生成类，不论是文本还是图像，都有这方面的问题呀。加大模型貌似也无法fix[捂脸]

我要点评
公路美学 2023-1-12 16:40

从一些样例来看，他的多轮效果也非常出色

我要点评