首页 网站首页 行业资讯 互联网 人工智能 查看内容

中国企业新闻 2022-7-4 15:36 6354 0

人工智能学会数学推理了,考试成绩比CS博士还高

机械之心报道

编辑:杜伟、陈萍

这是说话模子推理才能的一个重要里程碑。

AI 在数学方面也有超越人类的趋向了?

昨天,谷歌提交的一篇论文激发了机械进修圈的关注,其提出的说话模子学会了人类做数学题时的方式「一步一步推理」。

在 MATH 数据集上,谷歌的新模子能实现 50% 的正确率——此前对人类的评测成果是:「一个不出格喜好数学的计较机科学博士生能答对大约 40%,而三届国际数学奥林匹克比赛(IMO)金牌得主能到达 90%。」


野生智能学会数学推理了,考试成就比CS博士还高

说话模子在各类 NLP 使命上都表示出了出色的性能。究竟上,在众多研讨中科研职员总结出一条经历,即以无监视方式在大范围分歧数据上练习的神经收集,在分歧使命上表示更好。这条经历也适用于 BERT、GPT-3、Gopher 和 PaLM 在内的模子。

和人类相比,在定量推理方面,说话模子的差异还很大。想让说话模子可以处理数学和科学类题目,说话模子还需要把握各类综合技术,这些技术包括模子可以操纵自然说话和数学标记正确剖析题目、可以正确操纵相关公式和常数、以及天生触及数值计较和标记操纵的处理计划。

但这些都面临着应战,人们凡是以为,利用机械进修来处理议量推理题目,需要在模子架构和练习技术方面获得明显进步,这样一来答应模子拜候内部工具,如 Python 诠释器。

在 Google Research 提交的这篇论文中,他们推出了说话模子 Minerva,该模子可以处理数学和科学题目,让模子一步一步来。经过收集与定量推理题目相关的练习数据、大范围练习模子,以及利用先辈的推理技术,该研讨在各类较难的定量推理使命上获得了明显的性能提升。


野生智能学会数学推理了,考试成就比CS博士还高

论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Minerva:不但会数学,物理、化学也难不倒

Minerva 经过天生处理计划来处理题目,处理计划包括数值计较、标记操纵,而不需要依靠计较器等内部工具。Minerva 将自然说话和数学标记停止连系来剖析和回答数学题目。此外,Minerva 还连系了多种技术,包括小样本提醒、思维链、暂存器提醒以及大都投票原则,从而在 STEM 推理使命上实现 SOTA 性能。

此次,谷歌还供给了交互式示例阅读器来摸索 Minerva 的输出!从 Minerva 阅读器界面可以看出,Minerva 不但可以处理代数题目,还能处理物理、数论、多少、生物、化学、天文学等众多题目。


野生智能学会数学推理了,考试成就比CS博士还高

试用地址:https://minerva-demo.github.io/#category=Algebra&index=1

下面是 Minerva 处理多少题目,立方体的每个边都是 3 英寸长,求立方体的总概况积是几多平方英寸?模子回答:由于立方体有 6 个面,每个面是一个边长为 3 英寸的正方形,总概况积为 (6)(3)^2=54。


野生智能学会数学推理了,考试成就比CS博士还高

Minerva 处理数学题目:平行于 y=4x+6 的线,且穿过 (5,10)。问这条线与 y 轴订交的点的 y 坐标是几多?下面是 Minerva 解答进程:


野生智能学会数学推理了,考试成就比CS博士还高

定量推理,让模子一步一步来

Minerva 建立在 PaLM(Pathways Language Model ) 的根本上,在 118GB 数据集上进一步练习完成,数据集来自 arXiv 上关于科技方面的论文以及包括利用 LaTeX、MathJax 或其他数学表达式的网页的数据停止进一步练习。练习以后模子学会利用标准数学标记停止对话。


野生智能学会数学推理了,考试成就比CS博士还高

下表 2 包括了 Minerva 首要的模子和练习超参数,最大的模子具有 540B 参数,在 26B token 上停止了微调。


野生智能学会数学推理了,考试成就比CS博士还高

Minerva 说话模子的分歧变体,包括 8B,62B 和 540B。

下图为印度高中门生加入的 2020 年结合入学数学考试(左),这个考试每年有近 200 万加入;波兰国家数学考试(2022 年 5 月)(右),每年约有 27 万高中生加入。以下是 Minerva 答题进程,就像考生一样,分步计较答案:


野生智能学会数学推理了,考试成就比CS博士还高

下图为用于定量推理的数据集:研讨者在数据处置进程中保存了数学信息,使模子可以在更高的水平上进修数学。


野生智能学会数学推理了,考试成就比CS博士还高


Minerva 还连系了最新的提醒和评价技术,以更好地处理数学题目,包括思维链或 scratchpad 提醒。

在回答新题目之前,Minerva 会将处理计划停止分化,停止大都投票。像大大都说话模子一样,Minerva 将能够输出分派分歧的几率。在回答题目时,Minerva 不是将单个处理计划得分视为最有能够,而是经过从一切能够的输出中随机抽样来天生多个处理计划。这些处理计划是分歧的(例如,步调不不异),凡是是会得出不异的终极答案。Minerva 对这些处理计划利用大都投票,将最多见的成果作为终极答案。


野生智能学会数学推理了,考试成就比CS博士还高

大都投票 Minerva 为每个题目天生多个处理计划,并挑选最多见的答案作为处理计划,明显进步性能。

STEM 基准评价成果

为了测试 Minerva 的定量推理才能,谷歌在分歧的 STEM 基准上停止了评价,覆盖从小学水平的题目到研讨生水平的课程。利用的基准数据集包括以下:

  • MATH:高中数学比赛水平的题目;
  • MMLU-STEM:大范围多使命说话了解(MMLU)基准中专注于 STEM 的子集,涵盖了高中和大学级此外工程、化学、数学和物理等;
  • GSM8k:小学水平的数学题,包括根本算数运算等。

此外,谷歌还在 OCWCourses 上评价了 Minerva,这是一个大学和研讨生水平的题目调集,涵盖了从 MIT OpenCourseWare 中收集的固态化学、天文学、微分方程和狭义相对论等各类 STEM 主题。

成果表白,在所稀有据集的评价中,Minerva 都实现了 SOTA 成果,偶然甚至是大幅提升。

下图为 MATH 和 MMLU-STEM 上的评价成果,其中高中和大学级此外题目涵盖了一系列 STEM 主题。可以看到,Minerva 62B 和 Minerva 540B 在 MATH 上的正确率均高于已有 SOTA,Minerva 540B 在 MMLU-STEM 上均高于已有 SOTA。


野生智能学会数学推理了,考试成就比CS博士还高

整体来看,Minerva 540B 在小学、高中和大学级此外 STEM 评价数据集上,均获得了明显优于已有 SOTA 的成果。


野生智能学会数学推理了,考试成就比CS博士还高

与 PaLM 8B、62B 和 540B 的更具体比力成果以下表所示。


野生智能学会数学推理了,考试成就比CS博士还高

谷歌研讨科学家、论文作者之一 Aitor Lewkowycz 给出了更具体的评价示例。他们在 2022 年波兰国家数学考试中对 Minerva 停止了评价,它处理了 80% 以上的 GCSE 高档数学题目,评价了 MIT 的各类本科级此外 STEM 题目并处理了其中的近三分之一。


野生智能学会数学推理了,考试成就比CS博士还高

Minerva 也会出错

不外,Minerva 仍然犯了很多毛病。为了更好地确认模子可以改良的范畴,谷歌分析了模子出错的题目样本,发现大大都毛病很轻易诠释。成果表白,大约一半是计较毛病,另一半是推理误差,缘由是处理步调没有遵守逻辑思考链。


野生智能学会数学推理了,考试成就比CS博士还高

毛病范例。

同时,Minerva 也有能够得出正确的终极答案,但推理仍然毛病。谷歌将这类情况称为「误报」,由于它们被毛病地计入到了模子的整体性能得分。分析成果显现,误报率相对较低,Minerva 62B 在 MATH 数据集上的均匀误报率低于 8%。


野生智能学会数学推理了,考试成就比CS博士还高

谷歌供给了 Minerva 出错的一些样本示例。比以下图中的计较毛病,模子毛病地消去了方程双方的平方根。


野生智能学会数学推理了,考试成就比CS博士还高

下图为推理毛病,模子在第四次练习入彀较了罚球次数,但以后却将这一数字作为第一次练习的终极答案。


野生智能学会数学推理了,考试成就比CS博士还高

范围性及未来改良偏向

谷歌的定量推理方式并不是以形式数学为根本。Minerva 利用自然说话和 LaTeX 数学表达式的组合来剖析题目并天生答案,没有明白的底层数学结构。

是以,这类方式存在一个重要范围,模子的答案没法获得自动考证。即使终极答案已知而且可以考证,模子也可以利用毛病的推理步调得出正确的终极答案,而这没法自动检测到。这类范围在 Coq、Isabelle、HOL、Lean、Metamath 和 Mizar 等形式化定理证实方式中不存在。

另一方面,非形式方式的一个上风是它可以利用在高度多样化的题目中。

未来,谷歌希望可以处理议量推理题目标通用模子鞭策科学和教育的前沿成长。定量推理模子具有很多潜伏的利用,包括为研讨职员供给有用的帮助,为门生供给新的进修机遇。Minerva 模子朝着这些方针迈出了一小步。

原文链接:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

最新评论(0)

© 2022-2024 企业新闻网 Powered by Discuz! X3.4

本站内容由网友分享或转载自互联网公开内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15314649589

微信扫描,加站长微信

企业新闻网