人工智能学会数学推理了，考试成绩比CS博士还高

机械之心报道

编辑：杜伟、陈萍

这是说话模子推理才能的一个重要里程碑。

AI 在数学方面也有超越人类的趋向了？

昨天，谷歌提交的一篇论文激发了机械进修圈的关注，其提出的说话模子学会了人类做数学题时的方式「一步一步推理」。

在 MATH 数据集上，谷歌的新模子能实现 50% 的正确率——此前对人类的评测成果是：「一个不出格喜好数学的计较机科学博士生能答对大约 40%，而三届国际数学奥林匹克比赛（IMO）金牌得主能到达 90%。」

野生智能学会数学推理了，考试成就比CS博士还高

说话模子在各类 NLP 使命上都表示出了出色的性能。究竟上，在众多研讨中科研职员总结出一条经历，即以无监视方式在大范围分歧数据上练习的神经收集，在分歧使命上表示更好。这条经历也适用于 BERT、GPT-3、Gopher 和 PaLM 在内的模子。

和人类相比，在定量推理方面，说话模子的差异还很大。想让说话模子可以处理数学和科学类题目，说话模子还需要把握各类综合技术，这些技术包括模子可以操纵自然说话和数学标记正确剖析题目、可以正确操纵相关公式和常数、以及天生触及数值计较和标记操纵的处理计划。

但这些都面临着应战，人们凡是以为，利用机械进修来处理议量推理题目，需要在模子架构和练习技术方面获得明显进步，这样一来答应模子拜候内部工具，如 Python 诠释器。

在 Google Research 提交的这篇论文中，他们推出了说话模子 Minerva，该模子可以处理数学和科学题目，让模子一步一步来。经过收集与定量推理题目相关的练习数据、大范围练习模子，以及利用先辈的推理技术，该研讨在各类较难的定量推理使命上获得了明显的性能提升。

野生智能学会数学推理了，考试成就比CS博士还高

论文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Minerva：不但会数学，物理、化学也难不倒

Minerva 经过天生处理计划来处理题目，处理计划包括数值计较、标记操纵，而不需要依靠计较器等内部工具。Minerva 将自然说话和数学标记停止连系来剖析和回答数学题目。此外，Minerva 还连系了多种技术，包括小样本提醒、思维链、暂存器提醒以及大都投票原则，从而在 STEM 推理使命上实现 SOTA 性能。

此次，谷歌还供给了交互式示例阅读器来摸索 Minerva 的输出！从 Minerva 阅读器界面可以看出，Minerva 不但可以处理代数题目，还能处理物理、数论、多少、生物、化学、天文学等众多题目。

野生智能学会数学推理了，考试成就比CS博士还高

试用地址：https://minerva-demo.github.io/#category=Algebra&index=1

下面是 Minerva 处理多少题目，立方体的每个边都是 3 英寸长，求立方体的总概况积是几多平方英寸？模子回答：由于立方体有 6 个面，每个面是一个边长为 3 英寸的正方形，总概况积为 (6)(3)^2=54。

野生智能学会数学推理了，考试成就比CS博士还高

Minerva 处理数学题目：平行于 y=4x+6 的线，且穿过 (5,10)。问这条线与 y 轴订交的点的 y 坐标是几多？下面是 Minerva 解答进程：

野生智能学会数学推理了，考试成就比CS博士还高

定量推理，让模子一步一步来

Minerva 建立在 PaLM（Pathways Language Model ）的根本上，在 118GB 数据集上进一步练习完成，数据集来自 arXiv 上关于科技方面的论文以及包括利用 LaTeX、MathJax 或其他数学表达式的网页的数据停止进一步练习。练习以后模子学会利用标准数学标记停止对话。

野生智能学会数学推理了，考试成就比CS博士还高

下表 2 包括了 Minerva 首要的模子和练习超参数，最大的模子具有 540B 参数，在 26B token 上停止了微调。

野生智能学会数学推理了，考试成就比CS博士还高

Minerva 说话模子的分歧变体，包括 8B，62B 和 540B。

下图为印度高中门生加入的 2020 年结合入学数学考试（左），这个考试每年有近 200 万加入；波兰国家数学考试（2022 年 5 月）（右），每年约有 27 万高中生加入。以下是 Minerva 答题进程，就像考生一样，分步计较答案：

野生智能学会数学推理了，考试成就比CS博士还高

下图为用于定量推理的数据集：研讨者在数据处置进程中保存了数学信息，使模子可以在更高的水平上进修数学。

野生智能学会数学推理了，考试成就比CS博士还高

Minerva 还连系了最新的提醒和评价技术，以更好地处理数学题目，包括思维链或 scratchpad 提醒。

在回答新题目之前，Minerva 会将处理计划停止分化，停止大都投票。像大大都说话模子一样，Minerva 将能够输出分派分歧的几率。在回答题目时，Minerva 不是将单个处理计划得分视为最有能够，而是经过从一切能够的输出中随机抽样来天生多个处理计划。这些处理计划是分歧的（例如，步调不不异），凡是是会得出不异的终极答案。Minerva 对这些处理计划利用大都投票，将最多见的成果作为终极答案。

野生智能学会数学推理了，考试成就比CS博士还高