打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
小乐数学科普:国产AI进行时——用人工智能解数学题——好未来MathGPT测评

好未来大模型MathGPT今日正式通过备案审核,并完全开放给用户使用。

作为一个AI做题家,我们可能不是第一次听说这类产品,印象中既有惊喜又有惊吓(参见小乐数学科普:2022-12-22在这个很2的日子,向ChatGPT引擎问了22+个数学问题,这是一种什么体验?),但作为一个多年深耕专注于K12教育的好未来(前身是学而思),以及面向于广大的国内用户,我们或许会对本土化的AI做题家有更美好的期待。

据MathGPT官网介绍,MathGPT 是好未来自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。此次开源的TAL-SCQ5K-CN 和 TAL-SCQ5K-EN数据集(各3K训练集和2K测试集),题目为单选形式,涉及小初高阶段数学内容,带有详细的解析步骤便于进行COT的训练。这里,术语COT指的是思维链(Chain-of-thought),所以模型不只是给出答案,而是要有一些详细的逻辑推理和高阶的数学思维内容才行。

打开MathGPT网站,点击“开始体验”按钮,会跳转到使用界面 https://playground.xes1v1.cn/MathGPT,小学、初中、高中的数学题案例就分成三列直观地显示在眼前。

从输入框中,可以看出MathGPT对数学公式的支持,还是很贴近中小学学生使用的,可以手动所见即所得地输入,也可以上传图片,其公式识别能力虽然达不到极致,但也足够用了。

至于公式的渲染,由于网页限制了F12开发者工具,无法通过查看网页源代码判断是否使用了KaTeX、MathJax等开源库,所以不抓包情况下,无法判断能否通过JS代码注入的方式强行支持LaTeX命令,这一点对于希望快速输入大量公式的用户而言稍微有点可惜,但可能只有高阶用户才关心,普通用户还是关心MathGPT的答题表现。

回到官方示例,我们可以看出分类做得很细致超赞(当然,不通过分类导航,而通过搜索的方式,可能实现难度更高)

随机点开其中一条示例题目:

在平面直角坐标系中,方程|x|/3 + |y|/2 = 1所表示的曲线是 (      )

A. 两条平行线  B. 一个矩形  C. 一个菱形  D. 一个圆

运行之后,很快得到解答:

很显然,MathGPT给出了解答过程,是很详细的,但可惜内容不正确(虽然分情况讨论值得肯定,但对应的方程不全对,需要读者细心发现),最终选择题的答案也是错的。为给出正确答案,我在小乐数学集成的Desmos部件中,输入同样的方程,得到菱形的答案(所以正确答案应该选C)。

为了验证MathGPT给出的内容是真的通过大模型预训练之后,自适应生成的输出,还是针对特定题库,程序直接调用现成的答案内容,或者是通过人工定制的程序调用特定的数学函数库,经过人工干预形成的解答,我又试了一下“重新生成”按钮,看同一道题的解答是否有变化。点了一次没变化,再点一次有变化了。而且答案是对的,但分析过程还是有错误,而且错误的地方,与第一次一模一样,暴露出大模型的过拟合的情况。

这种过拟合,应该与其使用的训练题库(含解答步骤及答案)的大小有关,将来或许可以得到改善。

当然,从本着对数学学习者负责的角度,如果单针对这一道数学题而言,我们不必拘泥于大模型给出的解答思路,实际上可以利用绝对值与函数图像的对称性质,从一种情况出发,先画出一条边,然后立即通过关于x轴和y轴的对称性,得知是菱形,而不必平行讨论而穷举写出所有情况。

如果,我们继续问MathGPT,这道题是否有其他解法,以及是否可以画图解答吗?

MathGPT似乎并不理解提问的重点(尽管回答没有脱离上下文),还是一股劲地讲原来的内容,暴露出大模型人工智能的B面:鹦鹉学舌、人工智障,即没有高阶的智慧和理解、探索能力。

试了第一道题,也是官方提供的使用示例,回答居然错了,有点惋惜。接下来,再试一道题,得到了正确解答:

据MathGPT官网自己的介绍,其中文题库解答正确率是比GPT4-0819高一些的(英文略高一些,但优势还是中文更明显)

作为AI做题家,我们知道,国外知识引擎Wolfram Alpha,由物理学家、数学软件Mathematica创始人Stephen Wolfram(1959-)创立,早就实现了解答初等及高等数学问题的能力。Wolfram Alpha的答题结果相对而言,正确率要高一些(国外很多学生用其来抄答案),只不过其解题的步骤详细程度取决于是否付费,但回答模式和语气风格比较死板,还达不到大模型的自由度和对话式的优雅程度,但现在GPT-4集成了Wolfram Alpha插件之后,已经有所改观。这一实践思路,或许好未来可以借鉴,即将自己变成插件,集成到更大更全的中文大模型里面。

当然,我们用一些专业的数学解题软件,来直接跟MathGPT比,是有失公平,毕竟属于不同的范式和赛道,但从终端用户而言,是存在一定的用户重合度的,最后用户常用的,能幸存在用户手中的,一定是得心应手,百问百对,甚至像良师益友一样能启发心智成长的好工具产品。

结语

MathGPT目前虽然仍然难免一本正经地胡乱解题,使用者仍需警惕其内容的正确性和准确性,但是作为国内数学答题领域的一枝独秀,相信还是很有里程碑意义的。将来MathGPT需要发力的地方,不光体现在K12高质量题库的积累、建设及训练上,还应体现在扩展开放能力上,例如可以接驳大学及以上的题库、专业数学科研资料、甚至跨学科的科研大模型,不仅为数学应试教育做贡献,也应该为数学全面素质教育和中国的数学崛起做贡献,当然这种要求对一个商业公司而言有点过高了,教育部和商务部是不是可以联合一下各科研单位和各大科技商业公司,推进一下数学领域的产学研一体化进程?

最后借用其引用的数学家希尔伯特的一句名言结束本文:

参考资料:

https://www.mathgpt.com/

https://github.com/math-eval/TAL-SCQ5K

https://playground.xes1v1.cn/MathGPT

https://openai.100tal.com/console/abilitytype/ability?categoryId=13

让数学

更加

易学易练,

易教易研,

易赏易玩,

易见易得,

易传易及。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4
千亿级、数学专用,MathGPT大模型开始公测了
“盗”数据,AI大模型的黑暗面
你真想知道ChatGPT是怎么产生的?
****什么是AI大模型?它与现在的人工智能有啥区别?
专家观点 | 探析人工智能对网络安全的真正潜在影响
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服