试玩界面上明确写着,“这个试玩界面的OCR功能,由阿里千问大模型团队Qwen2-VL提供支持;数学推理能力,由Qwen2-Math支持。”
提前说明,两位体验过程中,Qwen2-Math不是一边算一边显示的,而是计算完毕后直接显示过程和结果。
我们在各大平台的评论区逛了一下,除了计算错误以外,还有另一种可能导致答案不正确——
这次的主角Qwen2-Math,基于通义千问开源大语言模型Qwen2研发,由阿里千问大模型团队在十天前发布。
这也是Qwen2-Math的旗舰模型,它是一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。
Qwen2-Math-72B-Instruct以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题。
并且一经发布就在数学大模型中“登基”,Kaiyun官网入口 最新开云网址在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。
虽然团队声称Qwen2-Math目前还是主要针对英文场景,但如果拿中文题目去问它,Qwen2-Math还是能进行解答的。Kaiyun官网入口 最新开云网址开云全站 开云网址开云全站 开云网址