当前位置 : 投资 > 资讯 >

TeleAI“复杂推理大模型”达竞赛级数学表现,评分超o1-preview

2025-01-25 16:54:27   来源:中华网
日,中国电信人工智能研究院(TeleAI)“复杂推理大模型”TeleAI-t1-preview正式发布,即将上线天翼AI开放。TeleAI-t1-preview使用了强化学训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导逻辑推理等复杂问题的准确

在美国数学竞赛AIME2024、MATH500两项权威数学基准评测中,TeleAI-t1-preview分别以60和93.8分的成绩,大幅超越OpenAIo1-preview、GPT-4o等标杆模型。在研究生级别问答测试GPQA Diamond中,TeleAI-t1-preview得分超过GPT-4o,并比肩Claude3.5Sonnet的能水准。

在2024年全国高中数学竞赛试题中,TeleAI-t1-preview面对三角函数的复杂等式关系,通过多次假设尝试和思路纠偏,将原先的复杂等式抽丝剥茧,转化成简化的方程式,并经过逻辑清晰的公式推导后,最终给出了正确答案。

TeleAI-t1-preview在回答问题时并非只是给出结论,而是把思考和分析过程也完整呈现。这样可以帮助学生在做题过程中深入理解题目背后的逻辑和思考方法。

在一道概率论考研试题中,题目涉及“泊松分布”概念。TeleAI-t1-preview首先对这个概念进行了介绍和解读,然后给出解题思路和最终答案。

我国古代数学发展历史悠久,流传众多经典著作,但因其文言文表述,通常让人望而却步。不少大模型也会陷入沉思,无法作答。

《九章算术》中有一道题目:“今有圆材,埋在壁中,不知大小以锯之,深一寸,锯长一尺,间径几何。”TeleAI-t1-preview先针对文言文进行了理解和简化,转换成现代汉语,随之给出数学推导和答案。

在这个过程中,TeleAI-t1-preview还将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。同时,它还严谨地进行了古今单位换算,顺利过关。

如果说数学竞赛和考研题目还能符合人的正常思维方式,那么面对极度“烧脑”的策略推理问题时,以往的大模型往往会答非所问,被绕到“陷阱”中去。

以下面这道问题为例,光是理解游戏规则就已经很难了,更不用说从何下手给出答案了。然而,TeleAI-t1-preview却“眼都没眨一下”就迅速破题,大胆假设,严谨分析。

TeleAI-t1-preview在解题过程中,列出了对游戏规则的理解、场景道具分析、优劣势分析,并给出解题策略、验证有效。不仅如此,它还考虑到了可能出现的特殊情况。

针对TeleAI-t1-preview训练的不同阶段,TeleAI引入了创新的训练策略,从而保障思考推理过程准确有效。

直观呈现的思维链将帮助人们更清晰地追踪推理过程,方便验证推理正确,从而使模型的可解释和透明度大大提升。

TeleAI将持续在推理模型领域研究探索,让人工智能基于人类的“已知”,推导出期盼得到的“未知”。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。