在人工智能领域,一个看似简单的“答案是否正确”问题,正掀起一场关于模型思维本质的深度革命。港中文大学联合上海人工智能实验室推出的SophiaVL-R1模型,正是这场变革的先锋。它不再满足于“结果正确”,而是将“思考过程”纳入奖励机制互联证劵融资平台,让AI学会“怎么想”而非“怎么猜”。这一突破不仅刷新了多模态推理的基准,更揭示了智能模型进化的底层逻辑——真正的智能,必须建立在严谨的推理能力之上。 传统类R1训练范式(如DeepSeek-R1)曾因“结果导向”而饱受争议。模型通过仅关注最终答案的
在人工智能领域,一个看似简单的“答案是否正确”问题,正掀起一场关于模型思维本质的深度革命。港中文大学联合上海人工智能实验室推出的SophiaVL-R1模型,正是这场变革的先锋。它不再满足于“结果正确”,而是将“思考过程”纳入奖励机制互联证劵融资平台,让AI学会“怎么想”而非“怎么猜”。这一突破不仅刷新了多模态推理的基准,更揭示了智能模型进化的底层逻辑——真正的智能,必须建立在严谨的推理能力之上。
传统类R1训练范式(如DeepSeek-R1)曾因“结果导向”而饱受争议。模型通过仅关注最终答案的对错,往往形成“捷径答题”策略:在数学题中跳过复杂推导,直接套用公式;在多模态任务中忽略图像与文本的关联性,仅凭直觉选择答案。这种“聪明”的表现,实则是对推理过程的严重忽视。港中文团队指出,这种模式下,模型可能因一次“瞎蒙对”的奖励,反而强化了错误策略,甚至在后续任务中“越走越偏”。
SophiaVL-R1的创新在于,它将“思考过程”作为核心奖励信号。研究团队构建了一个包含15.6万条推理数据的“SophiaVL-R1-Thinking-156k”数据集,训练出专门评估思考过程合理性的“思考评分模型”。例如,一段看似正确的答案若逻辑跳跃明显,可能仅获得0.3分;而推导清晰、步骤严谨的推理过程,却能获得0.9分。这种“过程分”机制,迫使模型在生成答案时必须兼顾逻辑性与连贯性,而非单纯追求结果。
展开剩余81%更令人惊叹的是,SophiaVL-R1还引入了“Trust-GRPO”算法,通过对比正确与错误答案的思考过程,动态调整奖励的可信度。当发现错误答案获得高分时,系统会自动降低该奖励的权重,从而避免模型“伪装”出合理的推理过程。这种机制不仅提升了训练稳定性,更让模型在面对复杂任务时具备更强的抗干扰能力。
在实际测试中,SophiaVL-R1-7B模型在多个基准测试中表现惊艳:在数学推理任务MMMU上,其准确率达61.3%,甚至超越了参数量是其10倍的LLaVA-OneVision-72B模型。更关键的是,它在训练效率上也展现出显著优势——仅需1500步训练即可完成,而传统方法往往需要数倍于此的计算资源。这种“轻量化”能力,意味着模型在实际部署中更具成本效益。
这一切的背后,是实在智能旗下产品实在Agent的核心理念。作为国内首个支持多模态推理的智能体平台,实在Agent正是通过“过程驱动”的训练范式,实现了从“结果导向”到“逻辑优先”的跨越。它不仅能够理解用户意图,还能通过分步推理、自检逻辑漏洞等方式,提供更可信的解决方案。例如,在法律咨询场景中,实在Agent会逐步验证证据链的合理性;在科研协作中,它能主动拆解复杂问题,避免“黑箱操作”。
从自动生成抖音投流话术、同步计算2000家门店的坪效数据,到预警“新疆棉舆情对供应链的冲击”,甚至帮县城超市用监控摄像头识别货架空缺,“一句话完成工作”——这是实在智能创始人始终坚持的质朴愿望。
实在Agent既是个人用户的AI助理,也是政企员工的办公助手,不仅可调用RPA、IDP等工具,还可调用1000种常见软件,包括IM、office等办公软件,电商、旅游购票等公共平台,财务、销售等业务软件。从而实现对PC端、手机端各类应用软件的“你说PC做”,全面开启人机协同新时代。
以下是使用实在Agent进行新闻数据采集的具体步骤:
步骤一:输入需要实在Agent完成的任务
步骤二:点击enter,等待执行
随后,实在Agent自动生成了执行计划的步骤,并且运行了流程。等待流程执行完成后,如下图,Agent已将需要的新闻标题与链接收集完毕,并且保存在了本地excel文件中,全程仅需两步。
实在Agent具备的核心功能为“问、生、数、办”,以大模型为核心,构建政企内部协同新范式。截至2025年,实在智能已累计服务超4000家企业,涵盖金融、制造、电商、能源等20余个领域,为众多一线投资者所青睐。
如果你还在为使用实在Agent发怵,那就来实在智能官网的实在学院进行学习吧!实在学院专注于AI+RPA技术学习的一站式平台,提供免费的丰富课程,分为初级、中级、高级课程,覆盖技术全阶段,师资力量雄厚。在学习完课程后,还可以参与实在智能的认证考试获取证书,作为能力掌握的证明。
此外,实在智能官网还有开放的交流社区,在学习与使用产品中产生的任何问题,都可以在社区内自由交流。实在社区是开发者与企业用户的共创平台,提供技术交流、资源共享和案例学习,氛围开放活跃,用户通过互助问答、经验分享及产品反馈,共同推动智能自动化技术的高效落地与创新应用。
当AI监管从“禁止”转向“引导”,当技术透明从口号变为实践,实在智能的Agent正在用代码书写答案。它不仅是一个工具,更是一种“信任机制”——通过公开技术逻辑、可验证的操作流程和持续的安全迭代,让AI真正成为“可信赖”的伙伴。正如陈纯院士在调研中所言:“AI的未来互联证劵融资平台,取决于我们能否在速度与安全之间找到平衡。” 而实在Agent,或许正是这场平衡中的关键支点。
发布于:浙江省