教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

编辑:yudi

转载请联系本公众号获得授权,教程并标明来源

HyperAI 为帮助开发者快速上手、汇总验证最新开源模型,丨开持续在官网的模型模型「教程」版块更新热门模型的在线部署 notebook。本文为大家汇总了 Artificial Analysis 报告中提及的综合智能追平T站高质量开源模型及其一键部署教程,快来亲自体验逼近闭源模型的水平高性能吧!

第三方评测机构 Artificial Analysis 于 4 月 14 日发布针对 32B 以下开源模型的测评对比报告显示,Qwen3.5 27B 与 Gemma 4 31B 两款小尺寸模型,热门在综合智能水平上已追平 GPT-5 对应档位。教程其中,汇总Qwen3.5 27B(推理版)在 Intelligence Index 上取得 42 分,丨开对标 GPT-5(medium);Gemma 4 31B(推理版)以 39 分匹配 GPT-5(low)。模型模型

报告指出,综合智能追平T站这一代子 32B 模型在推理能力与 agent 表现上进步显著。水平Qwen3.5 27B 在 Agentic Index 上达到 55 分,测评超过 GPT-5(medium)的 46 分;Gemma 4 31B 在 TerminalBench Hard 和 HLE 等复杂任务上也领先 GPT-5(low)。与此同时,两者均原生支持多模态输入,在 MMMU-Pro 等视觉理解任务中表现居于同级开源模型前列。

不过,小模型在知识准确性与幻觉控制方面仍明显落后。两者在 AA-Omniscience 指标上分别为 -42 和 -45,而 GPT-5 相关版本为 -10,显示出参数规模对知识记忆能力的持续影响。

在部署层面,这类模型的实用性显著提升。上述两款模型均可在单张 NVIDIA H100 上运行,并可通过量化在个人设备上本地部署,降低了使用门槛。同时,开源权重阵营整体也在快速逼近前沿,大模型如 GLM-5.1 等已将差距缩小至个位数分值。

一直以来,HyperAI 为帮助开发者快速上手、验证最新开源模型,持续在官网的「教程」版块更新热门模型的在线部署 notebook。本文为大家汇总了 Artificial Analysis 报告中提及的高质量开源模型及其一键部署教程,快来亲自体验逼近闭源模型的高性能吧!

更多在线教程:

为了便于大家体验 HyperAI 的稳定算力服务,我们准备了丰富的「算力礼包」,内含 NVIDIA RTX 5090、PRO 6000 等 GPU 资源。

欢迎登录官网查看更多内容:

NVIDIA-Nemotron-3-Super-120B

NVIDIA Nemotron 3 Super NVFP4 由 NVIDIA Corporation 在 2026 年 3 月发布。该模型是一个 120B 总参数、12B 激活参数的大语言模型,采用 LatentMoE 混合架构,并支持最长 1M tokens 上下文。

该模型面向长上下文推理、Agent 工作流、工具调用、RAG 与高吞吐问答等场景。在交互方式上,模型同时支持是否启用 reasoning 模式,并可以通过标准化聊天模板参数在普通问答与推理增强模式之间切换。

在线运行:

Demo 页面

Qwen3.5-27B-Claude-4.6-Opus

Reasoning-Distilled

2026 年 3 月,Jackrong 开源了一款高性能推理模型 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,其基于 Qwen3.5-27B 基础架构构建,并融合了从 Claude-4.6 与 Opus 中蒸馏得到的先进推理能力,在保持原有强大语言理解与表达能力的基础上,显著增强了复杂问题求解与多轮对话交互表现。

在核心能力层面,该模型通过引入高质量思维链蒸馏技术,实现了推理能力的全面升级,使其在数学推导、逻辑分析、规划决策以及多步骤任务拆解等场景中表现尤为突出。相比传统模型,该系统不仅能够生成答案,更能够以结构化方式逐步分析问题,将复杂任务拆解为清晰可执行的逻辑步骤,从而提升整体推理稳定性与结果可靠性。

在线运行:

Demo 页面

Gemma-4-31B-it

Google DeepMind 开源的 Gemma 4 系列模型,依托与 Gemini 3 同源的技术体系,不仅在 Arena AI 排行榜中跻身全球前三,更以远小于同级竞品的参数规模,实现了接近甚至超越更大尺寸模型的能力表现。

从产品形态来看,Gemma 4 并非单一模型,而是覆盖 E2B、E4B、26B A4B 到 31B 的多尺寸体系,分别对应移动端、本地部署到高性能算力环境等不同场景。其中,31B 版本作为当前系列中的性能上限,其能力水平甚至可以媲美 Qwen 3.5 397B。

应用场景上,31B 版支持图文输入与文本输出,具备最高达 256K tokens 的上下文窗口,并原生支持推理、函数调用以及系统提示(system prompts),同时还支持超过 140 种语言,因此在高质量问答、代码辅助以及智能体(agent)服务等场景中表现出色。

在线运行:

Demo 页面

CPU 部署 Qwen3.5-9B-GGUF

Qwen3.5 是由 阿里巴巴通义千问团队 发布的新一代多模态大语言模型系列,支持文本与图像输入,并生成文本输出,面向对话、推理、编程以及视觉理解等任务。其中,Qwen3.5-9B 是该系列中的 9B 参数版本,在能力与部署成本之间取得平衡,适用于资源受限环境下的端侧或本地部署推理。

在本教程中,我们将使用社区提供的 GGUF 权重(Q4_K_M 量化版本),并结合视觉编码器(mmproj GGUF 文件)。通过 llama.cpp 启动一个兼容 OpenAI 接口的后端服务,并连接 OpenWebUI,从而提供基于浏览器的对话交互界面。

在线运行:

查找更多热门教程:

推荐阅读
相关推荐
排队抢张雪机车代理名额,服务机器人企业竞相“出海”,超21万海外客商涌入广州|广交会观察
Lucas告诉红星资本局,他听说中国有很多新技术,这也是他此行的目标之一,来看看这里有哪些前沿技术和新产品可以带回自己的国家。4月15日,第139届广交会在广州开幕。数据显示,本届广交会境外采购商预登
477441404}
5月1日起医药行贿入刑!67家药企减少销售人员
这份司法解释明确规定,在对单位行贿罪追究刑事责任时,将“在生态环境、财政金融、安全生产、食品药品、防灾救灾、社会保障、教育、医疗等领域行贿,实施违法犯罪活动的”作为条件之一。由此可见,食品药品、医疗领
631792912}
坚持2个锻炼,90%的抑郁、焦虑和强迫基本都有改善
你试过劝自己“别想太多”,试过吃药、做心理咨询,甚至试过无数次给自己打气“要振作”,可情绪还是反反复复,甚至觉得自己这辈子都好不了了。但今天我想告诉你一个被绝大多数人忽略的真相:90%的轻中度抑郁、焦
691064}
一枚枣核险夺命!92岁高龄患者肠穿孔,中西医结合助其康复
近日,92岁张婆婆化姓)因误吞枣核引发乙状结肠穿孔、局限性腹膜炎,加之高龄且身患多种基础病,生命垂危。危急时刻,湖北省中医院湖北中医药大学附属医院)启动危急重症救治绿色通道,借助中西医结合诊疗模式,成
334231344}
35名医务人员被国家卫健委通报!撤销职称职务、取消晋升资格……
2月28日,国家卫健委印发《加强医学科研诚信专项治理的工作方案》,宣布启动实施为期3年的卫生健康领域科研诚信专项治理国家卫健委,2026)。此次通报是专项治理启动以来,国家卫健委通报的首批科研失信行为
245618}
把心放宽!你瞎担心的事不会发生,老天保佑你,往后只会越来越好
这不是什么新鲜道理。 早在一百多年前,美国外科医生兼精神病学家威廉·塞缪尔·萨德勒就把忧虑描述为“一旦注意力集中在某种特定的恐惧上,就无法放松注意力”。 时间过去一个世纪,我们科技进步了,生活便利了,
794455}
24岁抗癌博主“徐平安”确诊黑色素瘤晚期不到一年去世,其母亲刚因胃癌离世,17岁弟弟发声
4月14日,江西抗癌博主“徐平安”的账号发布讣告,徐平安于当日凌晨2时去世,年仅24岁。讣告写道:“非常感激大家在过去的日子里,给予他的每一次点赞、每一条评论、每一份无声的陪伴。这个账号曾是他勇敢的见
47111558}
“反向疫苗”要来了!精准削弱抵抗力,让免疫系统不再“自我攻击”
如今,桑塔马利亚正不断接近这个目标——作为加拿大卡尔加里大学的免疫学家,他正站在新疗法研发的前沿,致力于通过重塑免疫系统,让人体终止对自身组织的破坏性攻击。这些新疗法正陆续进入临床试验阶段,并已初显成
22245}
《纽约客》丨五角大楼如何将人工智能纳入杀伤链
作者:吉迪恩·刘易斯-克劳斯是《纽约客》的专职撰稿人,报道领域涵盖科技、学术界和书籍等。他著有回忆录《方向感》。2026年4月15日Illustration by Ben Kothe; Source
839112511}
Cell重磅发布!浙江大学李晓明/董晓武/张岩团队设计新型镇痛分子,实现高效镇痛与低副作用的分离
近日,浙江大学李晓明/董晓武/张岩团队在国际顶级学术期刊《Cell》发表最新研究成果:通过高分辨率结构解析与理性药物设计,成功开发出两种具有Gi蛋白信号偏向性的大麻素1型受体CB1)激动剂——LZD5
818697}