【AGENT魔方】AI 热点资讯 2026-04-13

▍概览
技术发布
- MiniMax Music 2.6 发布,20 秒出歌+ 全新 Cover 翻唱功能
- MiniMax 开源 M2.7 模型,赋能开发者生态
- 京东开源 JoyAI-Image-Edit 开源:空间理解达世界一流水准
- Hermes Agent 登场,开源可托管 AI 智能体框架
- OpenClaw 龙虾五天五连更,记忆重构 + 视频生成全速迭代
- Claude Code 推出 /Ultraplan,云端可视化编程规划新体验
论文简析
- OPPO联合上交大等发表 Agent Infra 论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》
- UniPat AI联合英属哥伦比亚大学等联合发表 模型测评 论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》
- Google DeepMind 强化学习 论文《How new data permeates LLM knowledge and how to dilute it》简析
▍1. MiniMax Music 2.6 发布,20 秒出歌+ 全新 Cover 翻唱功能
MiniMax 发布 Music 2.6 AI 音乐生成模型,以速度、可控性、音质、生态四大维度突破,推动 AI 音乐从 “随机生成” 迈向 “精准创作”。
1)核心技术价值:
● 底层架构重构:深度优化生成引擎,首包延迟从分钟级降至 20 秒内,实现 “即点即生”,解决 AI 音乐生成效率瓶颈。
● 精准可控体系:精准锁定 BPM 与调性、精细化段落编排、深度情绪解析,大幅降低创作 “盲盒感”。
● 声学质感升级:人声去工业化、增强自然律动感,器乐时序与层次优化,中低频表现显著提升,适配影视、游戏等专业场景。
● 生态开放:开源 3 大 Music Skill(minimax-music-gen/playlist/buddy-sing),支持 AI Agent 快速集成,两行命令调用。
2)测试结果:
● 首包平均延迟18–20 秒,5 分钟曲目完整生成约 90 秒,效率提升 300%。
魔方快评:MiniMax Music 2.6 以工程优化 + 算法突破双轮驱动,技术价值聚焦 “效率 - 可控 - 质感” 三角。底层架构重构实现 20 秒级首包,是大模型推理调度的标杆优化。可控性从 “参数拟合” 升级为 “音乐逻辑理解”,BPM / 调性 / 段落精准执行,解决 AI 音乐核心痛点。声学模型引入时序动态建模与中低频物理声学优化,人声去机械感、器乐层次化,听感接近真实混音MiniMax。Cover 功能基于旋律特征提取 + 风格迁移网络,实现跨风格保真改编,技术落地性强。
来源链接:MiniMax Music 2.6:我们想讲四个人的故事
▍2. MiniMax 开源 M2.7 模型,赋能开发者生态
MiniMax M2.7正式全球开源,华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA,以及Together AI、Fireworks、Ollama等海内外芯片厂商、推理平台,开源首日即完成模型接入与推理适配。
-
昇腾 AI 基础软硬件实现首日适配,基于 vllm-Ascend 推理引擎在 Atlas 800 A3、Atlas 800I A2 系列产品上为模型的推理部署提供全流程支持;
-
摩尔线程技术团队基于 MUSA 架构,针对 M2.7 的模型特点完成深度调优,成功在 MTT S5000 上实现模型的的高性能推理;
-
沐曦曦云 C 系列 GPU 凭借全栈自研的 MXMACA 软件栈,首日完成深度适配,实现“模型发布即算力就绪”的 Day 0 体验;
-
昆仑芯依托自研架构,通过底层算子优化与软硬件协同加速,保障 M2.7 在平台上的稳定、高效运行表现;
-
NVIDIA 推理框架 TensorRT-LLM 为 M2.7 提供了深度适配与全面优化支持,帮助开发者和企业用户高效完成模型的部署与上线。
魔方快评:MiniMax M2.7开源首日完成多硬件栈适配,体现出极高的工程化成熟度与架构通用性。模型稀疏 MoE 与高效注意力设计具备良好跨硬件兼容性,可快速对接主流推理框架与国产芯片栈,实现低显存占用与高吞吐部署。多平台同步支持也大幅降低开发者接入成本,加速自进化与 Agent 能力落地。
来源链接:MiniMax M2.7开源,携手全球伙伴加速AI生态繁荣
▍3. 京东开源 JoyAI-Image-Edit 开源:空间理解达世界一流水准
京东探索研究院开源自研JoyAI-Image-Edit图像模型,以 Apache2.0 协议开放推理代码,成为业内首个深度融合空间智能的统一多模态图像编辑基座。该模型采用创新的MLLM-MMDiT双模耦合架构,将80亿参数的多模态语言模型与160亿参数的扩散Transformer深度整合,实现了空间理解与图像生成的闭环协同。
1)核心技术价值:
● 架构创新:采用8B MLLM+16B MMDiT统一架构,MLLM 负责空间语义理解,MMDiT 扩散模型执行生成编辑,空间信息全链路注入,打破理解与生成壁垒。
● 空间智能核心:构建OpenSpatial-3M空间数据集,建模空间位置、多视角一致性、相机感知、场景推理,支持物体精准位移 / 旋转、6 自由度视角变换、几何结构控制。
● 范式突破:首创 TWNV(新视角辅助推理) 三阶段流水线(规划器→生成器→推理器),通过生成新视角强化空间判断,解决单图透视 / 遮挡推理难题。
2)测试结果:
● 在9项空间理解Benchmark上平均分达64.4,追平闭源的Gemini 2.5 Pro。在SpatialEdit-Bench上,物体编辑得分0.649、相机控制得分0.571,空间编辑精度超越Veo3.1等视频世界模型。GEdit榜单得分8.27、ImgEdit得分4.57,刷新开源图像编辑模型SOTA。
魔方快评:JoyAI-Image-Edit 的核心突破在于空间智能与多模态框架的深度耦合,而非简单功能叠加。其 MLLM+MMDiT 架构实现理解与生成的双向增强,TWNV 推理机制解决单视图空间歧义,OpenSpatial-3M 数据体系为空间能力提供扎实支撑。模型在空间理解与编辑精度上追平闭源顶尖模型,验证了国产大模型在复杂几何建模、多模态协同的技术实力。
来源链接:重磅开源!240亿参数力压Nano Banana 2
▍4. Hermes Agent 登场,开源可托管 AI 智能体框架
核心技术价值:
● 自主进化引擎:内置闭环学习回路,任务执行后自动沉淀 Skill(标准化流程)、持续优化执行逻辑,实现 "越用越聪明"。
● 三层记忆架构:该系统摒弃了简单的聊天记录存储,而是设计了分层记忆。包括存储当前对话的“会话记忆”、基于SQLite和FTS5全文检索的“持久记忆”,以及由自动沉淀的Skill文档构成的“技能记忆”。此外,它还集成了Honcho框架进行用户建模,以深度理解用户的决策模式和偏好。
● 模型无关架构:兼容 GPT-4、DeepSeek 等 200 + 模型,无厂商绑定,支持本地 / 云端 /serverless 多环境部署。
魔方快评:Hermes Agent 的核心贡献是将 Agent 从静态编排推向动态进化。其闭环学习与持久记忆架构,解决了长期困扰 Agent 领域的能力固化与上下文断层问题,SQLite+FTS5 的轻量化设计平衡了记忆能力与部署成本,模型无关架构大幅提升适配性。
来源链接:两个月 4.7 万星,爆火的 Hermes Agent 是下一个龙虾,还是另一个故事?
▍5. OpenClaw 龙虾五天五连更,记忆重构 + 视频生成全速迭代
OpenClaw(龙虾)于 2026 年 4 月 7—11 日完成五天五版(v2026.4.7–v2026.4.11)密集迭代,以本地优先、模型解耦、视觉系统操控、记忆重构、安全加固、多模态扩展为核心,展现了惊人的工程化速度。
核心技术价值:
● 记忆系统全栈重构:推出openclaw inferCLI 推理中心、记忆 Wiki 恢复,结构化记忆(Claims)+ 长时记忆,支持跨会话知识沉淀、任务上下文延续36氪。
● 安全与权限加固:沙箱隔离、细粒度权限控制、操作审计,降低系统级权限风险;修复多平台通道漏洞,提升稳定性.
● 本地优先架构:数据全本地存储、自托管网关,数据主权完全归用户,规避云端泄露与监管风险;去中心化运行,不依赖厂商云服务,降低长期成本。
● 多模态与端侧扩展:接入视频生成、本地语音推理,从文本到视听全模态;支持跨设备联动(PC↔手机),端侧部署能力增强。
魔方快评:OpenClaw 五天五连迭代重构了 AI 智能体架构范式:本地优先与模型解耦解决数据安全与厂商锁定痛点,视觉操控突破软件壁垒,记忆与推理中心强化任务闭环,插件化实现生态快速扩张。Rust 异步架构保障高性能,多模态与跨设备扩展符合 AI 端侧化趋势。
来源链接:Openclaw 龙虾五天五连,24小时两更,火力全开!到底更新了些什么?
▍6. Claude Code 推出 /Ultraplan,云端可视化编程规划新体验
Anthropic在Claude Code v2.1.92中推出/Ultraplan功能,其核心技术价值在于将“规划”与“执行”解耦——规划阶段(代码阅读、意图理解)卸载至云端异步完成,执行阶段保留在本地终端。
核心技术价值:
● 云端深度推理架构:在 Anthropic 云容器运行时(CCR)启动专属 Opus 4.6 实例,提供最长 30 分钟连续计算,突破本地会话时长与算力限制。
● 规划与执行解耦:终端仅发起指令,规划在云端异步完成,终端全程不阻塞、不占用本地上下文,开发者可并行处理其他任务。
● 结构化文档化规划:浏览器端生成含任务拆解、文件清单、依赖、风险、前置条件的可视化计划,支持在线批注、迭代、审批。
魔方快评:Ultraplan 核心价值是计算卸载与流程解耦,将重推理规划转移至云端专用资源,突破本地会话与算力瓶颈,是 AI 编程工具的重要范式升级。其 30 分钟深度推理、多代理协同、全库扫描能力,有效解决复杂项目全局规划难题。浏览器端结构化审阅与迭代机制,强化人机协同与风险控制,显著降低返工率。
来源链接:Claude Code 推出 /Ultraplan,超级计划模式
▍7. OPPO联合上交大等发表 Agent Infra 论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》
机构:Shanghai Jiao Tong University, Sun Yat-Sen University, Shanghai Innovation Institute, Carnegie Mellon University, OPPO | 作者: Chenyu Zhou, Huacan Chai, Wenteng Chen, Zihan Guo, Rong Shan, Yuanyi Song,et al.
一句话总结:本文系统地提出了“外部化”(Externalization)框架,将智能体的发展从依赖模型内化能力转向通过记忆、技能、协议及治理层(Harness)构建的外部认知基础设施。
解决问题:未经辅助的LLM由于有限的上下文窗口和薄弱的会话记忆,难以处理长周期任务,导致难以维持状态和连续性(连续性问题);LLM在执行多步骤程序时表现出不一致性,经常重复推导步骤,导致在多次交互中工具使用不稳定(变异性问题);当依赖自由形式的提示时,与外部工具、服务和其他代理的交互是脆弱的,并且缺乏标准化(协调问题)。
技术:
1)本文提出“外部化”作为一种深思熟虑的策略,将认知负担从LLM的内部计算转移到可检查、可重用和持久的外部结构;
2)开发外部记忆系统以管理代理跨时间的状态,将连续性负担转换为相关信息的选择性检索;
3)实施外部技能系统以封装程序专业知识,将隐性知识转化为显性、可重用的操作指南,以实现一致的执行;
4)建立外部协议以标准化交互结构,将模糊的通信转换为可互操作、机器可读的契约,以实现强大的工具和代理协调。
测试结果:提出了一个全面的“外部化”框架,统一了记忆、技能和协议,并展示了“引导工程”如何将这些外部化模块编排成连贯的代理行为;记忆系统被发现可以外部化四种类型的状态(工作上下文、情景、语义、个性化),通过从单一到自适应的架构演变,并由明确的策略管理;技能系统通过正式规范、发现、执行绑定和各种获取机制来外部化程序专业知识(操作程序、决策启发式、规范约束);协议通过调用语法、生命周期语义、权限、发现元数据来外部化交互结构,标准化代理-工具、代理-代理、代理-用户和专用领域之间的通信。
魔方快评:该文以认知科学为理论根基,首次用外部化统一解释 LLM Agent 的架构演进,清晰界定记忆、技能、协议、Harness 的分工与协同,跳出 “模型越大越强” 的传统思路,指明外部认知基建才是提升智能体可靠性、可控性的关键。论文体系完整、视角前沿,既梳理了技术脉络,又剖析了权衡与挑战,为 Agent 工程化、规模化落地提供了系统性指导,是当前 LLM Agent 领域极具参考价值的综述文献。
来源链接:https://arxiv.org/pdf/2604.08224
▍8. UniPat AI联合英属哥伦比亚大学等联合发表 模型测评 论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》
机构:University of British Columbia, Vector Institute, Etude AI, Carnegie Mellon University, University of Waterloo, Shanghai Jiao Tong University, UniPat AI , et al. | 作者: Yuxuan Zhang, Yubo Wang, Yipeng Zhu, Penghui Du, Junwen Miao, Xuan Lu,et al.
一句话总结:本文引入ClawBench,这是一个在真实生产环境网站上运行的评估框架。用于评估AI代理在144个真实生产网站上的153个“写密集型”任务。它结合了安全拦截机制和五层记录基础设施。结果显示,即使是前沿AI模型在这些现实任务上的成功率也很低,介于0.7%到33.3%之间,这表明与传统基准测试相比存在显著的性能差距。
解决问题:现有的网络代理基准测试缺乏真实世界保真度,它们使用沙盒环境或静态页面,无法捕捉真实网站的动态内容、反爬虫防御或不断变化的布局;许多当前基准测试主要关注只读任务或依赖模拟API,未能充分评估对通用AI助手至关重要的“写密集型”或状态改变任务(例如,购买、预订);在真实且具有重要影响的任务上评估代理会引入安全风险,并且通常缺乏健壮、可追溯的诊断机制,不利于有效的故障分析。
技术:
1)ClawBench包含153个日常“写密集型”在线任务,涵盖15个类别和144个独特的真实生产平台,强调修改服务器端状态的操作;
2)它使用Chrome扩展和Chrome DevTools Protocol (CDP) 服务器实现了一个安全拦截机制,捕获并阻止最终提交请求,从而在保持生态有效性的同时,防止真实世界的副作用;
3)采用五层记录基础设施(会话视频、操作截图、HTTP流量、代理消息、浏览器操作)和一个代理评估器,用于全面的事后诊断和与人类真实轨迹的比较。
测试结果:与在OSWorld和WebArena等传统基准测试中(顶级模型成功率为65-75%)的表现相比,前沿AI模型在CLAWBENCH上的成功率显著降低(0.7-33.3%);Claude Sonnet 4.6在该基准测试的153个任务中表现出最高的总体成功率,达到33.3%,其次是GLM-5,为24.2%;模型在高级任务类别中的表现各异,表明缺乏统一的能力,其中Claude Sonnet 4.6在日常、金融和学术类别中表现出更强的结果。
魔方快评:该基准突破传统沙盒静态评测局限,直面真实网站动态交互、反爬、复杂表单等现实难题,精准暴露当前顶尖模型在日常网页实操上的巨大短板:最强 Claude Sonnet 4.6 仅 33.3% 成功率。其安全拦截机制、五层轨迹记录与智能体评估范式,为真实场景智能体评测树立新标准,清晰揭示实验室性能与落地能力的鸿沟,对推动通用网页智能体走向实用化具有关键价值。
来源链接:https://arxiv.org/pdf/2604.08523
▍9. Google DeepMind 强化学习 论文《How new data permeates LLM knowledge and how to dilute it》简析
一句话总结:该论文揭示了新数据通过“启动效应”渗透LLM知识的机制,并提出了“垫脚石”文本增强和“忽略top-k”梯度修剪两种技术,可在保留学习能力的同时将不良启动效应降低50%-95%。
解决问题:缺乏对单个新信息如何影响大型语言模型中现有知识的理解;需要控制新知识如何影响模型行为的方法,以防止不当概括和幻觉。
技术:
1)创建了“Outlandish”数据集以系统研究知识渗透;
2)开发了根据标记概率测量和预测预激活效应的技术;
3)引入了两种缓解策略:“垫脚石”文本增强和“忽略k”更新剪枝。
测试结果:缓解策略在保持学习能力的同时,将不良预激活效应减少了50-95%;证明了不同模型架构中标记概率与预激活之间存在一致的关系;确定了预测预激活效应可能性的明确概率阈值;表明在某些模型架构中,记忆化和预激活在机制上是相互关联的。
魔方快评:该文聚焦 LLM 知识更新中的知识污染与幻觉问题,构建 Outlandish 数据集系统研究新知识渗透机制,证实启动效应可预测,并提出 “垫脚石” 文本增强、“忽略 topk” 更新剪枝两种干预手段,能将不良启动效应降低 50%–95% 且保留新知识学习能力。研究兼具理论解释力与工程实用性,为可控知识插入、提升模型鲁棒性提供清晰路径,对持续学习与对齐优化有重要参考价值。
来源链接:https://arxiv.org/pdf/2504.09522

关注AGENT魔方,获取更多AI资讯
- 点赞
- 收藏
- 关注作者
评论(0)