- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【AGENT魔方】AI 热点资讯 2026-04-13

AGENT魔方发表于 2026/04/13 16:45:28 2026/04/13

【摘要】前沿动态 · 深度解析

▍概览

技术发布

MiniMax Music 2.6 发布，20 秒出歌+ 全新 Cover 翻唱功能
MiniMax 开源 M2.7 模型，赋能开发者生态

京东开源 JoyAI-Image-Edit 开源：空间理解达世界一流水准
Hermes Agent 登场，开源可托管 AI 智能体框架

OpenClaw 龙虾五天五连更，记忆重构 + 视频生成全速迭代

Claude Code 推出 /Ultraplan，云端可视化编程规划新体验

论文简析

OPPO联合上交大等发表 Agent Infra 论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》

UniPat AI联合英属哥伦比亚大学等联合发表模型测评论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》
Google DeepMind 强化学习论文《How new data permeates LLM knowledge and how to dilute it》简析

▍1. MiniMax Music 2.6 发布，20 秒出歌+ 全新 Cover 翻唱功能

MiniMax 发布 Music 2.6 AI 音乐生成模型，以速度、可控性、音质、生态四大维度突破，推动 AI 音乐从 “随机生成” 迈向 “精准创作”。

1）核心技术价值：

● 底层架构重构：深度优化生成引擎，首包延迟从分钟级降至 20 秒内，实现 “即点即生”，解决 AI 音乐生成效率瓶颈。

● 精准可控体系：精准锁定 BPM 与调性、精细化段落编排、深度情绪解析，大幅降低创作 “盲盒感”。

● 声学质感升级：人声去工业化、增强自然律动感，器乐时序与层次优化，中低频表现显著提升，适配影视、游戏等专业场景。

● 生态开放：开源 3 大 Music Skill（minimax-music-gen/playlist/buddy-sing），支持 AI Agent 快速集成，两行命令调用。

2）测试结果：

● 首包平均延迟18–20 秒，5 分钟曲目完整生成约 90 秒，效率提升 300%。

魔方快评：MiniMax Music 2.6 以工程优化 + 算法突破双轮驱动，技术价值聚焦 “效率 - 可控 - 质感” 三角。底层架构重构实现 20 秒级首包，是大模型推理调度的标杆优化。可控性从 “参数拟合” 升级为 “音乐逻辑理解”，BPM / 调性 / 段落精准执行，解决 AI 音乐核心痛点。声学模型引入时序动态建模与中低频物理声学优化，人声去机械感、器乐层次化，听感接近真实混音MiniMax。Cover 功能基于旋律特征提取 + 风格迁移网络，实现跨风格保真改编，技术落地性强。

来源链接：MiniMax Music 2.6：我们想讲四个人的故事

▍2. MiniMax 开源 M2.7 模型，赋能开发者生态

MiniMax M2.7正式全球开源，华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA，以及Together AI、Fireworks、Ollama等海内外芯片厂商、推理平台，开源首日即完成模型接入与推理适配。

昇腾 AI 基础软硬件实现首日适配，基于 vllm-Ascend 推理引擎在 Atlas 800 A3、Atlas 800I A2 系列产品上为模型的推理部署提供全流程支持；
摩尔线程技术团队基于 MUSA 架构，针对 M2.7 的模型特点完成深度调优，成功在 MTT S5000 上实现模型的的高性能推理；
沐曦曦云 C 系列 GPU 凭借全栈自研的 MXMACA 软件栈，首日完成深度适配，实现“模型发布即算力就绪”的 Day 0 体验；
昆仑芯依托自研架构，通过底层算子优化与软硬件协同加速，保障 M2.7 在平台上的稳定、高效运行表现；
NVIDIA 推理框架 TensorRT-LLM 为 M2.7 提供了深度适配与全面优化支持，帮助开发者和企业用户高效完成模型的部署与上线。

魔方快评：MiniMax M2.7开源首日完成多硬件栈适配，体现出极高的工程化成熟度与架构通用性。模型稀疏 MoE 与高效注意力设计具备良好跨硬件兼容性，可快速对接主流推理框架与国产芯片栈，实现低显存占用与高吞吐部署。多平台同步支持也大幅降低开发者接入成本，加速自进化与 Agent 能力落地。

来源链接：MiniMax M2.7开源，携手全球伙伴加速AI生态繁荣

▍3. 京东开源 JoyAI-Image-Edit 开源：空间理解达世界一流水准

京东探索研究院开源自研JoyAI-Image-Edit图像模型，以 Apache2.0 协议开放推理代码，成为业内首个深度融合空间智能的统一多模态图像编辑基座。该模型采用创新的MLLM-MMDiT双模耦合架构，将80亿参数的多模态语言模型与160亿参数的扩散Transformer深度整合，实现了空间理解与图像生成的闭环协同。

1）核心技术价值：

● 架构创新：采用8B MLLM+16B MMDiT统一架构，MLLM 负责空间语义理解，MMDiT 扩散模型执行生成编辑，空间信息全链路注入，打破理解与生成壁垒。

● 空间智能核心：构建OpenSpatial-3M空间数据集，建模空间位置、多视角一致性、相机感知、场景推理，支持物体精准位移 / 旋转、6 自由度视角变换、几何结构控制。

● 范式突破：首创 TWNV（新视角辅助推理）三阶段流水线（规划器→生成器→推理器），通过生成新视角强化空间判断，解决单图透视 / 遮挡推理难题。

2）测试结果：

● 在9项空间理解Benchmark上平均分达64.4，追平闭源的Gemini 2.5 Pro。在SpatialEdit-Bench上，物体编辑得分0.649、相机控制得分0.571，空间编辑精度超越Veo3.1等视频世界模型。GEdit榜单得分8.27、ImgEdit得分4.57，刷新开源图像编辑模型SOTA。

魔方快评：JoyAI-Image-Edit 的核心突破在于空间智能与多模态框架的深度耦合，而非简单功能叠加。其 MLLM+MMDiT 架构实现理解与生成的双向增强，TWNV 推理机制解决单视图空间歧义，OpenSpatial-3M 数据体系为空间能力提供扎实支撑。模型在空间理解与编辑精度上追平闭源顶尖模型，验证了国产大模型在复杂几何建模、多模态协同的技术实力。

来源链接：重磅开源！240亿参数力压Nano Banana 2

▍4. Hermes Agent 登场，开源可托管 AI 智能体框架

Hermes Agent 是由 Nous Research 开发的开源 AI Agent 框架，核心价值在于将 Agent 从“一次性调用工具”重构为“可持续进化的长期系统”。

核心技术价值：

● 自主进化引擎：内置闭环学习回路，任务执行后自动沉淀 Skill（标准化流程）、持续优化执行逻辑，实现 "越用越聪明"。

● 三层记忆架构：该系统摒弃了简单的聊天记录存储，而是设计了分层记忆。包括存储当前对话的“会话记忆”、基于SQLite和FTS5全文检索的“持久记忆”，以及由自动沉淀的Skill文档构成的“技能记忆”。此外，它还集成了Honcho框架进行用户建模，以深度理解用户的决策模式和偏好。

● 模型无关架构：兼容 GPT-4、DeepSeek 等 200 + 模型，无厂商绑定，支持本地 / 云端 /serverless 多环境部署。

魔方快评：Hermes Agent 的核心贡献是将 Agent 从静态编排推向动态进化。其闭环学习与持久记忆架构，解决了长期困扰 Agent 领域的能力固化与上下文断层问题，SQLite+FTS5 的轻量化设计平衡了记忆能力与部署成本，模型无关架构大幅提升适配性。

来源链接：两个月 4.7 万星，爆火的 Hermes Agent 是下一个龙虾，还是另一个故事？

▍5. OpenClaw 龙虾五天五连更，记忆重构 + 视频生成全速迭代

OpenClaw（龙虾）于 2026 年 4 月 7—11 日完成五天五版（v2026.4.7–v2026.4.11）密集迭代，以本地优先、模型解耦、视觉系统操控、记忆重构、安全加固、多模态扩展为核心，展现了惊人的工程化速度。

核心技术价值：

● 记忆系统全栈重构：推出openclaw inferCLI 推理中心、记忆 Wiki 恢复，结构化记忆（Claims）+ 长时记忆，支持跨会话知识沉淀、任务上下文延续36氪。

● 安全与权限加固：沙箱隔离、细粒度权限控制、操作审计，降低系统级权限风险；修复多平台通道漏洞，提升稳定性.

● 本地优先架构：数据全本地存储、自托管网关，数据主权完全归用户，规避云端泄露与监管风险；去中心化运行，不依赖厂商云服务，降低长期成本。

● 多模态与端侧扩展：接入视频生成、本地语音推理，从文本到视听全模态；支持跨设备联动（PC↔手机），端侧部署能力增强。

魔方快评：OpenClaw 五天五连迭代重构了 AI 智能体架构范式：本地优先与模型解耦解决数据安全与厂商锁定痛点，视觉操控突破软件壁垒，记忆与推理中心强化任务闭环，插件化实现生态快速扩张。Rust 异步架构保障高性能，多模态与跨设备扩展符合 AI 端侧化趋势。

来源链接：Openclaw 龙虾五天五连，24小时两更，火力全开！到底更新了些什么？

▍6. Claude Code 推出 /Ultraplan，云端可视化编程规划新体验

Anthropic在Claude Code v2.1.92中推出/Ultraplan功能，其核心技术价值在于将“规划”与“执行”解耦——规划阶段（代码阅读、意图理解）卸载至云端异步完成，执行阶段保留在本地终端。

核心技术价值：

● 云端深度推理架构：在 Anthropic 云容器运行时（CCR）启动专属 Opus 4.6 实例，提供最长 30 分钟连续计算，突破本地会话时长与算力限制。

● 规划与执行解耦：终端仅发起指令，规划在云端异步完成，终端全程不阻塞、不占用本地上下文，开发者可并行处理其他任务。

● 结构化文档化规划：浏览器端生成含任务拆解、文件清单、依赖、风险、前置条件的可视化计划，支持在线批注、迭代、审批。

魔方快评：Ultraplan 核心价值是计算卸载与流程解耦，将重推理规划转移至云端专用资源，突破本地会话与算力瓶颈，是 AI 编程工具的重要范式升级。其 30 分钟深度推理、多代理协同、全库扫描能力，有效解决复杂项目全局规划难题。浏览器端结构化审阅与迭代机制，强化人机协同与风险控制，显著降低返工率。

来源链接：Claude Code 推出 /Ultraplan，超级计划模式

▍7. OPPO联合上交大等发表 Agent Infra 论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》

机构：Shanghai Jiao Tong University, Sun Yat-Sen University, Shanghai Innovation Institute, Carnegie Mellon University, OPPO | 作者： Chenyu Zhou, Huacan Chai, Wenteng Chen, Zihan Guo, Rong Shan, Yuanyi Song,et al.

一句话总结：本文系统地提出了“外部化”（Externalization）框架，将智能体的发展从依赖模型内化能力转向通过记忆、技能、协议及治理层（Harness）构建的外部认知基础设施。

解决问题：未经辅助的LLM由于有限的上下文窗口和薄弱的会话记忆，难以处理长周期任务，导致难以维持状态和连续性（连续性问题）；LLM在执行多步骤程序时表现出不一致性，经常重复推导步骤，导致在多次交互中工具使用不稳定（变异性问题）；当依赖自由形式的提示时，与外部工具、服务和其他代理的交互是脆弱的，并且缺乏标准化（协调问题）。

技术：

1）本文提出“外部化”作为一种深思熟虑的策略，将认知负担从LLM的内部计算转移到可检查、可重用和持久的外部结构；

2）开发外部记忆系统以管理代理跨时间的状态，将连续性负担转换为相关信息的选择性检索；

3）实施外部技能系统以封装程序专业知识，将隐性知识转化为显性、可重用的操作指南，以实现一致的执行；

4）建立外部协议以标准化交互结构，将模糊的通信转换为可互操作、机器可读的契约，以实现强大的工具和代理协调。

测试结果：提出了一个全面的“外部化”框架，统一了记忆、技能和协议，并展示了“引导工程”如何将这些外部化模块编排成连贯的代理行为；记忆系统被发现可以外部化四种类型的状态（工作上下文、情景、语义、个性化），通过从单一到自适应的架构演变，并由明确的策略管理；技能系统通过正式规范、发现、执行绑定和各种获取机制来外部化程序专业知识（操作程序、决策启发式、规范约束）；协议通过调用语法、生命周期语义、权限、发现元数据来外部化交互结构，标准化代理-工具、代理-代理、代理-用户和专用领域之间的通信。

魔方快评：该文以认知科学为理论根基，首次用外部化统一解释 LLM Agent 的架构演进，清晰界定记忆、技能、协议、Harness 的分工与协同，跳出 “模型越大越强” 的传统思路，指明外部认知基建才是提升智能体可靠性、可控性的关键。论文体系完整、视角前沿，既梳理了技术脉络，又剖析了权衡与挑战，为 Agent 工程化、规模化落地提供了系统性指导，是当前 LLM Agent 领域极具参考价值的综述文献。

来源链接：https://arxiv.org/pdf/2604.08224

▍8. UniPat AI联合英属哥伦比亚大学等联合发表模型测评论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》

机构：University of British Columbia, Vector Institute, Etude AI, Carnegie Mellon University, University of Waterloo, Shanghai Jiao Tong University, UniPat AI , et al. | 作者： Yuxuan Zhang, Yubo Wang, Yipeng Zhu, Penghui Du, Junwen Miao, Xuan Lu,et al.

一句话总结：本文引入ClawBench，这是一个在真实生产环境网站上运行的评估框架。用于评估AI代理在144个真实生产网站上的153个“写密集型”任务。它结合了安全拦截机制和五层记录基础设施。结果显示，即使是前沿AI模型在这些现实任务上的成功率也很低，介于0.7%到33.3%之间，这表明与传统基准测试相比存在显著的性能差距。

解决问题：现有的网络代理基准测试缺乏真实世界保真度，它们使用沙盒环境或静态页面，无法捕捉真实网站的动态内容、反爬虫防御或不断变化的布局；许多当前基准测试主要关注只读任务或依赖模拟API，未能充分评估对通用AI助手至关重要的“写密集型”或状态改变任务（例如，购买、预订）；在真实且具有重要影响的任务上评估代理会引入安全风险，并且通常缺乏健壮、可追溯的诊断机制，不利于有效的故障分析。

技术：

1）ClawBench包含153个日常“写密集型”在线任务，涵盖15个类别和144个独特的真实生产平台，强调修改服务器端状态的操作；

2）它使用Chrome扩展和Chrome DevTools Protocol (CDP) 服务器实现了一个安全拦截机制，捕获并阻止最终提交请求，从而在保持生态有效性的同时，防止真实世界的副作用；

3）采用五层记录基础设施（会话视频、操作截图、HTTP流量、代理消息、浏览器操作）和一个代理评估器，用于全面的事后诊断和与人类真实轨迹的比较。

测试结果：与在OSWorld和WebArena等传统基准测试中（顶级模型成功率为65-75%）的表现相比，前沿AI模型在CLAWBENCH上的成功率显著降低（0.7-33.3%）；Claude Sonnet 4.6在该基准测试的153个任务中表现出最高的总体成功率，达到33.3%，其次是GLM-5，为24.2%；模型在高级任务类别中的表现各异，表明缺乏统一的能力，其中Claude Sonnet 4.6在日常、金融和学术类别中表现出更强的结果。

魔方快评：该基准突破传统沙盒静态评测局限，直面真实网站动态交互、反爬、复杂表单等现实难题，精准暴露当前顶尖模型在日常网页实操上的巨大短板：最强 Claude Sonnet 4.6 仅 33.3% 成功率。其安全拦截机制、五层轨迹记录与智能体评估范式，为真实场景智能体评测树立新标准，清晰揭示实验室性能与落地能力的鸿沟，对推动通用网页智能体走向实用化具有关键价值。

来源链接：https://arxiv.org/pdf/2604.08523

▍9. Google DeepMind 强化学习论文《How new data permeates LLM knowledge and how to dilute it》简析

机构：Google DeepMind | 作者： Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler

一句话总结：该论文揭示了新数据通过“启动效应”渗透LLM知识的机制，并提出了“垫脚石”文本增强和“忽略top-k”梯度修剪两种技术，可在保留学习能力的同时将不良启动效应降低50%-95%。

解决问题：缺乏对单个新信息如何影响大型语言模型中现有知识的理解；需要控制新知识如何影响模型行为的方法，以防止不当概括和幻觉。

技术：

1）创建了“Outlandish”数据集以系统研究知识渗透；

2）开发了根据标记概率测量和预测预激活效应的技术；

3）引入了两种缓解策略：“垫脚石”文本增强和“忽略k”更新剪枝。

测试结果：缓解策略在保持学习能力的同时，将不良预激活效应减少了50-95%；证明了不同模型架构中标记概率与预激活之间存在一致的关系；确定了预测预激活效应可能性的明确概率阈值；表明在某些模型架构中，记忆化和预激活在机制上是相互关联的。

魔方快评：该文聚焦 LLM 知识更新中的知识污染与幻觉问题，构建 Outlandish 数据集系统研究新知识渗透机制，证实启动效应可预测，并提出 “垫脚石” 文本增强、“忽略 topk” 更新剪枝两种干预手段，能将不良启动效应降低 50%–95% 且保留新知识学习能力。研究兼具理论解释力与工程实用性，为可控知识插入、提升模型鲁棒性提供清晰路径，对持续学习与对齐优化有重要参考价值。

来源链接：https://arxiv.org/pdf/2504.09522

关注AGENT魔方，获取更多AI资讯

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【AGENT魔方】AI 热点资讯 2026-04-13

▍概览

技术发布

论文简析

▍1. MiniMax Music 2.6 发布，20 秒出歌+ 全新 Cover 翻唱功能

▍2. MiniMax 开源 M2.7 模型，赋能开发者生态

▍3. 京东开源 JoyAI-Image-Edit 开源：空间理解达世界一流水准

▍4. Hermes Agent 登场，开源可托管 AI 智能体框架

▍5. OpenClaw 龙虾五天五连更，记忆重构 + 视频生成全速迭代

▍6. Claude Code 推出 /Ultraplan，云端可视化编程规划新体验

▍7. OPPO联合上交大等发表 Agent Infra 论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》

▍8. UniPat AI联合英属哥伦比亚大学等联合发表模型测评论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》

▍9. Google DeepMind 强化学习论文《How new data permeates LLM knowledge and how to dilute it》简析

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【AGENT魔方】AI 热点资讯 2026-04-13

▍概览

技术发布

论文简析

▍1. MiniMax Music 2.6 发布，20 秒出歌+ 全新 Cover 翻唱功能

▍2. MiniMax 开源 M2.7 模型，赋能开发者生态

▍3. 京东开源 JoyAI-Image-Edit 开源：空间理解达世界一流水准

▍4. Hermes Agent 登场，开源可托管 AI 智能体框架

▍5. OpenClaw 龙虾五天五连更，记忆重构 + 视频生成全速迭代

▍6. Claude Code 推出 /Ultraplan，云端可视化编程规划新体验

▍7. OPPO联合上交大等发表 Agent Infra 论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》

▍8. UniPat AI联合英属哥伦比亚大学等联合发表 模型测评 论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》

▍9. Google DeepMind 强化学习 论文《How new data permeates LLM knowledge and how to dilute it》简析

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

▍8. UniPat AI联合英属哥伦比亚大学等联合发表模型测评论文《ClawBench: Can AI Agents Complete Everyday Online Tasks?》

▍9. Google DeepMind 强化学习论文《How new data permeates LLM knowledge and how to dilute it》简析