一切为了落地 | 吴恩达在2025年都做了些什么? #茶思拾光集
在全球人工智能的发展版图上,吴恩达(Andrew Ng)始终以清晰的方向感而著称。他不仅是深度学习早期浪潮的重要推动者,也在 AI 向产业、教育和公共科学延展的过程中发挥了关键作用。从斯坦福的机器学习课程,到 Google Brain 的创立,再到百度大脑的工程化实践和 Coursera 的在线教育革命,以及 Landing.ai 推动的工业 AI 现代化,他的职业经历几乎贯穿了过去二十年 AI 的每一次重要跃迁。
随着 AI 逐渐走出实验室,面对的是多样的应用场景、庞杂的数据体系以及跨领域的系统工程挑战。吴恩达的研究也随之从算法创新扩展到数据建设、系统能力和工程化落地的全链条探索。他关注的焦点不再仅是模型性能,而是 AI 是否能够应对现实世界中的复杂性、不确定性和大规模问题。
本文将聚焦他 2025 年在各个工程应用领域的重点研究进展,梳理其在推动 AI 实际落地和应用转化方面的实践与思路。
UQ:Assessing Language Models on Unsolved Questions
在大模型评测愈发被“刷榜”和套路化所主导的当下,吴恩达团队选择了一条截然不同的路径:不再要求模型回答那些早已有标准答案的问题,而是让它直面连人类尚未给出定论的开放性难题。这看似是在“为难模型”,实则精准击中了当下评测体系的核心困境——多数 benchmark 要么高度程式化,像一场不断被复习的考试;要么过度依赖真实用户提问,却因问题粒度过浅而难以拉开能力差距,最终都难以衡量大模型在真实世界中的开放问题解决能力。
UQ(Unsolved Questions)所提出的思想并不复杂,却极具挑战性:既然真实世界本身由大量尚未解决、没有标准答案的问题构成,那么对大模型的评估,也理应围绕这些问题展开。
这篇论文提出了一种不同于传统 benchmark 的语言模型评估思路:不再使用已有标准答案的问题,而是引入现实世界中尚未被解决的问题(Unsolved Questions, UQ),以此考察模型在面对真实、开放且高难度问题时的能力。作者指出,当前主流评测体系在一定程度上已被模型“适配”,分数提升并不必然意味着模型在真实问题解决能力上的实质进步,因此需要新的评估范式来补充现有基准 。
论文中所定义的“未解决问题”,并非主观设定的难题,而是来自真实用户场景。作者主要从 Stack Exchange 网络中收集问题,这些问题具有明确提问意图,但在长时间内未获得被社区接受的答案。通过自动筛选与人工复核相结合的流程,研究团队最终构建了一个规模较小但质量严格控制的 UQ 问题集,用以评估语言模型在复杂推理、跨领域知识整合与不确定性处理方面的表现 。
由于这些问题本身不存在已知“正确答案”,论文明确指出,传统基于准确率或匹配度的评估方法不再适用。为此,作者提出了一套验证思路,强调区分“生成能力”与“验证能力”:模型可以生成候选解答,但这些解答需要通过一系列自动一致性检查与人工审查,来判断其是否在逻辑上自洽、在事实层面站得住脚。论文并未声称这一验证体系可以完全自动化,而是将其定位为一种辅助人类评估的机制 。
在实验结果中,作者报告了多个当前主流语言模型在 UQ 问题集上的表现。总体结论是,即便是最先进的模型,也只有少量回答能够通过后续验证流程,显示出在真实未解决问题上,模型仍然面临显著困难。这一结果被作者用来说明:在脱离标准答案的开放问题情境中,语言模型的能力提升仍然十分有限,远未达到可靠替代人类专家的程度 。
论文最后强调,UQ 并非意在取代现有 benchmark,而是作为一种补充性评估工具,用于观察模型在“尚无人知道答案”的问题上的行为方式。作者同时公布了配套的开放平台,希望未来能够通过持续的问题引入与社区验证,使评估过程保持动态更新,从而避免评测本身再次被模型过拟合 。

(论文地址:https://arxiv.org/pdf/2508.17580)
MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents
《MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents》试图回答的,并不仅仅是“哪个医疗大模型表现更好”,而是一个更根本的问题:当大型语言模型具备 agent 能力之后,我们究竟该如何评测它们的真实“行动能力”。
论文的出发点在于,随着 LLM 从以对话为中心的聊天模型,逐步演化为能够规划、调用工具并执行多步骤任务的智能体模型,传统以问答正确率为核心的评测方式,已经难以覆盖其能力边界。
作者指出,当前医疗领域的评测基准大多仍停留在静态任务层面,例如医学问答或文本理解,而现实中的临床工作却高度依赖于对结构化病历的持续访问、跨步骤操作以及对复杂系统的交互。在这样的背景下,研究社区实际上缺乏一个足够真实、足够复杂、也足以暴露模型短板的测试环境,用来评估 LLM 作为“行动主体”时的整体表现。MedAgentBench 正是在这一缺口上被提出的。
与传统 benchmark 不同,MedAgentBench 被设计为一个环境级(environment-level)评测框架。它并不只关注模型是否给出“正确答案”,而是将模型置于一个高度仿真的虚拟 EHR(电子健康记录)系统中,要求其像真实临床系统中的智能代理一样完成任务。该环境基于符合 FHIR 标准的接口构建,允许模型通过 API 查询、更新和操作患者病历,从而在评测中引入真实系统所具备的操作约束与交互流程。
在具体构成上,MedAgentBench 包含由临床医生设计的 300 个任务,覆盖多类真实医疗工作流程;配套的数据来自 100 余名真实但经过脱敏处理的患者病历,记录规模达到数十万条,涵盖诊断、用药、检查、生命体征等多种信息类型。这种规模和异质性,使模型必须面对真实世界中信息分散、结构复杂的情境,从而检验其在“信息混乱”条件下的处理能力。同时,多步骤、长程任务的设置,也使模型的规划能力与执行一致性成为评测重点。
在实验部分,作者对多种主流大模型代理进行了系统评估,并以任务成功率作为主要指标。结果显示,即便是表现最好的模型,其整体成功率也仅为约 69.67%。论文并未将这一结果解读为模型“失败”,而是将其视为一个重要信号:在真实、复杂、可交互的医疗环境中,当前智能体模型的能力仍然存在明显上限,尤其在涉及多次操作和状态更新的任务中,模型更容易出现失误。
从评测范式的角度看,MedAgentBench 的意义并不在于给模型打出一个最终分数,而在于表明智能体评测的重心正在从“答案是否正确”,转向“过程是否可靠”。通过将模型置于接近真实部署环境的测试框架中,这一 benchmark 能够更有效地暴露智能体系统在规划、工具调用和执行层面的瓶颈,也为未来模型能力的持续改进提供了可重复、可对比的评测基础。
(论文地址:https://arxiv.org/pdf/2505.13447?)
Evaluating and Improving the Effectiveness of Synthetic Chest X-Rays for Medical Image Analysis
这篇论文关注的,是一个在 AI 和医学影像领域都日益重要的问题:如何利用合成数据提升深度学习模型的表现。虽然论文的实验场景是胸部 X 光影像,但其背后反映的挑战在所有数据稀缺的领域都有共性——真实数据昂贵、难以获取且标注成本高。因此,研究的核心问题可以概括为:生成式模型能否成为新的“数据增压器”,帮助缓解数据稀缺所带来的性能瓶颈。
在方法上,作者使用了潜在扩散模型(latent diffusion)生成不同条件下的合成 X 光影像,包括基于文本描述的生成和基于结构化掩码的条件生成。这使得生成的图像不仅在外观上与真实影像相似,还携带明确的疾病信息或结构特征。更关键的是,团队探索了多种方法来增强合成数据的实际效用,例如引入代理模型(proxy model)对生成样本进行筛选,以及尝试加入放射科医生的专家反馈,形成一套生成—过滤—增强的完整流程,从而确保合成数据对下游任务真正有贡献。
实验结果显示,高质量的合成数据可以显著提升下游模型的性能,无论是分类任务还是分割任务,这种提升都具有统计显著性。具体而言,合成数据在分类任务中最高可带来约 0.1505 的 F1 分数提升,在分割任务中 Dice 分数提升约 0.1458。这些结果表明,只要生成策略合理,合成数据不仅不会成为噪声,反而可能成为模型性能的关键来源。
论文同时强调了这一研究对 AI 社区的更广泛启示:未来的数据集构建不再局限于人工采集,可能逐渐演化为“真实数据 + 自动生成的数据工厂”的混合模式。生成模型也正在从单纯“做图”转向“造数据”,成为深度学习训练流程中不可或缺的一部分。总体而言,这项工作不仅验证了合成医学影像的可用性,也为更多数据稀缺领域的模型训练提供了方法论参考。

(论文地址:https://openaccess.thecvf.com/content/ICCV2025W/APAH/papers/Prakash_Evaluating_and_Improving_the_Effectiveness_of_Synthetic_Chest_X-Rays_for_ICCVW_2025_paper.pdf)
Regional mapping of natural gas compressor stations in the United States and Canada using deep learning on satellite imagery
这篇论文发表于 2025 年的《Journal of Environmental Management》,由斯坦福大学、环境与能源研究者团队共同撰写,研究了如何利用深度学习对卫星影像进行自动化识别与映射天然气压缩站的位置。压缩站是天然气输送系统中的关键设施,但现有的开源油气基础设施数据库对其覆盖非常不完全,而这些设施在温室气体排放和附近社区的污染暴露评估中扮演重要角色。
论文的核心目标是构建一种能够从高分辨率卫星影像中自动检测天然气压缩站的深度学习方法,以填补开源基础设施数据中的空白。作者团队首先整理了一个高质量的数据集,其中包含在美国和加拿大已知压缩站及其他典型地表样本的影像标注数据,然后训练多种神经网络架构,比较不同图像分辨率和空间范围对检测性能的影响。最终最优模型在 0.95 的召回率下达到了约 0.81 的精准率,说明在较高检出率条件下模型误报率较低。
论文进一步指出,当模型的预测结果结合是否靠近油气管道这一辅助信息时,其检测精准性能够进一步提升约 0.02。这表明将图像特征与相关空间信息(如管道距离)融合,有助于提高自动检测的可靠性。
在实际部署中,作者将训练好的模型应用于美国重要油气产区之一的 Marcellus Shale 大区约 200,000 平方公里 的区域,识别出了 1103 个在主要底层基础设施数据库中未曾记录的压缩站。将这些新增位置纳入分析后,研究团队进一步发现,如果仅依赖现有数据库,那么围绕这些设施的潜在污染物暴露人口数量可能被低估多达约 74%,这突出了准确设施映射对于环境管理与公共健康评估的重要性。
总体而言,这项研究展示了深度学习结合卫星遥感在基础设施识别与环境监测中的潜力,并为未来构建更全面、开源的油气基础设施空间数据库提供了方法参考。作者团队还表示,本文所用数据与代码将向公众开放,以支持后续研究与应用。

(论文地址:https://z.l6j.cn/DuxHsw)
STARC-9: A Large-scale Dataset for Multi-Class Tissue Classification for CRC Histopathology

结语
回望过去一年,吴恩达的研究轨迹勾勒出一条清晰的脉络:AI 正从实验室的理论展示,走向真实世界的应用战场。他的工作跨越医疗智能体评测、工业自动化视觉系统、环境与公共安全卫星影像识别,再到合成数据驱动、长上下文模型、多模态多任务学习。表面看似各异的领域,实际上都在回答同一个问题——AI 能否真正应对复杂、多变、规模巨大的现实挑战,而不仅仅是刷新指标或赢得比赛。
在这一过程中,三个理念始终贯穿:让 AI 更可用,让数据更可靠,让系统更工程化。论文围绕大规模数据构建、自动化标注、场景级模型评测、多模态推理一致性以及智能代理的可控性展开——这些都是大模型落地时必须跨越的“硬核难题”。它们不仅推动了各个行业的 AI 升级,也为整个社区提供了实践参考:如何构建可信赖、可部署的智能系统。
吴恩达近一年的研究显示,AI 系统在真实场景中的挑战比实验室环境更复杂,从算法到系统、从模型精度到部署可靠性,都需要协同考虑。相关工作逐渐从单纯的性能指标评估,延伸至数据质量、任务完整性和多模态交互的一致性,为 AI 在现实应用中的可行性与稳健性提供了重要观察与实践案例。
- 点赞
- 收藏
- 关注作者
评论(0)