2025年访谈 TRANSCRIPT SUMMARY

John Schulman

OpenAI 联合创始人 / 前 RL 负责人 Thinking Machines 创始人

从“炼丹”到“系统工程”

2016-2019: 探索时代

  • 小作坊模式

    1-3人的小组,凭借直觉(Taste)和数学灵感在 Jupyter Notebook 中从零写代码。

  • 人才画像:怪才 (Weirdos)

    也是风险偏好者。当时 AI 并非显学,没有明确的职业路径,更像是在搞曼哈顿计划式的秘密科研。

  • 失败案例:Universe

    试图在无数个环境中训练一个通用 Agent。理念超前但技术栈笨重,且模型无法有效泛化。

2024+: 规模化时代

  • 工程 > 算法创新

    现在的低垂果实(Low-hanging fruit)在于Scaling(规模化)。这需要的是将简单的想法极其稳健地集成到现有的大型代码库中,而不是发明新数学公式。

  • 代码阅读能力至关重要

    你需要阅读并理解数千行他人的代码,而不是自己写一个脚本。软件工程能力(集成、调试、架构)成为核心竞争力。

  • 职业化与避险

    现在涌入的人才更倾向于规避风险(Risk-averse),走标准职业道路。门槛变高了,但也变得更无聊了。

关键技术洞察 点击展开详情

思想实验:如果在2015年拥有现在的知识,能多快造出ChatGPT?

结论:2018/2019年即可达成。

这不需要 H100 GPU。如果知道正确的“配方”(Recipe),仅需几台 GPU 服务器和几名核心人员即可。

  • 关键瓶颈不在算力,而在“后训练”(Post-training)。
  • 通过精巧的数据构建(类似 NanoGPT 的思路)和正确的微调策略,小算力也能跑出 GPT-3.5 级别的效果。
  • 阻碍其实是我们当时不知道“微调数据”和“提示工程”的重要性。
RL的现状:价值函数(Value Functions)为什么“失宠”了?

在当前的 RLHF(基于人类反馈的强化学习)范式中,Value Functions 本应提供方差缩减(Variance Reduction),但在实际操作中效果不明显。

未来的方向:

  • 多智能体博弈 (Multi-agent Games): 比如辩论(Debate)。通过纳什均衡让模型自我博弈,解决人类难以直接评估的难题。
  • 生成器-验证器共训 (Generator-Verifier Co-training): 让模型既做生成者也做裁判,形成良性循环。
  • Sim-to-Real (仿真转现实): 借鉴机器人领域的思路,在模拟环境中大规模训练,然后泛化到现实世界的部署中。
持续学习:如何让模型拥有长期记忆?
短期/工作记忆

主要依赖 In-context Learning (长上下文)。在短时间范围内,这种方式效率极高,目前难以被替代。

长期/程序性知识

需要 Weight Updates (参数更新)。John 认为 LoRA (Low-Rank Adaptation) 等技术会叠加在上下文之上,用于沉淀长期的、需要大量容量的知识。

Tinker 开发中

Thinking Machines 的核心产品

这不是另一个高级封装的 LLM 接口。Tinker 是一个低层级微调 API (Low-level Fine-tuning API)。 想象一下 OpenAI 的 Sampling API,但它是用于训练的。

解决了什么痛点?

抽象掉了 GPU 集群管理、分布式训练的噩梦(Distributed Systems pain),让你可以直接编写 Python 脚本来控制训练循环和算法细节。

目标用户

目前是精通 ML 的工程师。愿景是让未来的 AI 初创公司不需要自己雇佣基础设施团队,直接在 Tinker 上构建复杂的定制模型。

AGI 何时到来?

"工程师总是乐观的。他们预估的时间通常需要乘以 3。"

John 提到了自动驾驶作为类比——比大家预期的要慢得多。但他同时也承认,“AI 研发 AI”的正反馈循环是一个巨大的变数。

实验室协作信心
中等

认为各大实验室在安全关键时刻能够进行协调。

像 John Schulman 一样做研究

环境隔离

喜欢在嘈杂的咖啡馆工作。在构思(Ideation)阶段,只带笔记本(纸笔),物理隔绝数字干扰。

深度使用 AI

不只是查维基百科。使用 Cursor 写代码,使用 GPT-5 Pro (transcript原话) 进行多轮对话,让 AI 充当 Feedback Loop 润色想法。

实验记录

坚持维护研究笔记本 (Lab Notebook)。现在可以将笔记直接粘贴给 LLM 获取反馈。 警惕:不要让 AI 代写你没读过的代码。

原文

源链接