深度访谈：John Schulman - AI 工程化转型与未来路径

从“炼丹”到“系统工程”

2016-2019: 探索时代

小作坊模式
1-3人的小组，凭借直觉（Taste）和数学灵感在 Jupyter Notebook 中从零写代码。
人才画像：怪才 (Weirdos)
也是风险偏好者。当时 AI 并非显学，没有明确的职业路径，更像是在搞曼哈顿计划式的秘密科研。
失败案例：Universe
试图在无数个环境中训练一个通用 Agent。理念超前但技术栈笨重，且模型无法有效泛化。

2024+: 规模化时代

工程 > 算法创新
现在的低垂果实（Low-hanging fruit）在于Scaling（规模化）。这需要的是将简单的想法极其稳健地集成到现有的大型代码库中，而不是发明新数学公式。
代码阅读能力至关重要
你需要阅读并理解数千行他人的代码，而不是自己写一个脚本。软件工程能力（集成、调试、架构）成为核心竞争力。
职业化与避险
现在涌入的人才更倾向于规避风险（Risk-averse），走标准职业道路。门槛变高了，但也变得更无聊了。

关键技术洞察点击展开详情

思想实验：如果在2015年拥有现在的知识，能多快造出ChatGPT？

结论：2018/2019年即可达成。

这不需要 H100 GPU。如果知道正确的“配方”（Recipe），仅需几台 GPU 服务器和几名核心人员即可。

关键瓶颈不在算力，而在“后训练”（Post-training）。
通过精巧的数据构建（类似 NanoGPT 的思路）和正确的微调策略，小算力也能跑出 GPT-3.5 级别的效果。
阻碍其实是我们当时不知道“微调数据”和“提示工程”的重要性。

RL的现状：价值函数(Value Functions)为什么“失宠”了？

在当前的 RLHF（基于人类反馈的强化学习）范式中，Value Functions 本应提供方差缩减（Variance Reduction），但在实际操作中效果不明显。

未来的方向：

多智能体博弈 (Multi-agent Games)： 比如辩论（Debate）。通过纳什均衡让模型自我博弈，解决人类难以直接评估的难题。
生成器-验证器共训 (Generator-Verifier Co-training)： 让模型既做生成者也做裁判，形成良性循环。
Sim-to-Real (仿真转现实)： 借鉴机器人领域的思路，在模拟环境中大规模训练，然后泛化到现实世界的部署中。

持续学习：如何让模型拥有长期记忆？

短期/工作记忆

主要依赖 In-context Learning (长上下文)。在短时间范围内，这种方式效率极高，目前难以被替代。

长期/程序性知识

需要 Weight Updates (参数更新)。John 认为 LoRA (Low-Rank Adaptation) 等技术会叠加在上下文之上，用于沉淀长期的、需要大量容量的知识。

Tinker 开发中

Thinking Machines 的核心产品

这不是另一个高级封装的 LLM 接口。Tinker 是一个低层级微调 API (Low-level Fine-tuning API)。想象一下 OpenAI 的 Sampling API，但它是用于训练的。

解决了什么痛点？

抽象掉了 GPU 集群管理、分布式训练的噩梦（Distributed Systems pain），让你可以直接编写 Python 脚本来控制训练循环和算法细节。

目标用户

目前是精通 ML 的工程师。愿景是让未来的 AI 初创公司不需要自己雇佣基础设施团队，直接在 Tinker 上构建复杂的定制模型。

AGI 何时到来？

"工程师总是乐观的。他们预估的时间通常需要乘以 3。"

John 提到了自动驾驶作为类比——比大家预期的要慢得多。但他同时也承认，“AI 研发 AI”的正反馈循环是一个巨大的变数。

实验室协作信心

中等

认为各大实验室在安全关键时刻能够进行协调。

像 John Schulman 一样做研究

环境隔离

喜欢在嘈杂的咖啡馆工作。在构思（Ideation）阶段，只带笔记本（纸笔），物理隔绝数字干扰。

深度使用 AI

不只是查维基百科。使用 Cursor 写代码，使用 GPT-5 Pro (transcript原话) 进行多轮对话，让 AI 充当 Feedback Loop 润色想法。

实验记录

坚持维护研究笔记本 (Lab Notebook)。现在可以将笔记直接粘贴给 LLM 获取反馈。警惕：不要让 AI 代写你没读过的代码。