OpenAI 联合创始人 / 前 RL 负责人 Thinking Machines 创始人
1-3人的小组,凭借直觉(Taste)和数学灵感在 Jupyter Notebook 中从零写代码。
也是风险偏好者。当时 AI 并非显学,没有明确的职业路径,更像是在搞曼哈顿计划式的秘密科研。
试图在无数个环境中训练一个通用 Agent。理念超前但技术栈笨重,且模型无法有效泛化。
现在的低垂果实(Low-hanging fruit)在于Scaling(规模化)。这需要的是将简单的想法极其稳健地集成到现有的大型代码库中,而不是发明新数学公式。
你需要阅读并理解数千行他人的代码,而不是自己写一个脚本。软件工程能力(集成、调试、架构)成为核心竞争力。
现在涌入的人才更倾向于规避风险(Risk-averse),走标准职业道路。门槛变高了,但也变得更无聊了。
结论:2018/2019年即可达成。
这不需要 H100 GPU。如果知道正确的“配方”(Recipe),仅需几台 GPU 服务器和几名核心人员即可。
在当前的 RLHF(基于人类反馈的强化学习)范式中,Value Functions 本应提供方差缩减(Variance Reduction),但在实际操作中效果不明显。
未来的方向:
主要依赖 In-context Learning (长上下文)。在短时间范围内,这种方式效率极高,目前难以被替代。
需要 Weight Updates (参数更新)。John 认为 LoRA (Low-Rank Adaptation) 等技术会叠加在上下文之上,用于沉淀长期的、需要大量容量的知识。
Thinking Machines 的核心产品
这不是另一个高级封装的 LLM 接口。Tinker 是一个低层级微调 API (Low-level Fine-tuning API)。 想象一下 OpenAI 的 Sampling API,但它是用于训练的。
抽象掉了 GPU 集群管理、分布式训练的噩梦(Distributed Systems pain),让你可以直接编写 Python 脚本来控制训练循环和算法细节。
目前是精通 ML 的工程师。愿景是让未来的 AI 初创公司不需要自己雇佣基础设施团队,直接在 Tinker 上构建复杂的定制模型。
John 提到了自动驾驶作为类比——比大家预期的要慢得多。但他同时也承认,“AI 研发 AI”的正反馈循环是一个巨大的变数。
认为各大实验室在安全关键时刻能够进行协调。
喜欢在嘈杂的咖啡馆工作。在构思(Ideation)阶段,只带笔记本(纸笔),物理隔绝数字干扰。
不只是查维基百科。使用 Cursor 写代码,使用 GPT-5 Pro (transcript原话) 进行多轮对话,让 AI 充当 Feedback Loop 润色想法。
坚持维护研究笔记本 (Lab Notebook)。现在可以将笔记直接粘贴给 LLM 获取反馈。 警惕:不要让 AI 代写你没读过的代码。