本文核心回答:在没有特定安全提示词的情况下,大语言模型生成的代码是否安全?
在长期停滞在 50-59% 的通过率后,OpenAI 的 GPT-5 系列(特别是 reasoning models)跃升至 70% 以上。
Python、C# 和 JavaScript 的表现非常接近(约 55-61%),唯独 Java 只有 28.5%。
模型在 SQL 注入防御上得分很高 (>80%),但在 XSS (跨站脚本) 和 日志注入上惨败 (<15%)。
报告发现了一个有趣的背离现象: