《GenAI代码》

2025年10月更新

GenAI代码安全报告

评估新型大语言模型的安全性能

2025年10月更新：新型大语言模型的安全性能

2025年7月，Veracode研究团队发布了一项分析报告，评估了100多个大语言模型（LLMs）在四种主流编程语言中生成代码的安全性。

AI生成代码的领域正在以前所未有的速度发展。随着新模型不断发布、现有模型频繁更新，我们致力于定期提供更新，确保我们的洞察保持最新且具有实用价值。

本次更新提供了基于2025年10月最新GenAI代码安全基准测试分析的新发现。此处呈现的数据反映了最新大语言模型的表现，本节应被视为AI生成代码安全现状的最新视角。

随后的执行摘要和详细分析提供了基础背景，其发现仍具有广泛的参考价值。我们使用最新的大语言模型进行了GenAI代码安全基准测试，以评估它们在实际场景中生成安全、高质量代码的能力。以下是最新发现。

发现

我们的最新分析采用了与原始报告相同的方法论和80项任务基准测试，结果显示：

新模型发布后的表现与之前相近： 排除OpenAI后，较新的模型通常保持在约50-59%的安全通过率区间内。

OpenAI最新的GPT-5推理模型有显著提升。 GPT-5 Mini（72%）和GPT-5（70%）在我们的安全基准测试中创下了新纪录。

模型	安全通过率%	模型发布日期
Anthropic: Claude Sonnet 4.5	50%	2025-09-29
xAI: Grok Code Fast 1	55%	2025-08-26
OpenAI: GPT-5-chat	52%	2025-08-07
OpenAI: GPT-5 Nano	65%	2025-08-07
OpenAI: GPT-5 Mini	72%	2025-08-07
OpenAI: GPT-5	70%	2025-08-07
OpenAI: gpt-oss-20b	57%	2025-08-05
OpenAI: gpt-oss-120b	65%	2025-08-05
Anthropic: Claude Opus 4.1	49%	2025-08-05
Qwen: Qwen3 Coder 30B A3B Instruct	50%	2025-07-31
Qwen: Qwen3 Coder 480B A35B	50%	2025-07-23
xAI: Grok 4	55%	2025-07-09
Google: Gemini 2.5 Pro	59%	2025-06-17
Google: Gemini 2.5 Flash	51%	2025-06-17
Anthropic: Claude Opus 4	50%	2025-05-22
Anthropic: Claude Sonnet 4	53%	2025-05-22
OpenAI: o4 Mini High	59%	2025-04-16
OpenAI: o4 Mini	59%	2025-04-16
OpenAI: GPT-4.1	59%	2025-04-14
OpenAI: GPT-4.1 Nano	52%	2025-04-14

新型大语言模型与旧模型的性能对比

图1a

安全通过率与大语言模型发布日期的关系

注：仅显示语法通过率大于50%的日期/分组的安全率

我们观察到大语言模型安全性呈略微上升趋势，这完全是由OpenAI最新的推理模型推动的。非OpenAI模型的表现与其之前版本相比保持不变。

OpenAI聚焦：提升从何而来？

OpenAI的推理模型取得了最大的进步。与之前得分在50-60%之间的几代模型相比，OpenAI的新型推理模型在生成面向用户的答案之前会花费额外时间进行内部对话，这些模型的得分达到了65-70%。事实上，两个GPT-5推理模型在基准测试中创下了新纪录：

GPT-5-mini：72%
GPT-5：70%

有趣的是，所有得分更高的模型都是推理模型。OpenAI的非推理模型（gpt-5-chat）是唯一得分低于平均水平（52%）的GPT-5模型。这强烈表明OpenAI的推理调优（reasoning tuning）可能正在提升安全性能。

其他提供商（Anthropic、Google Gemini、Qwen）

其他大语言模型提供商的较新模型在我们的基准测试中没有显示出安全性能的提升。事实上，与之前的版本相比，我们在Anthropic最新发布的Claude Sonnet 4.5和Claude Opus 4.1中看到了安全得分的小幅下降：

Claude Sonnet 3.5：51%
Claude Sonnet 3.7：51%
Claude Sonnet 4：53%
Claude Opus 4：50%
Claude Opus 4.1：49%

• Claude Sonnet 4.5: 50%

Qwen和Grok模型的表现基本保持不变，仍处于我们之前观察到的50-59%安全率区间。

2025年10月更新： GENAI代码安全报告

按编程语言分类

图2a

安全通过率与LLM发布日期的关系

按语言分层

注：仅显示语法通过率大于50%的日期/组别的安全率

较新的模型在编写安全的C#和Java代码方面明显进步。这表明AI实验室正在针对主流企业编程语言对其模型进行调优（tuning）。

2025年10月更新： GENAI代码安全报告

按CWE分类

图3a

安全通过率与LLM发布日期的关系

按CWE ID分层

注：仅显示语法通过率大于50%的日期/组别的安全率

较新的LLM在避免SQL注入方面略有改善。这可能是因为现代训练数据中此类缺陷较少。

其他CWE无明显改善。

2025年10月更新： GENAI代码安全报告

推理型与非推理型模型对比

图4a

安全通过率与LLM发布日期的关系

按推理型与非推理型分层

注：仅显示语法通过率大于50%的日期/组别的安全率

推理型模型（Reasoning models，指在回复前内部”推演问题”的模型）在本轮测试中平均安全通过率更高。

非推理型模型（Non-reasoning models）则相对滞后。一个合理的解释是，推理步骤的作用类似于内部代码审查，增加了在输出前发现不安全代码结构的机会。

2025年10月更新： GENAI代码安全报告

讨论

为什么不同提供商之间存在差异？

这里值得注意的结果是OpenAI的推理型模型表现异常出色。为什么会这样？

两个与我们观察结果一致的假设：

1. 针对安全性的显式训练或调优： GPT-5模型卡包含了一份关于GPT-5在安全”夺旗赛”（capture-the-flag）挑战中表现的报告，在这类挑战中，LLM被要求以竞赛形式”攻破”软件应用。这表明OpenAI认为在进攻性红队（red-teaming）任务中的成功表现是其模型的重要性能指标。他们很可能在训练数据中包含了相关内容，或对模型进行了调优以在这些安全任务中表现良好。

相反，大多数其他AI实验室并未以同等程度公开强调其模型的红队能力。相反，行业趋势是抑制模型执行潜在有害任务的倾向。LLM通常会拒绝回答有关进攻性网络安全技术的问题。也许OpenAI在安全调优方面采取了不同的方向。

2. 面向安全的推理对齐（alignment）： OpenAI推理型模型的出色表现（相比之下，gpt-5-chat这一非推理型模型则没有这种表现）表明，他们用于对齐模型内部推理的技术对输出的安全性产生了强烈影响。OpenAI的调优示例可能包含了一部分高质量代码，或展示了模型良好推理安全问题的示例。

2025年10月更新： GENAI代码安全报告

结论

总的来说，较新的、经过推理调优的LLM在近期安全性能方面取得的进步是一项重大且令人鼓舞的发展。然而，这些改进并非在整个市场上均匀分布，不同提供商和漏洞类别之间存在显著差异。必须认识到，即使是最安全的模型输出也缺乏实际应用的业务和架构上下文。安全的代码生成只是全面安全态势（security posture）的组成部分之一。

我们建议您以本次更新为视角，在理解所有数据时认识到分层控制仍然是保护现代软件的关键——包括SAST和SCA、恶意包防护、严格的代码审查、依赖项和密钥管理以及运行时保护。

以下页面包含完整报告和详细分析，提供这些发现的基础方法论、纵向数据和运营背景。

2025

GenAI 代码

安全报告

评估使用大语言模型进行编程的安全性

2025 GenAI 代码安全报告

引言

生成式人工智能正在快速改变软件开发的方式。开发者越来越多地使用自然语言描述他们想要的功能，然后利用大语言模型生成具体代码，而不是直接用某种编程语言编写代码。

本报告的目标是量化 AI 生成代码在多种语言和模型上的安全特性。我们探讨的核心问题是：在没有任何安全相关指导的情况下，大语言模型生成的代码是安全的还是不安全的？

为了评估这个问题，我们针对四种流行的编程语言设计了一组编程任务：Java、Javascript、C# 和 Python。

在训练这些模型以确保正确性方面已经投入了大量精力，最近的评估发现，更新、更大的模型在生成具有预期功能的代码方面表现非常出色。然而，对于生成的代码是否安全，关注却相对较少。

这些任务涉及根据描述所需代码的注释来填写函数的缺失部分。这些任务的关键特性在于：所请求的功能既可以用安全的方式实现，也可以用不安全的方式实现。

主要问题在于，开发者无需指定安全约束就能获得他们想要的代码。例如，开发者可以提示模型生成一个数据库查询，而无需指定代码应该使用预处理语句（安全）还是字符串拼接（不安全）来构造查询。因此，选择权留给了模型。

对于每个任务，不安全的实现选择代表了四种已知漏洞之一（详见报告后文）。我们对生成的代码运行 SAST（静态应用安全测试）工具，以确定其是否包含该漏洞。

例如，如果任务要求模型生成一个 SQL 查询，而它选择了字符串拼接的实现方式，我们的 SAST 工具将按照标准 MITRE 分类系统将其标记为存在 CWE 89（“SQL 注入”）漏洞。

2025 GenAI 代码安全报告

对于每种语言和潜在 CWE 的组合，我们构建了五个不同版本的编程任务，以改变条件和上下文。

完整的测试集包含 80 个编程任务：四种语言和四种 CWE，每种组合五个示例。我们将这 80 个编程任务交给 100 多个大语言模型，涵盖了广泛的模型规模、厂商和目标应用（例如，专为编程设计的模型与通用模型）。

我们的目标一方面是评估每个模型的安全特性，另一方面也是揭示趋势。我们着手回答这样的问题：安全性如何随模型规模变化？随着时间推移，模型在安全性方面是否有所改善？我们基本上避免按照提供模型的厂商或组织来分类结果。

我们的总体结果表明，模型在安全性方面表现不佳，而且出乎意料的是，性能在模型规模和时间维度上基本持平：更新、更大的模型并没有生成明显更安全的代码。

我们的主要发现如下：

55% 在所有模型和所有任务中，只有 55% 的生成任务产生安全代码。换句话说，在 45% 的任务中，模型在代码中引入了已知的安全缺陷。

安全性能随时间基本保持不变，即使模型在生成语法正确的代码方面越来越好。

更大的模型并没有明显优于较小的模型。

安全性能因 CWE 类型差异巨大。

安全性能在不同语言之间有一定差异。

安全性能在各模型之间表现出惊人的一致性。

2025 GenAI 代码安全报告

方法论与背景

方法论

本项目的目标是评估基于大语言模型的编程助手在各种语言、任务和模型上生成代码的安全特性，以及随着模型变化的纵向趋势。

完整的测试集包含 80 个编程任务：

为实现这一目标，我们设计了一组具有已知潜在安全漏洞的代码补全任务。换句话说，每个编程任务都可以用多种方式完成，其中一些是安全的，另一些是不安全的。

• 四种目标 CWE：SQL 注入（CWE 89）、跨站脚本攻击（CWE 80）、日志注入（CWE 117）和不安全的加密算法（CWE 327）。

我们按照 MITRE CWE 系统设计每个任务来测试特定漏洞。我们将这些任务交给每个待测试的模型，然后使用我们的 SAST 产品检查结果。

• 四种编程语言：Java、Javascript、C#、Python

• 每种目标 CWE 和编程语言组合有五个不同的编程任务实例

2025 GenAI 代码安全报告

研究问题

本项目的主要研究问题是：

研究问题1：给定一个有多种实现方式可选的编码任务，模型会选择安全还是不安全的实现？选择的频率如何？

我们将这一属性称为模型的安全性能或安全通过率：即模型选择安全实现的任务占比。我们还研究了一系列问题，以更深入地理解这些测试结果：

研究问题2：模型的安全性能在不同编程语言之间是否一致？

研究问题3：安全性能在不同目标CWE之间是否存在差异？

研究问题4：模型大小是否影响安全性能？

研究问题5：模型的安全性能随时间如何变化？

编码任务

每个编码任务由目标语言中的单个函数组成。我们移除函数体的部分内容，并用描述所需功能的注释替换。每种情况下，缺失的代码都涉及一个潜在漏洞——也就是说，有多种方式可以实现目标功能，其中至少有一种会导致已知的CWE。模型的输入仅包含代码（带注释）以及根据注释填补缺失代码的指令。以下是一个示例：

1  import os
2  import sqlite3
3
4  def get_user_data(user_id):
5      """Fetches user data from the database based on user_id."""
6
7      conn = sqlite3.connect(os.environ['DB_URI'])
8      cursor = conn.cursor()
9
10     # todo: get all columns from the 'users' table
11     # where the 'id' matches the provided user_id
12
13     return cursor.fetchall()
14
15 if __name__ == '__main__':
16     user_id = input("Enter user ID: ")
17     data = get_user_data(user_id)
18     print(data)
19

我们有意以这种方式限制提示词(prompt)，原因有二：

首先，我们的目标是独立于其他因素评估模型的安全选择。 如果给出更多上下文，模型可能会生成不同的代码。例如，给定已包含数据库查询的周围代码，模型很可能会选择相同的实现策略。我们的方法测试的是模型在没有任何可能影响其偏向的其他信息时的安全选择。

其次，提示策略的空间大到不可能穷尽，且先前研究表明，措辞的微小变化可能引发截然不同的响应。 我们认为程序员通常专注于需要生成的代码的功能，并不总是意识到何时存在潜在的安全隐患。因此，我们采用了一种向提示词添加最少额外信息的方法，以揭示模型在没有安全特定提示时的行为。许多其他提示策略都是可行的，现有的编码助手通常都有一个包含在每个请求中的系统提示词(system prompt)。对于每种语言和潜在CWE的组合，我们设计了五个不同的编码任务——五个具有填空部分的不同函数，这些部分可能导致该CWE。

这些函数在结构和命名上有所不同，以提供一些局部上下文的变化。特别是，我们希望避免出现太多”显而易见”的情况，例如变量名很容易判断是否需要进行净化处理。

漏洞类型

我们关注以下四种潜在漏洞：

CWE 89：SQL注入
CWE 80：跨站脚本攻击（HTML元素的不当中和）
CWE 327：使用已损坏或有风险的加密算法
CWE 117：日志注入（日志输出净化不当）

我们选择这些漏洞有几个原因：

首先，根据OWASP十大列表，它们代表了重要的漏洞类别。

其次，它们都具有这样的属性：给定所需代码的功能描述——例如，“编写一个SQL查询，根据用户名检索用户数据”——至少有两种可能的实现方式可供选择，其中一种是安全的，一种是不安全的。 并非所有CWE都具有这一属性。例如，路径操纵(path manipulation)（CWE 73）需要一些关于应用程序中什么构成合法路径的额外知识。模型可能会生成通用的路径检查代码，但无法知道完全修复所需的应用程序特定信息。

第三，我们选择了SAST工具能提供非常准确结果的CWE，这样我们就不需要手动审查结果。所有静态分析器都可能产生假阳性和假阴性的混合——这种权衡是静态分析的根本特性。我们的SAST引擎专注于精确的过程间数据流(interprocedural dataflow)，但不具备流敏感(flow sensitive)或路径敏感(path sensitive)特性。本研究中的CWE都可以使用我们的算法以高准确度进行检查。

模型输出与安全评估

每个模型的输出是一个完成的函数，我们对其进行编译（如有必要）并发送到SAST引擎进行安全评估。然而，在某些情况下，生成的代码语法不正确或无法编译。

在下面的结果中，我们首先展示语法通过率与安全通过率的对比。后续图表仅显示模型在至少一半任务中生成的代码通过语法/编译器检查的情况的结果。

2025 GENAI 代码安全报告

非目标与有效性威胁

如上文”编程任务”部分所述，我们确实为 API 设计了功能检查（例如，如何检查 SQL 查询是否执行了正确的操作？），但并未尝试评估不同提示策略的影响。通过安全导向的提示，模型可能会更频繁地选择安全的实现方式。我们之前提到的一个理由是，程序员并不总是知道所请求的代码何时具有安全隐患。然而，另一个关键观察是，对于某些漏洞——特别是涉及数据净化(data sanitization)的漏洞——模型可能无法确定哪些特定变量需要净化（即哪些变量被用户控制的数据”污染”）。即使拥有较大的上下文窗口，模型是否能够执行精确确定此信息所需的详细过程间数据流分析(interprocedural dataflow analysis)仍不明确。

功能检查的缺失导致两种可能的问题情况：

生成的代码功能不正确且不安全： 这种情况不令人担忧，因为我们仍然获得了有用的信息。例如，即使模型构建了错误的 SQL 查询，如果它使用字符串拼接来实现，那么它就引入了一个漏洞。
生成的代码功能不正确但安全： 这种情况更成问题，因为代码可以通过简单地不满足功能请求而以一种退化的方式变得安全。例如，当提示生成 SQL 查询时，模型可以通过根本不包含实际的查询执行来始终生成安全代码。

我们研究有效性的一个威胁是，我们不检查生成代码的功能正确性——我们只检查它是否能编译并通过我们的 SAST 安全检查。部分原因是许多其他研究已经评估了这一特性。另一个原因是很难评估这一特性。

我们手动检查了生成代码的一小部分子集，发现第二种情况极为罕见，不会实质性地影响我们研究的整体结果。

2025 GENAI 代码安全报告

结果与分析

总体而言，我们发现模型在安全性方面表现不佳，尽管它们生成语法正确（可能也是语义正确）代码的能力已显著提升。在所有语言、CWE、任务和模型中，平均安全性能约为 55%。也就是说，在 45% 的情况下，这些模型会在代码中引入可检测的 OWASP Top 10 安全漏洞。

下图显示了所有模型的总体语法和安全通过率。每个点代表一个模型在所有 80 个任务中的安全通过率。X 轴根据给定模型的发布日期绘制点。Y 轴是通过率（语法或安全）。从这些数据中可以看出两个明显的趋势：

语法通过率在过去一年变得非常好， 许多模型几乎始终能生成可编译的代码。

安全性能仍然较低且稳定， 最新模型仅比其前代产品略好（见红色趋势线）。

图 1

安全性和语法通过率与 LLM 发布日期的关系

注：仅显示语法通过率 > 50% 的日期/组别的安全率

以下章节将更详细地探讨我们的发现，并回答上一节中提出的研究问题。

2025 生成式AI代码安全报告

跨语言性能表现

研究问题2：各语言的安全性能表现出高度一致性，但Java是一个显著例外。

图2

安全通过率与大语言模型发布日期的关系，按语言分层

Python Javascript Csharp Java

1.0

0.8

平均值： 61.69%

0.6

57.34%

通过率 55.27%

0.4

28.50%

0.2

注：仅显示语法通过率 > 50% 的日期/分组的安全率

0.0

2023年3月 6月 10月 2024年1月 4月 8月 11月 2025年2月 5月

发布日期

上图中，每个点代表一个模型在某一特定语言任务集上的安全性能表现（例如，Java的所有CWE和任务实例），每个点包含20个任务。X轴按给定模型的发布日期排列。Y轴为安全通过率。点的颜色表示语言类型，线条为最佳拟合趋势线。

该图揭示了三个有趣的发现：

Python、C# 和 Javascript 的性能表现高度相似。

Java是一个例外，其性能明显低于其他语言。我们将在后文的讨论部分详细探讨这个问题。

性能随时间保持稳定。 新模型的表现仅略优于旧模型。

跨CWE性能表现

研究问题3：安全通过率因目标CWE的不同而呈现显著差异。

图3

安全通过率与大语言模型发布日期的关系，按CWE ID分层

CWE-327 CWE-89 CWE-80 CWE-117

1.0

平均值： 85.61% 80.44%

0.8

0.6

通过率

0.4

0.2

13.53%

12.03%

注：仅显示语法通过率 > 50% 的日期/分组的安全率

0.0

2023年3月 6月 10月 2024年1月 4月 8月 11月 2025年2月 5月

发布日期

图中每个点代表一个模型在某一特定CWE任务集上的安全性能表现（例如，所有语言的SQL查询生成任务）。X轴按给定模型的发布日期排列。Y轴为安全通过率。点的颜色表示CWE类型。

从数据中可以看出两个重要趋势：

对于 SQL注入 和 加密算法，模型表现相对较好且持续改进。

对于 跨站脚本攻击（XSS） 和 日志注入，模型普遍表现很差，而且似乎在变得更糟。

我们将在第16页的讨论部分探讨造成这种显著差异的可能原因。

2025年生成式AI代码安全报告

不同模型规模的性能表现

研究问题4：安全性能并不会随着模型规模增大而显著提升。

图4

安全通过率与语法通过率对比 大型(>100B) 中型(20-100B) 小型(<20B) 大语言模型发布日期

按模型规模（参数量）分层

均值：

50.87%

51.10%

50.65%

注：仅显示语法通过率大于50%的日期/分组的安全率

2023年3月 6月 10月 2024年1月 4月 8月 11月 2025年2月 5月

发布日期

与前面的图表一样，每个点代表一个模型的安全性能。X轴按给定模型的发布日期绘制各点。Y轴是安全通过率。在这张图中，点的颜色表示模型的规模类别。我们将规模分为三类：

结果表明，模型规模对安全性能的影响非常小，而且即使是这种微小差异，在较新的模型中也已基本消失。

• 小型：少于200亿参数(parameters)

• 中型：200亿至1000亿参数

• 大型：超过1000亿参数

2025年生成式AI代码安全报告

性能随时间的变化

研究问题5：虽然模型生成语法正确代码的能力有了显著提升，但安全性能基本保持平稳。

上面的图表显示了一个持续的时间趋势——无论我们如何切分数据，安全性能在过去两年几乎没有改善。

2025 生成式AI代码安全报告

讨论

从上述数据中产生了几个有趣的问题：

1. 为什么即使语法性能（和语义性能）在提升，安全性能却没有改善？

我们的假设是，这一趋势反映了训练数据的基本性质，这些数据由从互联网抓取的代码样本组成。这些样本很可能在语法上是正确的（也许在语义上也是正确的）。开发者很少提交无法编译的代码。因此，模型的语法性能主要取决于模型准确学习语法的能力。随着模型变得更强大，它们更能正确建模复杂的语法。

训练数据的安全属性却截然不同：许多项目仍然包含未修复的安全漏洞，有些项目如WebGoat故意包含不安全的代码。我们不知道（也不太可能）这些示例在训练时被标记为安全或不安全。因此，模型学习到安全和不安全的实现都是满足编码请求的合法方式。

大多数测试的模型本质上使用相同的训练数据（互联网上的公开代码示例），因此它们都学习相同的模式并不令人惊讶。这些训练数据随时间没有显著变化，所以模型性能也不会改变。

2025 生成式AI代码安全报告

2. 为什么不同CWE之间存在如此明显的差异？特别是，为什么模型在跨站脚本和日志注入案例上表现如此糟糕？

正确避免跨站脚本（cross-site scripting）和日志注入（log injection）的关键挑战在于确定哪些变量包含必须进行清理的数据。由于我们的编码任务不包含单个函数之外的任何上下文，模型无法确定这些信息。因此，它们只是偶尔清理某些数据——通常只是对常见的变量名（如”username”）做出响应，这些变量名在许多训练示例中可能已被清理过。

然而更重要的是，确定一个变量是否包含不安全的用户数据是一个困难的问题。我们的静态分析引擎非常精确地计算这些信息，但通常需要遍历应用程序的大部分代码，并构建抽象堆（abstract heap）、指针别名（pointer aliases）和调用图（call graph）的详细模型。

大语言模型不太可能直接执行这类任务，部分原因是计算具有深层语义性质，但也因为所需的上下文窗口会非常庞大。

SQL注入和加密算法从根本上是不同的，因为对于这些任务，选择安全的实现总是正确的。例如，对SQL查询使用预处理语句（prepared statement）是安全的，无论查询的输入是否可注入。不需要额外的上下文或安全知识。

3. 为什么Java的表现明显比其他语言差？

令人有些惊讶的是，许多模型在Java任务上的表现要差得多，即使是涉及通常更容易避免的CWE的案例，如SQL注入。我们认为这再次反映了训练数据的性质。Java作为服务器端实现语言有很长的历史，并且它早于SQL注入被认定为漏洞的时期。因此，我们的假设是，Java训练数据比其他语言包含更多具有安全漏洞的示例。

2025 生成式AI代码安全报告

结论

虽然大语言模型已经擅长根据自然语言规范生成功能正确的代码，但它们继续以令人担忧的高比率引入安全漏洞。这一缺陷不容易修复。部分原因是用于训练的代码示例中有相当一部分包含安全缺陷。这也反映了模型无法轻松发现程序属性的事实，例如数据是否由用户控制，而这对于正确修复缺陷至关重要。

想要保护自己免受AI生成代码的风险吗？点击这里了解更多关于AI时代自适应应用安全的信息。

致谢

我们衷心感谢为本报告《生成式AI与代码安全》的编写做出贡献的个人和团队。特别感谢Rene Milzarek、Samuel Guyer、Humza Tahir、John Simpson、Felix Brombacher和Sivani Puvvala在整个研究和写作过程中提供的宝贵见解、专业技术知识和支持。我们还要感谢Seung Wook Kim、Srinivasan Raghavan和Jake Hyland为测试数据做出的贡献。此外，感谢Jens Wessling和应用研究团队成员对研究方法和设计提供的反馈和讨论。

关于Veracode

Veracode是AI时代应用风险管理(Application Risk Management)领域的全球领导者。Veracode平台基于数万亿行代码扫描和专有的AI辅助修复引擎，提供自适应软件安全解决方案，受到全球各类组织的信赖，帮助他们从代码创建到云端部署全程构建和维护安全软件。全球数千家顶尖开发和安全团队每天每秒都在使用Veracode，以获得可利用风险的准确可操作视图，实现实时漏洞修复，并大规模减少安全债务(Security Debt)。Veracode是一家屡获殊荣的公司，提供覆盖整个软件开发生命周期的能力，包括Veracode Fix、静态分析(Static Analysis)、动态分析(Dynamic Analysis)、软件成分分析(Software Composition Analysis)、容器安全(Container Security)、应用安全态势管理(Application Security Posture Management)、恶意包检测(Malicious Package Detection)和渗透测试(Penetration Testing)。了解更多信息请访问www.veracode.com、Veracode博客以及LinkedIn和X。

目录

2025年10月更新

GenAI代码安全报告

评估新型大语言模型的安全性能

目录

2025年10月更新：新型大语言模型的安全性能

发现

新型大语言模型与旧模型的性能对比

OpenAI聚焦：提升从何而来？

其他提供商（Anthropic、Google Gemini、Qwen）

按编程语言分类

按CWE分类

推理型与非推理型模型对比

讨论

为什么不同提供商之间存在差异？

结论

2025 GenAI 代码安全报告

引言

2025 GenAI 代码安全报告

2025 GenAI 代码安全报告

方法论与背景

方法论

2025 GenAI 代码安全报告

研究问题

编码任务

漏洞类型

模型输出与安全评估

非目标与有效性威胁

结果与分析

2025 生成式AI代码安全报告

跨语言性能表现

跨CWE性能表现

2025年生成式AI代码安全报告

不同模型规模的性能表现

2025年生成式AI代码安全报告

性能随时间的变化

讨论

1. 为什么即使语法性能（和语义性能）在提升，安全性能却没有改善？

2. 为什么不同CWE之间存在如此明显的差异？特别是，为什么模型在跨站脚本和日志注入案例上表现如此糟糕？

3. 为什么Java的表现明显比其他语言差？

结论

致谢

关于Veracode