经过额外数据调

MasudIbne756 · Post by **MasudIbne756** » Sat Mar 22, 2025 4:26 am

一个常见的观察结果是，更强大的模型（按规模或整的模型）通常更有帮助，但它们也更容易生成不安全的代码输出。我们将 indict 应用于参数范围从 7b 到 70b 的 llm，并观察到生成输出的安全性和有用性指标的性能持续改善。

不安全的编码练习任务
我们首先在非安全代码生成任务上评估了我们的方法，其中发现现有 llm 生成的输出存在重大安全问题（在cyberseceval-1和cvs基准测试中）。正如这里所观察到的，更强大的模型（如 gpt 和基于代码的 llm）被发现 telegram 马来西亚更有帮助，并且为高复杂度的输入问题生成有效的代码解决方案。然而，这些模型也更有可能生成不安全的代码，可能是由于不完善的训练数据包含隐藏的漏洞和安全问题。

当将 llm 与 indict 结合使用时，我们观察到不仅在安全性方面，而且在实用性方面，性能都有持续改进，其表现优于强大的 llm（例如 llama 和 gpt 模型）。使用 commandr 或 llama 作为我们的基础模型，indict 显著提高了性能，例如，>80% 的输出代码被认为是安全的，大约 70% 的输出代码被认为比之前最先进的代码或真实代码更有用。从结果中，我们还注意到 indict 对不同编程语言（包括 c、java、javascript、php、python 和 rust）的代码输出都有持续的提升。