Skip to content

Latest commit

 

History

History
123 lines (80 loc) · 6.24 KB

README.md

File metadata and controls

123 lines (80 loc) · 6.24 KB

LLM Security 论文资料收集

2024-05

  1. 大型语言模型能深入检测复杂的恶意查询吗?一个通过混淆意图实现越狱的框架
  1. 推动越狱攻击势头

2024-04

  1. 普遍的对抗触发因素并不具有普遍性
  1. 迭代提示多模态LLM以复制自然和AI生成的图像
  1. 大语言模型中的错误标记:分类法与有效检测方法
  1. 指令层次结构:训练大语言模型优先处理特权指令
  1. 介绍来自MLCommons的人工智能安全基准v0.5
  1. JailbreakLens:针对大型语言模型的越狱攻击可视化分析
  1. 次毒性问题:深入探讨大型语言模型在越狱尝试中响应态度的变化
  1. AmpleGCG:学习通用且可转移的对抗后缀生成模型,用于破解开放和封闭的 LLM
  1. AEGIS:使用大型语言模型专家团队进行在线自适应人工智能内容安全审核
  1. 目标引导的生成式提示注入攻击在大型语言模型上的应用
  1. 微调和量化增加了大型语言模型的漏洞
  1. 越狱提示攻击:一种可控的对扩散模型的对抗性攻击

2024-01

  1. OWASP 大语言模型人工智能应用Top 10 安全威胁

2023-12

  1. 控制大型语言模型输出:入门

2023-11

  1. 召唤恶魔并将其束缚:野外LLM红队攻击的实地理论

2022-11

  1. 忽略之前的提示:语言模型的攻击技术