【补天白帽黑客城市沙龙-杭州站】让安全大模型不做花瓶

本议题聚焦于面向复杂场景的模型训练与架构设计,提出多种解决方案提升模型在网络安全场景下的理解与推理能力。在此方案下的实验中,体现了自动渗透、自动修复、自动信息收集、自动打靶、参与CTF竞赛等通用能力,初步具备无需人工干预的通用执行能力。

LLM概述与全景解析

LLM概述与全景 1 什么是 LLM? LLM是基于深度神经网络架构的预测模型。在通过在海量的语料库上进行大规模训练,学习并内化语言的统计规律,语义关联及上下文依赖, 训练目标通常是预测序列中的下...

  • 0
  • 0
  • 洺熙
  • 发布于 2025-07-04 16:14:46
  • 阅读 ( 3779 )

RealVul: 基于大语言模型训练微调的PHP漏洞检测框架深度解析

LLM赋能安全领域前沿研究“甚少”,在研究该领域的前沿论文科研时发现了一个很开创性的漏洞检测框架,本文的核心目标是设计一个针对PHP漏洞检测的LLM框架RealVul,以弥补现有研究的不足。具体而言,关注如何从真实项目中定位漏洞触发点并提取有效样本、如何通过代码预处理突出漏洞特征、以及如何利用半合成数据扩充稀缺样本

  • 3
  • 0
  • Bear001
  • 发布于 2025-10-16 09:00:01
  • 阅读 ( 3428 )

从某BAT大厂开源框架实战审计揭秘 LLM 集成框架中的隐蔽加载漏洞

最近在研究LLM集成应用框架时,在审计某BAT大厂的github18k大型开源LLM集成应用框架项目时发现了一处隐蔽的加载漏洞,虽然开发者打过了防御补丁,但仍然可进行绕过并已提交CVE。遂深入进行了该类型的漏洞在LLM集成应用框架中的探究,供师傅们交流指点...

  • 1
  • 0
  • Bear001
  • 发布于 2026-01-08 09:00:02
  • 阅读 ( 3411 )

通过微调与拒绝向量消融实现大模型越狱的实践

AI突破限制的多种手段 前言:目前看到过很多越狱AI的手法,绝大多数都是使用提示词注入来对互联网上现有AI进行越狱,本文章中介绍另外两个方法进行越狱。

  • 6
  • 7
  • 画老师
  • 发布于 2025-12-09 09:00:01
  • 阅读 ( 2765 )

一文了解图像的隐形噪声如何欺骗 AI

对抗图像是一种精心设计的输入数据,通过对原始图像进行细微修改,使机器学习模型(尤其是深度神经网络)产生错误的分类输出。

  • 2
  • 2
  • Wh1tecell
  • 发布于 2025-10-24 09:00:02
  • 阅读 ( 2716 )

基于“灰盒”蒸馏的大语言模型攻击研究

探讨一种结合模型窃取与拒绝服务攻击的组合路径,希望发现AI安全领域新型攻击思路。

  • 1
  • 3
  • 画老师
  • 发布于 2026-01-12 10:03:41
  • 阅读 ( 2657 )

学习一个价值4.7w刀的提示词注入思路

去年的时候,外网上出现了一个名为Freysa AI。它旨在通过举办大模型安全赏金竞赛游戏,来吸引全球爱好者一起探索:人类的智慧能否找到一种方法说服AGI违背其核心指令?这里对解题思路进行一波学习

黑灰产从绕过到自建“无约束”的AI模型过程

市面上主流的大模型服务,都已经建立一套相对成熟的安全架构,这套架构通常可以概括为三层过滤防御体系 1. 输入检测:在用户请求进入模型之前,通过黑白词库、正则表达式和语义分析,拦截掉那些意图明显的恶意问题。 2. 内生安全:模型本身经过安全对齐,通过指令微调和人类反馈强化学习(RLHF),让模型从价值观层面理解并拒绝执行有害指令。 3. 输出检测:在模型生成响应后,再次进行扫描,确保内容合规。。但攻击者依然在生成恶意内容、钓鱼邮件,甚至大规模恶意软件。

  • 3
  • 1
  • 洺熙
  • 发布于 2025-11-28 09:00:02
  • 阅读 ( 2591 )

DeepTective: 基于混合图神经网络的自动化漏洞挖掘框架

PHP在Web应用中的普遍漏洞以及开发者、安全公司和白帽黑客为解决这些问题所做的努力。传统的静态、流和污点分析方法在性能上存在局限性,数据挖掘方法常受到误报/漏报的困扰,而近期基于深度学习的模型(主要是基于LSTM)并不天生适合程序语义等图结构数据。DeepTective是一种基于深度学习的PHP源代码漏洞检测方法,其核心创新在于采用混合架构,结合门控循环单元(GRU)处理代码令牌的线性序列(语法信息),以及图卷积网络(GCN)处理控制流图(CFG)(语义和上下文信息)

  • 0
  • 0
  • Bear001
  • 发布于 2025-10-23 09:47:12
  • 阅读 ( 2446 )

深度实例分析:攻防视角下的AI框架组件中的注入漏洞

在从事了一段时间对AI框架组件的安全审计研究后,也挖掘到了很多相似的注入漏洞,对于目前的AI框架组件(PandasAI,LlamaIndx,Langchain...)对于该类型漏洞的通病结合实战实例以及学术界的研究做了系统性的归纳,站在AI框架的顶层角度对该类AI框架组件中的注入漏洞进行研究分析,供师傅们交流指点...

  • 1
  • 0
  • Bear001
  • 发布于 2026-01-14 09:47:32
  • 阅读 ( 2395 )

重塑传统自动化漏洞挖掘的Multi-Agent框架攻防一体化实践

前段时间在某大厂做安全研究时,针对SDLC的重复性审计工作结合大模型Agent思索了一些可行的思路,便在不断摸索中构建了一个Multi-Agent的协同漏洞挖掘框架系统,目前个人使用来看对于开源的web应用的实战效果相比传统的SAST、DAST以及纯LLM的漏洞挖掘工具来说还是很不错的,便记录此篇框架实现思路和当今Agent赋能漏挖的可行性与优势供师傅们交流指点....

  • 3
  • 2
  • Bear001
  • 发布于 2026-01-19 10:00:01
  • 阅读 ( 2138 )

还能这样对大模型输入投毒

对protswigger的第三个大模型prompt注入靶场进行实战记录

AI 供应链安全:MCP 协议下自动化 AI 架构中的隐式执行风险实测

随着大语言模型(LLM)从单纯对话向自动化执行演进, MCP (Model Context Protocol) 协议正迅速成为连接模型大脑与外部工具(文件、数据库、API)的标准“USB接口”。然而,这种高度集成的架构也引入了一个AI隐式执行的风险。不同于传统的前端提示词注入,基于 MCP 的攻击发生在系统底层的协议交互阶段。本文将通过两个小实验实测复现,演示如何通过篡改MCP工具元数据,诱导模型进入逻辑陷阱,从而实现敏感数据的静默外泄。

  • 1
  • 2
  • 11123
  • 发布于 2026-01-06 09:46:20
  • 阅读 ( 2034 )

第五届“湾区杯”CTF Final - Blind writeup

本题描述了一个现实场景常见的模型:即无法采用多模态模型时,先使用ASR模型将语音转换为文字,接着调用大模型进行回答。

  • 0
  • 2
  • Cain
  • 发布于 2025-12-31 10:00:01
  • 阅读 ( 1789 )

AI安全之间接提示词注入实现RCE(CVE-2025-53773绕过分析)

AI安全之间接提示词注入实现RCE(CVE-2025-53773绕过分析)

  • 1
  • 1
  • mhxiang
  • 发布于 2025-12-29 09:45:04
  • 阅读 ( 1757 )

第五届“湾区杯”CTF Final - 耄耋 writeup

本题给出了数千张小猫的图片,数据分为两类:AI生成和人工拍摄,期望选手对数据完成区分,即完成人工智能生成图片伪造检测技术。

  • 0
  • 2
  • Cain
  • 发布于 2025-12-31 09:00:02
  • 阅读 ( 1714 )

补齐SDLC最后一块拼图:LLM 在应用安全中的实践探索

随着DevSecOps的推进,应用安全已逐步融入SDLC各阶段,一个长期存在的问题依然突出:安全工具往往能发现问题,却难以判断其真实性、可利用性及处置优先级。这些持续消耗研发与安全团队的时间精力。近年来随着大语言模型的迅速发展,为这一困境提供了新的可能,本文结合实际应用安全建设经验,重点探讨AI在硬编码、SCA、漏洞挖掘等场景中的应用安全实践方法。

  • 2
  • 1
  • hyyrent
  • 发布于 2026-01-21 09:00:01
  • 阅读 ( 1713 )

KV-Cache:大语言模型推理加速的双刃剑—隐私风险与防御实战

在2025年,大语言模型(LLM)推理服务已全面进入多租户时代,KV Cache作为核心加速技术,让Prefill阶段并行计算、Decode阶段复用历史键值,带来5–8倍的吞吐提升。然而,这把“双刃剑”也暴露了严重的安全隐患:共享缓存下的时序侧信道可直接泄露用户Prompt;更隐蔽的History Swapping能悄无声息劫持输出话题;腐败攻击则通过扰动Key向量引发幻觉与性能崩坏。

  • 0
  • 0
  • Wh1tecell
  • 发布于 2026-01-20 09:00:02
  • 阅读 ( 1690 )

【2025补天白帽黑客盛典】大模型时代的移动端攻防:基于LLM的App漏洞挖掘

本议题将分享一种基于LLM Agent的App漏洞挖掘。通过引入MCP方式,结合精细化的Prompt工程与工作流编排,将复杂的挖洞过程拆解为可控的原子任务。将展示如何使用LLM强大的代码审计能力,实现对App隐蔽漏洞的高效、精准捕获。