去年的时候,外网上出现了一个名为Freysa AI。它旨在通过举办大模型安全赏金竞赛游戏,来吸引全球爱好者一起探索:人类的智慧能否找到一种方法说服AGI违背其核心指令?这里对解题思路进行一波学习
AI突破限制的多种手段 前言:目前看到过很多越狱AI的手法,绝大多数都是使用提示词注入来对互联网上现有AI进行越狱,本文章中介绍另外两个方法进行越狱。
最近看到了一个有关大模型数据投毒的视频,分析了一下相关方法与技术,以一个小白的视角来分享一下学习到的心得与技巧。
本文通过一个在线靶场,希望帮助大家更好的理解提示词注入的相关手法。这个靶场拿来练习也是很不错的,尤其是现在的AI靶场很少,像经常使用的那些又修复的很快。
本工具结合了当下的MCP协议中sse方案,给传统的目录扫描工具dirsearch对接上了AI大模型,并对扫描结果进行数据筛选及深度分析并输出漏洞报告。
在某互联网大厂工作时做了一些AI相关的安全赋能工作,学习了MCP开发与安全赋能的技术知识,结合个人能力与网上学习的技术文章知识,开发了一款"MCP-Finder"创新的网络安全扫描工具,将传统目录扫描技术与现代AI大模型分析能力相结合,通过MCP协议中的streamable-http进行接入,为安全研究人员提供了更智能、更高效的漏洞发现解决方案(
本文系统拆解大模型面临的越狱攻击技术,揭示攻击者如何通过巧妙设计突破AI安全限制
2025年LLM的内容安全已经有质的飞跃了,基于模型内生安全、外挂的安全审核模型、改写模型等等手段,传统的基于提示词工程的黑盒攻击逐渐难以突破愈发完善的防御机制,而白盒攻击通过直接操纵模...
探讨一种结合模型窃取与拒绝服务攻击的组合路径,希望发现AI安全领域新型攻击思路。
利用AI一键对抗前端js的可用解决方案,省去以往调试时间,高效对抗js加密或sign校验等
本文提出了一种基于DQN强化学习的XSS载荷自动生成方法,通过神经网络替代Q表格,结合经验回放和目标网络优化训练。系统包含特征提取(257维向量)、WAF检测(正则规则)和免杀变形(6种字符级操作)三大模块,在Gym框架下实现智能体与WAF的对抗训练。实验表明,经过100轮训练后,智能体可生成有效绕过WAF的XSS载荷,为AI驱动的Web安全测试提供了新思路。
前段时间在某大厂做安全研究时,针对SDLC的重复性审计工作结合大模型Agent思索了一些可行的思路,便在不断摸索中构建了一个Multi-Agent的协同漏洞挖掘框架系统,目前个人使用来看对于开源的web应用的实战效果相比传统的SAST、DAST以及纯LLM的漏洞挖掘工具来说还是很不错的,便记录此篇框架实现思路和当今Agent赋能漏挖的可行性与优势供师傅们交流指点....
随着大语言模型(LLM)从单纯对话向自动化执行演进, MCP (Model Context Protocol) 协议正迅速成为连接模型大脑与外部工具(文件、数据库、API)的标准“USB接口”。然而,这种高度集成的架构也引入了一个AI隐式执行的风险。不同于传统的前端提示词注入,基于 MCP 的攻击发生在系统底层的协议交互阶段。本文将通过两个小实验实测复现,演示如何通过篡改MCP工具元数据,诱导模型进入逻辑陷阱,从而实现敏感数据的静默外泄。
本题描述了一个现实场景常见的模型:即无法采用多模态模型时,先使用ASR模型将语音转换为文字,接着调用大模型进行回答。
本题给出了数千张小猫的图片,数据分为两类:AI生成和人工拍摄,期望选手对数据完成区分,即完成人工智能生成图片伪造检测技术。
对抗图像是一种精心设计的输入数据,通过对原始图像进行细微修改,使机器学习模型(尤其是深度神经网络)产生错误的分类输出。
本议题将探讨如何结合大模型与MCP技术,实现对程序的静态分析、动态调试。基于这些技术,可以让AI参与漏洞研究,提升漏洞挖掘效率,并配合实际案例,展示AI在漏洞方面的工作能力。
在某互联网大厂工作时做了一些AI相关的安全研究工作,研究了MCP与安全的应用以及MCP本身的安全,本文为MCP应用与安全开篇,带读者深入研究MCP攻防,探讨MCP的核心机制及安全挑战。
随着DevSecOps的推进,应用安全已逐步融入SDLC各阶段,一个长期存在的问题依然突出:安全工具往往能发现问题,却难以判断其真实性、可利用性及处置优先级。这些持续消耗研发与安全团队的时间精力。近年来随着大语言模型的迅速发展,为这一困境提供了新的可能,本文结合实际应用安全建设经验,重点探讨AI在硬编码、SCA、漏洞挖掘等场景中的应用安全实践方法。
当大模型深度融入社会运转,其安全边界正面临前所未有的挑战越狱攻击通过精心构造的提示词,可绕过安全限制诱导模型生成有害内容。传统人工构造样本效率低下,而让AI成为自身的红队,正是破解这一困境的创新路径。本议题系统阐述四层自动化越狱样本构造体系:从基础规则化批量生成,到 AI自主创新,再到学术前沿复现与动态定制化生成。