最近看到了一个有关大模型数据投毒的视频,分析了一下相关方法与技术,以一个小白的视角来分享一下学习到的心得与技巧。
在某互联网大厂工作时做了一些AI相关的安全赋能工作,学习了MCP开发与安全赋能的技术知识,结合个人能力与网上学习的技术文章知识,开发了一款"MCP-Finder"创新的网络安全扫描工具,将传统目录扫描技术与现代AI大模型分析能力相结合,通过MCP协议中的streamable-http进行接入,为安全研究人员提供了更智能、更高效的漏洞发现解决方案(
本文通过一个在线靶场,希望帮助大家更好的理解提示词注入的相关手法。这个靶场拿来练习也是很不错的,尤其是现在的AI靶场很少,像经常使用的那些又修复的很快。
人工智能系统的安全范式正从外部防御转向保障其内在的认知完整性。攻击通过污染训练数据、在微调阶段植入后门、利用供应链漏洞以及在推理时注入恶意上下文,旨在从根本上破坏模型的可靠性与安全性
数据投毒是针对模型训练阶段的攻击,通过向训练数据注入有害样本或篡改样本标签/特征,改变模型学习到的映射,从而在部署后降低模型性能或触发预设行为
AI红队实践学习路线 1.人工智能基础 从工程师视角出发,代码驱动,系统思考 这个阶段不仅是学习算法,更是建立一套工程化的思维习惯。你写的每一行代码,都应思考其在整个系统中的位置。一个AI...
在人工智能(AI)的浪潮中,Retrieval-Augmented Generation(RAG,检索增强生成)无疑是一颗耀眼的新星。它让AI系统不再局限于训练时的“旧知识”,而是能从海量外部数据中实时检索相关信息,生...
今年是Agent的主旋律,随着近期Blackhat DEFCON 以及各大赛事 会议的开展,AI与安全的话题不断碰撞,在这其中,AI自动化漏洞挖掘/渗透?AI是否能代替人类安全工作人员?或安全怎么才能不被AI代替? 一直是热门的话题 本文将以AI赋能安全方面,至少在明面上来说,目前产品工程与经营都比较完善的XBOW来进行分析 一同观看目前AI for安全的前沿在那一步?
在某互联网大厂工作时做了一些AI相关的安全研究工作,研究了MCP与安全的应用以及MCP本身的安全,本文为MCP应用与安全开篇,带读者深入研究MCP攻防,探讨MCP的核心机制及安全挑战。
理解大模型安全的全景视图 要真正掌握大模型安全,我们首先需要建立一个全景式的认知框架就像建筑师在设计摩天大楼时必须考虑地基、结构、电梯系统和消防安全一样,大模型的安全也需要从生命周...
AI对齐旨在确保AI系统,其能力与行为同人类的价值观,意图及伦理规范保持一致 本文将系统性梳理AI对齐的基础原则,剖析理论与算法的挑战 1.模型固有的逆向对齐趋势 2.人类偏好非传递性导致的收敛困境 3.安全保障的系统性复杂性
LLM安全基础 在深入探讨大语言模型(LLM)的安全风险与防护策略之前,建立一个清晰、坚实的基础认知至关重要。这不仅是为了确保后续讨论的有效性,更是因为对核心术语、基本原则及其内在逻辑的...
在大模型和智能应用快速发展的今天,Model Context Protocol(MCP)逐渐成为连接模型与外部服务的重要标准。它让开发者可以更方便地调用第三方 API,为模型提供更多上下文能力。但与此同时,安...
本议题将探讨如何结合大模型与MCP技术,实现对程序的静态分析、动态调试。基于这些技术,可以让AI参与漏洞研究,提升漏洞挖掘效率,并配合实际案例,展示AI在漏洞方面的工作能力。
前段时间在某大厂做安全研究时,针对SDLC的重复性审计工作结合大模型Agent思索了一些可行的思路,便在不断摸索中构建了一个Multi-Agent的协同漏洞挖掘框架系统,目前个人使用来看对于开源的web应用的实战效果相比传统的SAST、DAST以及纯LLM的漏洞挖掘工具来说还是很不错的,便记录此篇框架实现思路和当今Agent赋能漏挖的可行性与优势供师傅们交流指点....
市面上主流的大模型服务,都已经建立一套相对成熟的安全架构,这套架构通常可以概括为三层过滤防御体系 1. 输入检测:在用户请求进入模型之前,通过黑白词库、正则表达式和语义分析,拦截掉那些意图明显的恶意问题。 2. 内生安全:模型本身经过安全对齐,通过指令微调和人类反馈强化学习(RLHF),让模型从价值观层面理解并拒绝执行有害指令。 3. 输出检测:在模型生成响应后,再次进行扫描,确保内容合规。。但攻击者依然在生成恶意内容、钓鱼邮件,甚至大规模恶意软件。
LLM概述与全景 1 什么是 LLM? LLM是基于深度神经网络架构的预测模型。在通过在海量的语料库上进行大规模训练,学习并内化语言的统计规律,语义关联及上下文依赖, 训练目标通常是预测序列中的下...
本议题聚焦于面向复杂场景的模型训练与架构设计,提出多种解决方案提升模型在网络安全场景下的理解与推理能力。在此方案下的实验中,体现了自动渗透、自动修复、自动信息收集、自动打靶、参与CTF竞赛等通用能力,初步具备无需人工干预的通用执行能力。
本文立足于大模型红队攻防实战,剖析越狱攻击的技术本质——即利用模型对齐缺陷触发非预期行为。内容涵盖结构化角色嵌套(JSON)、伪代码封装(DSPy)等具体 POC 案例,并对多语言、语义反转、格式注入等攻击手法进行了分类解析。文章进一步指出,随着模型具备 API 调用与智能体能力,越狱危害已突破内容安全层面,演变为可直接操作系统的应用安全风险。通过对比纯文本交互、插件调用与智能体驱动三种数据流,本文揭示了从“生成有害文本”到“执行恶意代码”的攻击面升级,为构建纵深防御体系提供技术参考
AI突破限制的多种手段 前言:目前看到过很多越狱AI的手法,绝大多数都是使用提示词注入来对互联网上现有AI进行越狱,本文章中介绍另外两个方法进行越狱。