设为首页 加入收藏
  • 首页
  • 综合
  • 休闲
  • 热点
  • 焦点
  • 当前位置:首页 > 焦点 > 给大模型“定规矩”,FlagSafe大模型安全平台发布

    给大模型“定规矩”,FlagSafe大模型安全平台发布

    发布时间:2026-05-11 20:36:57 来源:威能网 作者:热点

    随着大模型从虚拟对话加速迈向物理世界,定规矩人工智能时代的模型复合型安全风险日益凸显。5月9日,大模北京智源人工智能研究院宣布联合北京大学、型安北京邮电大学、全平北京航空航天大学、定规矩上海交通大学、模型中国科学院信息工程研究所、大模中国科学院计算技术研究所等国内知名机构,型安发布FlagSafe大模型安全平台,全平构建覆盖风险发现、定规矩防御治理与机理解释的模型高标准安全平台。

    当前,大模大模型正加速从虚拟对话迈向物理世界,型安随之而来的全平跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁,传统安全能力往往局限于单一模态、单一视域或单一防护环节,难以应对复合型风险。FlagSafe以“全面安全”为核心目标,致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。

    AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》,FlagSafe平台确立了五项安全红线:防范未经人类批准的自主复制或改进;禁止通过不当手段获取权力与影响力;严禁协助设计大规模杀伤性武器;禁止自主发动破坏性网络攻击;防范系统对监管者的欺骗与误导。

    围绕这些规范,平台目前已联合多家顶尖科研机构,初步构建了涵盖三大维度的安全能力矩阵:红队演练负责主动发现风险,扮演“自动化压力测试”角色;蓝队防御负责构建系统防线,将安全准则转化为防护能力;白盒透视负责解释与修正风险根因,聚焦模型内部机理与数据来源。

    例如在红队演练中,当模型具备更强推理和规划能力后,可能出现表面遵循要求、内部隐藏真实意图,或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台,通过静态基准与动态对抗相结合的方式,评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此,FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为,让风险在可控环境中提前暴露。

    在应用治理方面,智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统,是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛,违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环,构建从海量内容筛查到动态风险事件研判的完整流程,将碎片化内容组织成可追踪、可解释、可处置的动态事件链。

    “构建大模型时代的安全防线是一项长期的系统工程,期望以此平台为枢纽,构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入,协同推进大模型安全技术的创新与标准建设,共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。

    来源:北京日报客户端

    记者:孙奇茹

    • 上一篇:办公学习平板盘点:从网课到移动办公都能覆盖
    • 下一篇:为省10元停车费,男子停车至无人空地忘了熄火,3天烧完一箱油!网友:这事我也干过

      相关文章

      • “好之乐之——泥土水墨漫画展”将于16日开幕
      • 山东省第二十三届社会科学普及周在日照五莲启动
      • 【“绣”美家园】抢抓绿化黄金期 造林管护两不误
      • 第48届东盟峰会在菲律宾举行
      • 4月我国新能源汽车产销及出口均实现稳定增长
      • 从自变量到“巨变量”!具身智能大模型独角兽企业落地宝安
      • 俄总统新闻秘书:俄罗斯不会主动与欧盟对话
      • 广东网红“捡瓶小狗”疑被“虐宠团伙”盯上 密谋对其投毒 主人隐私信息也遭曝光
      • 4月龄宝宝身患三种重疾,济南市儿童医院多学科联手助宝宝闯过生死关
      • 广州国资下场制造!沧州明珠联手增城区斥资33.8亿元投建锂电隔膜、PE管道产能

        随便看看

      • 杨凌农高会夏季分会开幕 全国百余知名品牌参展
      • 人还在地铁“顺路”上班打卡?一员工被开除后起诉公司索赔13万元,法院判了
      • 三星家电在华“断舍离”:退出销售市场,保留生产工厂
      • 广州国资下场制造!沧州明珠联手增城区斥资33.8亿元投建锂电隔膜、PE管道产能
      • 广西扶绥龙谷湾项目引资26亿元 正面向社会招商
      • CoreWeave大跌近13%,2连跌,Q1业绩不佳Q2指引不及预期
      • 伦交所石油交易或有内幕操作 美司法部启动调查
      • 董事长刘彦龙退出董事候选人,老白干酒股东会延期!公司去年净利骤降,营收仅完成目标75%
      • 法企联动“零距离”,精准服务促发展——双辽市人民法院为企业送上“法治定心丸”
      • 胜宏科技:目前在手订单饱满 业务进展顺利
      • Copyright © 2026 Powered by 给大模型“定规矩”,FlagSafe大模型安全平台发布,威能网   琼ICP备2025056076号-18 sitemap