当前位置: 首页 > news >正文

AI大模型的安全隐患问题与新兴Anthropic新势力涌动

引言:

无论从社会层面或技术层面,大模型的安全隐患都是一个不容小觑的话题。也正因此,ChatGPT 初兴起时,国内的 To C 大模型产品一时受阻。而尽管 9 月初第一批 8 家大模型通过备案,各家厂商对大模型的安全问题也不敢掉以轻心。


AI大模型的安全隐患问题与新兴Anthropic新势力涌动

  • 1. UIUC 李飞飞团队测试
  • 2. Anthropic:兼顾技术创新与技术治理
  • 参考文献资料

1. UIUC 李飞飞团队测试

此前 UIUC 李博团队的一项研究工作发现:尽管GPT-4在标准基准测试中通常比GPT-3.5更可信,但在越狱系统或用户提示的情况下更容易受到攻击,背后原因可能就是因为GPT-4更加准确地遵循(误导的)指令。(更多信息请阅读 【1】)

如前所述,OpenAI 的大模型没有开源,外界是无法获取其具体大模型的。在这种情况下,外界研究人员对大模型的安全评测只能进行“黑盒测试”。据 AI 科技评论与行业人士交流,黑盒测试比白盒测试难,“因为不知道内部数据,所以就只能通过模型的访问来估摸模型内部的机制,然后再基于猜想去针对性地设计应对方法”。


例如,为了深入探索 GPT 模型对于分布外数据的鲁棒性,李博团队给GPT-4输入了「 The emotions are raw and strike a nerve with any man that ever hath been afeard of his own family」这样一句极其莎士比亚的长句,结果反映出GPT-4 相较于 GPT-3.5 表现出更强的泛化能力。它能准确的判断出,这个句子其实是「 The emotions are raw and strike a nerve with anyone who’s ever had family trauma」(这些情感是原始的,并触动了任何曾有过家庭创伤的人的神经)的同义句。


2. Anthropic:兼顾技术创新与技术治理

在 OpenAI 就职期间,Dario 与一干同事对 OpenAI 处理技术伦理与安全的方式持有怀疑,不认可 OpenAI 在 AI 安全治理上的工作,后决定离职,在 2021 年创立了 Anthropic。除了 Dario 兄妹,Anthropic 的创始团队成员还包括 Jared Kaplan、Sam McCandlish、Tom Brown 等等曾核心参与研发 GPT-2 与 GPT-3 的前 OpenAI 员工。

自成立起,Anthropic 的愿景就是成为一家聚焦于 AI 安全研究的公司,希望开发出可控、可解释的人工智能系统。在 AI 安全上,Anthropic 别开生面,首创了“宪法 AI”的概念体系,强调在人工智能系统中实现价值观对齐。

Anthropic 成立后,在 A 轮就获得了包括 Skype 联合创始人 Jaan Tallinn、前谷歌 CEO Eric Schmidt 在内的投资人青睐,融资金额达 1.24 亿美元。由于 Anthropic 是一家公益型企业,所以当时该消息就在圈内引起了轰动,被知名权威媒体 TechCrunch 称为“有 1.24 亿美元可烧”。

2021 年 4 月,Anthropic 又获得 5.8 亿美元的融资,由加密货币交易所FTX首席执行官Sam Bankman-Fried领投……在 AI 行情急剧下滑的 2022 年,Anthropic 成为吸金新秀,ChatGPT 火起来更愈加突出,被不少行业人士认为是当前唯一一家能与 OpenAI 抗衡的创业公司。

2021 年,Anthropic 团队发表了多篇研究 Transformer 机制的文章,如“A Mathematical Framework for Transformer Circuits”、“In-context Learning and Induction Heads”等,希望研究 Transformer 的简化版本并全面解释 Transformer 模型的功能。他们所研究的简化版 Tranformer 是先学习基本语言模式,再获得语言处理的通用能力。

这些研究结果为深入理解 Transformer 提供了一条新的途径。

能力出众而有经验的研发团队,充足的资源与资金能力,比大模型风潮提前两年的布局——这三大要素使 Anthropic 成为领域新星,与微软/OpenAI、谷歌/DeepMind 被列为当前全球 AI 领域排名前三的公司。更重要的是,Anthropic 也是这当中唯一一家没有与大厂深度绑定的创业公司。

2023 年 3 月,Anthropic 融资额超过 13 亿美元,估值 41 亿美元;仅 6 个月后,Anthropic 直接吸引亚马逊投资 40 亿美元。此前,Anthropic 推出的对话机器人 Claude 在海外与 ChatGPT 展开竞争,在技术圈的认可度很高。Anthropic 与 OpenAI 是当前极少数还在坚持闭源的团队。

据 TechCrunch 报道,Anthropic 向亚马逊做出“长期”承诺,通过 Amazon Bedrock 为全球 AWS 客户提供对下一代基础模型的访问。此外,Anthropic 还将为 AWS 客户提供早期访问模型定制和微调功能的独特功能。

但除了亚马逊,Anthropic 也与谷歌云、Zoom 等企业展开了相似合作。尽管接受了亚马逊的大额注资,但 Anthropic 仍坚持其创立之初的愿景,追求 AI 安全的终极目标。

参考文献资料

【1】UIUC 李博:GPT-4 比你想象的更「傲慢」

http://www.lryc.cn/news/184140.html

相关文章:

  • slamplay:用C++实现的SLAM工具集
  • IPT2602协议-USB 快速充电端口控制器
  • Zotero 超好用插件的下载链接及配置方法(PDF-translate/ZotFile/茉莉花/Zotero Scihub)
  • Titus网关中的缓存一致性机制
  • flutter开发实战 - inappwebview设置cookie
  • 零基础如何自学网络安全,基于就业前景全方位讲解,包教包会
  • Java项目防止SQL注入的几种方案
  • Win11 安装安卓子系统方法教程
  • golang pg 数据库不存在 就创建 --chatPGT
  • VUE3照本宣科——eslint与prettier
  • 【谷粒学院】Maven加载问题
  • PostgreSQL数据库中实现字段递增
  • 深度学习——深度学习计算二
  • HarmonyOS/OpenHarmony原生应用-ArkTS万能卡片组件Badge
  • 在Flink中集成和使用Hudi
  • docker搭建Jenkins及基本使用
  • CSS初体验
  • python性能分析
  • 苹果手机怎么备份所有数据?2023年iPhone 15数据备份常用的3种方法!
  • 【RV1103】如何新增一个新板级配置
  • ThreeJS-3D教学五-材质
  • 递归
  • Vercel部署个人静态之DNS污染劫持问题
  • Microsoft Defender Vulnerability部署方案
  • 云服务器CVM_云主机_云计算服务器_弹性云服务器-腾讯云
  • PLC之间无线通信-不用编程实现多品牌PLC无线通讯的解决方案
  • 第二证券:A股反弹已至?9月最牛金股涨超41%
  • 机器人革命:你一定没见过这些全新的机器人技术!
  • vue前端项目中添加独立的静态资源
  • 外汇天眼:业务员离职,也不给出金!Sky Alliance Markets摆烂不玩了?