保险话题,在人工智能(AI)行业一贯备受存眷。尤其是诸如 GPT-4 如许的年夜言语模子(LLM)呈现后,有不少业内专家呐喊「破即停息练习比 GPT-4 更强盛的人工智能模子」,包含马斯克在内的数千人纷纭起家支撑,联名签订了一封公然信。这封公然信便来自性命将来研讨所(Future of Life Institute),该机构由麻省理工学院教学、物理学家、人工智能迷信家、《性命 3.0》作者 Max Tegmark 等人结合创建,是最早存眷人工智能保险成绩的机构之一,其任务为 “领导变更性技巧造福生涯,防止极其的年夜范围危险”。公然信息表现,性命将来研讨所的参谋委员会成员声威强盛,包含实践物理学家霍金、企业家马斯克、哈佛年夜学遗传学教学 George Church、麻省理工学院物理学教学 Frank Wilczek 以及演员、迷信传布者 Alan Alda、Morgan Freeman 等。日前,性命将来研讨所约请图灵奖得主 Yoshua Bengio、加州年夜学伯克利分校盘算机迷信教学 Stuart Russell 等 7 位人工智能专家跟管理专家,评价了 6 家人工智能公司(Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智谱)在 6 年夜要害范畴的保险实际,并宣布了他们的第一份《人工智能保险指数讲演》(FLI AI Safety Index 2024)。讲演表现,只管 Anthropic 取得了最高的保险性评级,但分数仅为 “C”,包含 Anthropic 在内的 6 家公司在保险实际方面仍有晋升空间。讲演链接:https://futureoflife.org/document/fli-ai-safety-index-2024/对于这份讲演,Tegmark 在 X 上乃至切中时弊地指出:Anthropic first and Meta last,即:Anthropic 的保险性最高,而保持开源的 Meta 在这方面却垫底。但 Tegmark 也表现,“如许做的目标不是耻辱任何人,而是鼓励公司改良。”值得一提的是,性命将来研讨地点讲演中写道,“当选公司的根据是其在 2025 年之前打造最强盛模子的预期才能。别的,智谱的参加也反应了咱们盼望使该指数可能代表寰球当先企业的用意。跟着竞争格式的演化,将来的迭代可能会存眷差别的公司。”6 年夜维度评价 AI 保险据先容,评审专家从危险评价(Risk Assessment)、以后迫害(Current Harms)、保险框架(Safety Frameworks)、生活性保险战略(Existential Safety Strategy)、管理跟问责制(Governance & Accountability)以及通明度跟相同(Transparency & Communication)分辨对每家公司停止评价,最后汇总得出保险指数总分。维度 1:危险评价在危险评价维度中,OpenAI、Google DeepMind 跟 Anthropic 因在辨认潜伏伤害才能(如收集攻打滥用或生物兵器制作)方面实行更严厉的测试而遭到确定。但是,讲演也指出,这些尽力仍存在明显范围,AGI 的相干危险尚未被充足懂得。OpenAI 的诈骗机能力评价跟晋升研讨取得了评审专家的存眷;Anthropic 则因与国度人工智能保险机构的深度配合被以为表示尤为凸起。Google DeepMind 跟 Anthropic 是仅有的两家保持针对模子破绽的专项破绽嘉奖打算的公司。Meta 只管在模子安排前对伤害才能停止了评价,但对自治、策划跟压服相干要挟模子的笼罩缺乏。智谱的危险评价绝对不敷片面,而 x.AI 在安排前的评价多少乎缺掉,年夜幅低于行业尺度。评审专家倡议,行业应扩展研讨的范围与范畴,同时树立明白的可接收危险阈值尺度,从而进一步进步人工智能模子的保险性跟牢靠性。维度 2:以后迫害在以后迫害维度中,Anthropic 的人工智能体系在保险性与信赖度基准测试中失掉了最高分,Google DeepMind 紧随厥后,该公司的 Synth ID 水印体系被承认为增加人工智能天生内容滥用的最佳实际。其余公司得分偏低,裸露出保险缓解办法的缺乏。比方,Meta 因公然前沿模子权重被批驳,该做法可能被歹意行动者应用来移除保险防护。别的,抗衡性攻打还是一个重要成绩,少数模子易受逃狱攻打,此中 OpenAI 的模子尤为懦弱,而 Google DeepMind 在此方面防备表示最佳。评审专家还指出,只有 Anthropic 跟智谱在默许设置下防止将用户交互数据用于模子练习,这一实际值得其余公司鉴戒。维度 3:保险框架在保险框架(Safety Frameworks)方面,全部 6 家公司均签订了《前沿人工智能保险许诺》,许诺制订保险框架,包含设置弗成接收危险阈值、高危险场景下的高等防护办法,以及在危险弗成控时停息开辟的前提。但是,停止本讲演宣布,仅有 OpenAI、Anthropic 跟 Google DeepMind 颁布了相干框架,评审专家仅能对这三家公司停止评价。此中,Anthropic 因框架内容最为细致而遭到承认,其也宣布了更多实行领导。专家分歧夸大,保险框架必需经由过程强无力的外部检察跟监视机制支撑,才干真正实现对危险的正确评价跟治理。维度 4:生活性保险战略在生活性保险战略维度,只管全部公司均表现有意开辟 AGI 或超等人工智能(ASI),并否认此类体系可能带来的生活性危险,但仅有 Google DeepMind、OpenAI 跟 Anthropic 在把持与保险性方面发展了较为严正的研讨。评审专家指出,现在不公司提出官方战略以确保高等人工智能体系可控并合乎人类代价不雅,现有的技巧研讨在把持性、对齐性跟可说明性方面仍显稚嫩且缺乏。Anthropic 凭仗其细致的 “Core Views on AI Safety” 博客文章取得最高分,但专家以为其战略难以无效防备超等人工智能的严重危险。OpenAI 的 “Planning for AGI and beyond” 博客文章则仅供给了高档次准则,虽被以为公道但缺少现实打算,且其可扩大监视研讨仍不成熟。Google DeepMind 的对齐团队分享的研讨更新虽有效,但缺乏以确保保险性,博客内容也不克不及完整代表公司团体策略。Meta、x.AI 跟智谱尚未提出应答 AGI 危险的技巧研讨或打算。评审专家以为,Meta 的开源战略及 x.AI 的 “democratized access to truth-seeking AI” 愿景,可能在必定水平上缓解权利会合跟代价固化的危险。维度 5:管理跟问责制在管理跟问责制维度,评审专家留神到,Anthropic 的开创人在树立担任任的管理构造方面投入了大批精神,这使其更有可能将保险放在首位。Anthropic 的其余踊跃尽力,如担任任的扩大政策,也失掉了踊跃评估。OpenAI 最初的非营利构造也同样遭到了称颂,但近来的变更,包含遣散保险团队跟转向营利形式,惹起了人们对保险主要性降落的担心。Google DeepMind 在管理跟问责方面迈出了主要一步,许诺实行保险框架,并公然标明其任务。但是,其附属于 Alphabet 的红利驱动企业构造,被以为在必定水平下限制了其在优先斟酌保险性方面的自立性。Meta 固然在 CYBERSEC EVAL 跟红队测试等范畴有所举动,但其管理构造未能与保险优先级对齐。别的,开放源代码宣布高等模子的做法,招致了滥用危险,进一步减弱了其问责制。x.AI 固然正式注册为一家公益公司,但与其竞争敌手比拟,在人工智能管理方面的踊跃性显明缺乏。专家们留神到,该公司在要害安排决议方面缺少外部检察委员会,也不公然讲演任何本质性的危险评价。智谱作为一家营利实体,在合乎执法法例请求的条件下发展营业,但其管理机制的通明度依然无限。维度 6:通明度跟相同在通明度跟相同维度,评审专家对 OpenAI、Google DeepMind 跟 Meta 针对重要保险法例(包含 SB1047 跟欧盟《人工智能法案》)所做的游说尽力表现重大关心。与此构成赫然对照的是,x.AI 因支撑 SB1047 而遭到表彰,标明了其踊跃支撑旨在增强人工智能保险的羁系办法的破场。除 Meta 公司外,全部公司都因公然应答与进步人工智能相干的极其危险,以及尽力向政策制订者跟大众宣扬这些成绩而遭到表彰。x.AI 跟 Anthropic 在危险相同方面表示凸起。专家们还留神到,Anthropic 一直支撑增进该行业通明度跟问责制的管理举动。Meta 公司的评级则遭到其引导层频频疏忽跟鄙弃与极其人工智能危险有关的成绩的明显影响,评审专家以为这是一个严重缺点。专家们夸大,全部行业急切须要进步通明度。x.AI 缺少危险评价方面的信息共享被特殊指出为通明度方面的缺乏。Anthropic 容许英国跟美国人工智能保险研讨所对其模子停止第三方安排前评价,为行业最佳实际建立了标杆,因而取得了更多承认。专家是怎样打分的?在指数计划上,6 年夜评价维度均包括多个要害指标,涵盖企业管理政策、外部模子评价实际以及保险性、公正性跟鲁棒性的基准测试成果。这些指标的抉择基于学术界跟政策界的普遍承认,确保其在权衡公司保险实际上的相干性与可比性。这些指标的重要归入尺度为:相干性:清单夸大了学术界跟政策界普遍承认的人工智能保险跟担任任行动的各个方面。很多指标直接来自斯坦福年夜学基本模子研讨核心等当先研讨机构发展的相干名目。可比拟性:抉择的指标可能凸起保险实际中的有意思的差别,这些差别能够依据现有的证据加以断定。因而,不确实差别证据的保险防备办法被省略了。抉择公司的根据是公司到 2025 年制作最强盛模子的预期才能。别的,智谱的参加也反应了该指数盼望可能代表寰球当先公司的用意。跟着竞争格式的演化,将来可能会存眷差别的公司。别的,性命将来研讨地点体例《AI 保险指数讲演》时,构建了片面且通明的证据基本,确保评价成果迷信牢靠。研讨团队依据 42 项要害指标,为每家公司制造了具体的评分表,并在附录中供给了全部原始数据的链接,供大众查阅与验证。证据起源包含:公然信息:重要来自研讨论文、政策文件、消息报道跟行业讲演等公然资料,加强通明度的同时,便于好处相干方追溯信息起源。公司问卷考察:针对被评价公司散发了问卷,弥补公然数据未笼罩的保险构造、流程与战略等外部信息。证据网络时光为 2024 年 5 月 14 日至 11 月 27 日,涵盖了最新的人工智能基准测试数据,并具体记载了数据提取时光以反应模子更新情形。性命将来研讨所努力于以通明跟问责为准则,将全部数据 —— 无论来自公然渠道仍是公司供给 —— 完全记载并公然,供检察与研讨应用。评分流程方面,在 2024 年 11 月 27 日实现证据网络后,研讨团队将汇总的评分表交由自力人工智能迷信家跟管理专家小组评审。评分表涵盖全部指标相干信息,并附有评分指引以确保分歧性。评审专家依据相对尺度为各公司打分,而非纯真停止横向比拟。同时,专家需附上冗长阐明支撑评分,并供给要害改良倡议,以反应证据基本与其专业看法。性命将来研讨所还约请专家小组分工评价特定范畴,如 “生活性保险战略” 跟 “以后迫害” 等,保障评分的专业性跟深度。终极,每一范畴的评分均由至少四位专家参加打分,并汇总为均匀分后展现在评分卡中。这一评分流程既重视构造化的尺度化评价,又保存了机动性,使专家的专业断定与现实数据充足联合。不只展示以后保险实际的近况,还提出可行的改良偏向,鼓励公司在将来告竣更高的保险尺度。© THE END 转载请接洽本大众号取得受权投稿或追求报道:
[email protected]]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->