Nature：大模型公司的“开源洗白”，严重阻碍科学可重复性和创新

⭐发布日期：2024年10月09日 | 来源:史书凌轩阁

⭐作者：张龄心责任编辑:Admin

⭐阅读量:568 评论：1人

【今晚新澳门号码是多少】

【澳门一肖一码一中一肖246】

【新澳门内部资料精准大全下载】

【澳门2024最新资料大全】

【2024年澳门正版资料丈全】

【再睁眼,我重生回了女儿管我借钱的前一天】

【123澳门正版免费资料大全】

【新奥门马报今天资料】

【澳门6合开彩管家婆资料2024】

【新奥结果怎么查询的到】

【编者按】科技巨头所声称的开源 AI 模型，是否是真正意义上的开源模型？近期 Nature 上的一篇报道或许可以给我们一些启示。

日前，Nature 杂志编辑 Elizabeth Gibney 刊文深入分析了大语言模型（LLM）的透明度和开放性，揭示了所谓的“开源”背后隐藏的问题。

作者指出，许多声称开源的 AI 模型，实际上在数据和训练方法上并不透明，无法满足真正的科学研究需求。这种“开源洗白”（open-washing）现象严重阻碍了科学的可重复性和创新。

通过对多种模型的详细评估，文章提出了一份开放性排行榜，揭示了当前 AI 开源的现状。尤其值得关注的是，一些小型公司和研究团队在有限资源下，反而表现出了更高的透明度和开放性。

在这个 GenAI 时代，真正的开源不仅仅是代码的开放，更是数据、训练方法和模型细节的全面透明。这不仅是为了科学的进步，也是为了确保 AI 技术在社会中的负责任应用。

学术头条在不改变原文大意的情况下，做了简单的编译。内容如下：

许多支持聊天机器人的 LLM 被声称是开源的，但限制了对代码和训练数据的访问。

分析了许多流行聊天机器人模型的研究人员表示，像 Meta 和微软这样的科技巨头将他们的 AI 模型描述为“开源”，但未能披露有关底层技术的重要信息。

关于 AI 模型的开源定义尚未达成一致，但支持者表示，“完全”开源有助于科学研究，并且让 AI 更加负责任也至关重要。当欧盟的人工智能法案生效时，什么算作开源可能会变得更加重要。该立法将对被归类为开源的模型实施不那么严格的监管。

一些大公司声称拥有开源模型，并从中获益，但试图“尽可能少地披露信息”，荷兰奈梅亨拉德堡德大学的语言科学家 Mark Dingemanse 说。这种做法被称为“开源洗白”。

Dingemanse 和他的同事、计算语言学家 Andreas Liesenfeld 一起创建了一个排行榜，列出了开源最多和开源最少的模型（见表）。Dingemanse 说:“令我们惊讶的是，资源相对较少的小公司却开源更多。” 他们的研究结果于 6 月 5 日发表在 2024 ACM FAccT 的会议论文集中（见表）。

开源模型到底有多“开源”？

两位语言科学家评估了各种聊天机器人模型的不同组件是否是开源（✔）、部分开源（~）或闭源（X）。

都柏林圣三一学院（Trinity College Dublin）的认知科学家、位于加州 Mountain View 的非营利组织 Mozilla Foundation 的人工智能问责顾问 Abeba Birhane 表示，这项研究消除了“围绕当前开源辩论的许多炒作和废话”。

什么是开源？

“开源”一词来源于软件领域，意指可以访问源代码且对程序的使用或发行没有限制。但考虑到大型 AI 模型的复杂性和涉及的数据量庞大，使它们开源远非易事，专家们仍在努力定义开源 AI。Dingemanse 表示，将模型所有方面开源对于公司来说并不总是可取的，因为这可能会使它们面临商业或法律风险。其他人也认为，完全自由地发布模型有被滥用的风险。

但被贴上开源的标签也能带来巨大好处。开发者通过展示自己严谨和透明的形象，已经可以获得公共关系的回报，而且很快会产生法律上的影响。今年通过的欧盟人工智能法案将免除一定规模的开源通用模型的广泛透明度要求，并让它们承担较少的义务，目前这些义务尚未定义。Dingemanse 说：“公平地说，在受欧盟人工智能法案管辖的国家，‘开源’一词将具有前所未有的法律权重。”

在他们的研究中，Dingemanse 和 Liesenfeld 评估了40个大语言模型（LLM）——这些系统通过在大量数据中进行词语和短语之间的关联来学习生成文本。所有这些模型都声称是“开源”或“开放”的。他们通过评估模型在代码和训练数据的可用性、发布的文档内容以及模型的易访问性等14个参数，制作了一个开放性排行榜。对于每个参数，他们判断这些模型是开源的、部分开源的还是闭源的。

专注于开源技术的伦敦非营利公司OpenUK的首席执行官Amanda Brock表示，这种分析开源的滑动尺度方法非常实用。

研究人员发现，许多声称是开放或者开源的模型——包括Meta的Llama和Google DeepMind的Gemma——实际上只是“开放权重”（open weight）。

这意味着外部研究人员可以访问和使用这些训练过的模型，但不能检查或自定义它们。他们也无法完全了解这些模型是如何针对特定任务进行微调的；例如，使用人类反馈。Dingemanse说：“你并没有开源太多……然后你就能获得开源的信誉。”

作者们表示，特别令人担忧的是，模型训练数据不是透明的。他们表示，在他们分析的模型中，大约有一半没有提供关于数据集的详细信息，仅有泛泛的描述。

谷歌发言人表示，公司对描述模型使用的语言“非常精准”，选择将其Gemma大型语言模型标为开放而非开源。“现有的开源概念并不总是能直接应用于AI系统”，他们补充道。微软的发言人称，公司试图“尽可能准确地描述可用的内容及其程度”。“我们选择公开模型、代码、工具和数据集等材料，因为开发者和研究社区在推动AI技术进步方面发挥着重要作用。”Meta未回应Nature的评论请求。

分析发现，小型公司和研究团队制作的模型往往比大科技公司制作的模型更开源。作者们以由一个国际性、主要是学术合作项目构建的BLOOM为例，强调它是一个真正开源的AI。

同行评审“过时了”

他们发现，详细介绍这些模型的科学论文极其罕见。同审评审似乎“几乎完全过时了”，被挑选案例的博客文章或缺乏细节的公司预印本所取代。Dingemanse说，公司“可能会在其网站上发布一篇看起来很炫的论文，表面上看起来非常技术化。但是如果你仔细阅读，根本没有任何关于该系统使用了哪些数据的具体说明。”

目前尚不清楚这些模型中有多少符合欧盟对开源的定义。根据该法案，开源指的是在“自由和开放”的许可下发布的模型，例如允许用户修改模型，但对访问训练数据没有任何规定。该论文指出，细化这一定义可能会成为“企业游说和大公司瞄准的一个焦点”。

Dingemanse表示，开放性对科学发展很重要，因为它对可重复性至关重要。“如果你无重复它，那就很难称之为科学，”他说。研究人员创新的唯一方法是通过调整模型来实现，而要做到这一点，他们需要足够的信息来构建自己的版本。

不仅如此，模型还必须接受审查。Dingemanse说：“如果我们无法了解内部运作，我们也不知道是否应该对此印象深刻。”例如，如果一个模型通过了某个特定测试，但它是通过大量训练测试样本实现的，那就不算是一个成就。而且没有数据问责制，没人知道是否使用了不当或有版权的数据，他补充道。

Liesenfeld说，他们希望帮助同行科学家在寻找用于教学和研究的模型时，避免“陷入我们曾经陷入的同样陷阱”。

原文链接：

https://www.nature.com/articles/d41586-024-02012-5

【2024澳门天天开好彩大全免费】【新澳天天开奖资料大全最新】

【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】

【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】