Hallucination Leaderboard——聊天 AI 产生幻觉的排行榜

⭐发布日期:2024年09月24日 | 来源:历史鉴赏者

⭐作者:南勋 责任编辑:Admin

⭐阅读量:371 评论:1人

【澳门今晚一肖一码100准】

【2024澳门管家婆资料大全免费】

【2023澳门今晚中必一肖一中特】 【2023澳门彩免费资料大全】 【2023澳门资料大全正版】 【2024香港正版挂牌】 【2024澳门六今晚开奖结果出来】 【新澳门一码一肖100精确】 【管家婆一码中一肖资料大全】 【澳门特一肖一码免费提】
【黄大仙一肖一码开奖37B】 【2023澳门彩免费资料查询】 【2023澳门全年资料免费大全】 【新澳历史开奖最新结果】 【新澳门一码一肖一特一中】 【澳门4949资料免费大全】 【2023澳彩资料免费大全】 【澳门六开彩资料查询最新2024】


现在ChatGPT 等 大语言模型(Large Language Model)可以像人类一样出口成章,但另一方面,可能会出现“幻觉(Hallucination)”,即说出与事实不符的内容,就好像它是真的一样。 人工智能公司Vectara公布了各种大型语言模型中幻觉幻觉(Hallucination)发生率的调查结果。

vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

https://github.com/vectara/hallucination-leaderboard

Cut the Bull…. Detecting Hallucinations in Large Language Models - Vectara

https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/

实际幻觉的例子如下。 原文中没有的信息将显示在PaLM摘要中。

原文内容:

植物在周六早上搜查阿什伯恩近郊的仓库时被发现。警方说,他们在“精心设计的种植设施”里。一名四十多岁的男子当场被捕。

The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in “an elaborate grow house.” A man in his late 40s was arrested at the scene.

PaLM摘要:

在阿什伯恩附近的一个仓库中发现了价值约10万英镑大麻植物,警方逮捕了一名40多岁的男子。

Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.

您可以看到 PaLM 推断该文章是关于大麻植物的,并添加了估计的市值,这两者都没有出现在源文本中。

幻觉发生率的评价是通过向各个大规模语言模型传递以下提示,通过Hughes Hallucination Evaluation Model的调查结果来进行排名。

用来生成排行榜摘要的提示是:

You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’

(你是一个使用数据回答问题的聊天机器人。你必须坚持只根据文章中的文字提供的答案。你会被问到这样一个问题:“提供以下文章的简要摘要,涵盖所描述的核心信息。”<段落>)

然后我们将 <PASSAGE> 替换为源文档。您可以在下面找到源文档和 LLM 生成的摘要。

https://github.com/vectara/hallucination-leaderboard/blob/main/leaderboard_summaries.csv

结果如下表所示。GPT4在准确性和幻觉率低两方面都获得了最高得分,GPT3.5和谷歌Gemini Pro紧随其后。另外,生成摘要太短的情况下被认为是“不回答”。

为了能够进行定期更新,每次出现新模型或模型更新时,都会在 GitHub 上使用新数据更新检查此幻觉概率的表。

但是,在这次的调查中,只以各自输出的摘要和原文的事实的连贯性为评价对象,只是将原文的一部分剪切粘贴的模型的评价会变高。幻觉发生率和摘要的质量是完全不同的评价轴,应该进行不同的测量独立评价。

Vectara表示,虽然距离解决大型语言模型的幻觉问题还有很长的路要走,但通过将本次评估中使用的“Hughes Hallucination Evaluation Model”开源化,希望让社区参与解决幻觉问题,使解决大型语言模型的幻觉问题的应对更上一层楼。

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【2023澳门六开彩今晚开什么】
上一条新闻 下一条新闻

推荐文章

发表评论

门新路

7秒前:原文内容:植物在周六早上搜查阿什伯恩近郊的仓库时被发现。

IP:29.73.7.*

Deewongkit

5秒前:PaLM摘要:在阿什伯恩附近的一个仓库中发现了价值约10万英镑的大麻植物,警方逮捕了一名40多岁的男子。

IP:12.34.5.*

胡卓希

3秒前:Police said they were in “an elaborate grow house.

IP:85.21.5.*

历史鉴赏者APP介绍

APP图标

新澳开奖记录今天结果APP名:历史鉴赏者

版本:V4.21.800

更新时间:2024-09-23 17:24

管家婆一码中一肖这是一个功能强大的管家婆的资料一肖中特APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:您可以看到 PaLM 推断该文章是关于大麻植物的,并添加了估计的市值,这两者都没有出现在源文本中。

澳门图库资料大全开APP介绍

APP图标

澳门金牛版正版资料大全免费APP名:历史鉴赏者

版本:V7.67.107

更新时间:2024-09-23 20:16

澳门三肖三码三期必开码这是一个功能强大的2023今晚必开一肖一码APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documentshttps://github.

澳门平特一肖100%免费APP介绍

APP图标

澳门最快最精准资料大全APP名:历史鉴赏者

版本:V8.15.717

更新时间:2024-09-23 14:14

新澳历史开奖最新结果查询今天这是一个功能强大的新澳门六开彩资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Detecting Hallucinations in Large Language Models - Vectarahttps://vectara.

新澳门彩历史开奖记录走势图APP介绍

APP图标

2023澳门天天开好彩大全APP名:历史鉴赏者

版本:V7.10.593

更新时间:2024-09-23 21:18

2023香港今晚开特马这是一个功能强大的2023澳门正版开奖结果APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:警方说,他们在“精心设计的种植设施”里。

澳门一肖一码100精准APP介绍

APP图标

新澳澳门免费资料网址是什么APP名:历史鉴赏者

版本:V6.76.787

更新时间:2024-09-23 19:18

管家婆一肖一码100%准这是一个功能强大的四肖八码期期准资料免费APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:5和谷歌Gemini Pro紧随其后。

新奥门资料大全正版资料2024APP介绍

APP图标

2024年新奥门王中王开奖结果APP名:历史鉴赏者

版本:V3.79.450

更新时间:2024-09-23 16:14

澳门今晚必中一肖一码准确9995这是一个功能强大的管家婆精准资料大全怎么样APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Vectara表示,虽然距离解决大型语言模型的幻觉问题还有很长的路要走,但通过将本次评估中使用的“Hughes Hallucination Evaluation Model”开源化,希望让社区参与解决幻觉问题,使解决大型语言模型的幻觉问题的应对更上一层楼。

4949澳门免费资料大全特色APP介绍

APP图标

管家婆精准一肖一码100%APP名:历史鉴赏者

版本:V6.72.474

更新时间:2024-09-23 18:15

澳门六开奖最新开奖结果2024年这是一个功能强大的2024年澳彩免费公开资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:现在ChatGPT 等 大语言模型(Large Language Model)可以像人类一样出口成章,但另一方面,可能会出现“幻觉(Hallucination)”,即说出与事实不符的内容,就好像它是真的一样。

2O24澳彩管家婆资料传真APP介绍

APP图标

新澳天天开奖资料大全最新54期APP名:历史鉴赏者

版本:V3.55.401

更新时间:2024-09-23 15:22

新澳门彩天天开奖资料一这是一个功能强大的新澳今天最新资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:但是,在这次的调查中,只以各自输出的摘要和原文的事实的连贯性为评价对象,只是将原文的一部分剪切粘贴的模型的评价会变高。