1 号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

OpenCV学堂 来源:机器之心 2023-06-11 11:24 次阅读

LLaMA v.s. Falcon = 63.64 v.s. 49.08。评估结果表明,LLaMA 并未被「碾压」。

267daa54-0798-11ee-962d-dac502259ad0.png

作为开源模型界的扛把子,LLaMA 一直备受瞩目。

这是一组由 Meta 开源的大型语言模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。

自 2 月份发布以来,开源社区一直在 LLaMA 的基础上进行二创,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型,生物学羊驼属的英文单词都快被用光了。

不过,也有人对 LLaMA 发起了挑战。5 月底,阿联酋阿布扎比的技术创新研究所(TII)开源了一个 400 亿参数的因果解码器模型「Falcon-40B」,该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练,并使用精选数据集增强。刚一发布,「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位,「碾压」了参数规模 1.5 倍的「LLaMA-65B」,也优于 MPT、RedPajama 和 StableLM 等开源大模型。

26941e74-0798-11ee-962d-dac502259ad0.png

后来,Falcon-40B Instruct 版本占据了排行榜首位,Falcon-40B 则退到了第三,而 LLaMA-65B 已经掉到了第六位。

不过,仔细看过数据之后,围观者产生了疑问:为什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 这项分数是 48.8,明显低于官方数据 63.4?

26b6affc-0798-11ee-962d-dac502259ad0.png

HuggingFace 的 Open LLM 排行榜。地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

26d346b2-0798-11ee-962d-dac502259ad0.png

LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写,是一个基准数据集,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。它由一系列学术科目中类似考试的问题组成,用于测试模型对于世界理解的能力。

还有人表示,在测 Falcon-40B 时,他们也复现不了排行榜上的分数。

26e54894-0798-11ee-962d-dac502259ad0.png

面对这样的争议,Karpathy 等大牛选择了谨慎观望。

26fd6154-0798-11ee-962d-dac502259ad0.png

爱丁堡大学博士生符尧等则选择自己测一遍。

简而言之,他们在 Chain-of-thought Hub 上重新写了开源的 LLaMA eval 代码,然后在同样的设定下,用官方 prompt,fp16,HF 默认代码,公平比较了 Falcon 和 LLaMA 在 MMLU 上的表现。

「没有花哨的 prompt 工程和解码,一切都是在默认设置下进行的。」符尧在推文中写道。

6 月 8 日,他们公布了第一批结果:LLaMA 65B 的 MMLU 得分为 61.4,比较接近官方数字(63.4),明显高于其 Open LLM Leaderboard 分数 48.8,且远高于 Falcon-40B 的 Leaderboard 分数 52.7。

270f7b6e-0798-11ee-962d-dac502259ad0.png

初步来看,「你大爷还是你大爷」。不过,这还不是 LLaMA 65B 的真实实力。在 6 月 10 日凌晨公布的第二波结果中,符尧解释说,他们在第一波测评中发现了一个「long prompt」引起的 bug,这个 bug 导致 LLaMA 在高中欧洲历史和高中美国历史上得到 0 分。在修复了这个 bug 后,LLaMA 得分变成了 63.64,与论文中报道的数字基本相同。

271d3ba0-0798-11ee-962d-dac502259ad0.png

公平起见,使用相同的脚本,他们也测出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分数 52.7,只比 LLaMA 13B 好一点。

27286e1c-0798-11ee-962d-dac502259ad0.png

274360aa-0798-11ee-962d-dac502259ad0.png

由此,这次所谓的「碾压」事件彻底反转。

符尧团队的这一尝试也吸引了 HuggingFace 研究科学家 Nathan Lambert 的注意,后者决定重写 Open LLM Leaderboard 的代码。

2751e06c-0798-11ee-962d-dac502259ad0.png

不过,符尧专门指出,他们不打算在 LLaMA 和 Falcon 之间挑起战争:「两者都是伟大的开源模型,并为该领域做出了重大贡献!Falcon 还具有更简单的许可证优势,这也赋予了它强大的潜力!」

为了方便大家检查代码和开源结果,符尧公布了相关地址:https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU

如果在检查后有新的发现,欢迎在评论区留言。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40716
  • 语言模型
    +关注

    关注

    0

    文章

    520

    浏览量

    10268

原文标题:彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    HarmonyOS开发案例:【排行榜页面】

    本课程使用声明式语法和组件化基础知识,搭建一个可刷新的排行榜页面。在排行榜页面中,使用循环渲染控制语法来实现列表数据渲染,使用@Builder创建排行列表布局内容,使用装饰器@State、@Prop、@Link来管理组件状态。
    的头像 发表于 04-30 16:16 1963次阅读
    HarmonyOS开发案例:【<b class='flag-5'>排行榜</b>页面】

    中国IC设计公司排行榜

    作者:林晓林  中国IC设计公司排行榜:近日,市场调研公司iSuppli出台了2005年度中国IC设计公司排行榜,与中国半导体协会的排名不同,此次名列榜首的是来自香港的晶门
    发表于 05-26 14:29

    2013年2月份编程软件排行榜,LabVIEWTop27,进步很大。

    本帖最后由 sushu 于 2013-2-13 10:58 编辑 刚刚上网发现编程软件排名,关注的LabVIEW现在已经是27位了,小开心一下。TIOBE编程语言社区排行榜是编程语言流行趋势
    发表于 11-06 12:40

    资料下载总排行榜

    资料下载总排行榜,怎么就那几个啊,怎么下载到人气高的资料?资料茫茫,我相信大家的眼睛雪亮的。求方法收集些好的资料。。。
    发表于 03-05 16:24

    各种排行榜汇总贴!!!!!

    本帖最后由 dongyumin 于 2013-7-31 11:39 编辑 1.2012网上各地年终奖排行榜,科技、电子企业全面领跑!https://bbs.elecfans.com
    发表于 07-30 11:55

    2014年4月方案公司出货量排行榜

    。而其他方案厂商凭借海外市场以及国内中小品牌、中低端市场持续稳扎稳守。2014年4月方案公司出货量排行榜如下:(更多精彩关注公众微信号:ittbank)
    发表于 06-23 11:41

    2014年10月 TIOBE 编程语言排行榜发布

    2014年10月的 TIOBE 编程语言排行榜发布了,该版本最大的两点是 Google 的 Dart 语言首次进入前 20 名。其竞争者包括 CoffeeScript 目前排名 133,TypeScript 排名 122.想知道完整的排名表格请回复
    发表于 12-08 13:46

    小米放出“手机电量排行榜” 为续航神机Max 2造势

    小米手机家族的电量排行榜,并向网友征询:“你觉得小米Max2多大电量够你用? ”从排行榜来看,现款小米Max以4850mAh的容量排名第一,其次是小米MIX(4400mAh)、红米4(4100mAh
    发表于 06-03 14:20

    MapReduce框架音乐排行榜案例

    Hadoop综合实战之MapReduce运算优化——音乐排行榜
    发表于 10-16 12:20

    求职必知独角兽公司排行榜

    世界第 3 的滴滴裁员,求职必知独角兽公司排行榜
    发表于 06-18 07:30

    2019年2月编程语言排行榜分享

    2019年2月编程语言排行榜
    发表于 07-14 10:28

    2020年最新主板型号排行榜 精选资料推荐

    2020年最新主板型号排行榜2020主板型号天梯图2020主板选购指南一、Intel、AMD电脑主板的辨别二、主板芯片组级别三、板形四、主板对电脑性能有什么影响在使用电脑的时候,我们有时候会需要更换
    发表于 07-26 06:16

    华为荣获手机推荐度排行榜第一

    近日,品牌评级权威机构Chnbrand发布了手机推荐度排行榜,华为依然以27.8的C-NPS得分排在榜首;苹果以16.5的C-NPS得分位居第二,相较去年排名提升了2位;小米则以12.8的C-NPS
    的头像 发表于 01-21 14:40 3218次阅读

    小米斩获2020年手机推荐度排行榜前三

    近日,品牌评级权威机构Chnbrand发布了手机推荐度排行榜,华为以27.8的C-NPS得分排在榜首。
    的头像 发表于 01-22 09:13 1985次阅读

    开源大模型Falcon(猎鹰) 180B发布 1800亿参数

      世界最强开源大模型 Falcon 180B 忽然火爆全网,1800亿参数,Falcon 在 3.5 万亿 token 完成训练,性能碾压 Llama 2,登顶 Hugging Fa
    的头像 发表于 09-18 09:29 1461次阅读
    开源大模型<b class='flag-5'>Falcon</b>(猎鹰) 180B发布 1800亿参数