首页 > 营销学院 > IT资讯

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

前段时间，初出茅庐的猎鹰（Falcon）在LLM排行榜碾压LLaMA，在整个社区激起千层浪。

但是，猎鹰真的比LLaMA好吗？

简短回答：可能不是。
Seede AI
AI 驱动的设计工具
713 查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

符尧团队对模型做了更深入的测评：

「我们在MMLU上复现了LLaMA 65B的评估，得到了61.4的分数，接近官方分数（63.4），远高于其在Open LLM Leaderboard上的分数（48.8），而且明显高于猎鹰（52.7）。」

没有花哨的提示工程，没有花哨的解码，一切都是默认设置。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

目前，Github上已经公开了代码和测试方法。

对于猎鹰超越LLaMA存疑，LeCun表态，测试脚本的问题...

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

LLaMA真·实力

目前在OpenLLM排行榜上，Falcon位列第一，超过了LLaMA，得到了包括Thomas Wolf在内的研究人员的力荐。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

然而，有些人对此表示疑虑。

先是一位网友质疑，LLaMA这些数字从哪来，看起来与论文数字不一致...

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

随后，OpenAI科学家Andrej Karpathy也对LLaMA 65B为什么在Open LLM排行榜上的分数明显低于官方（48.8 v.s. 63.4）表示关注。

并发文，到目前为止，我一直避免在推特上发表关于猎鹰的文章，因为这一点，不确定。

为了弄清楚这个问题，符尧和团队成员决定对LLaMA 65B进行一次公开的测试，结果得到61.4分。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

在测试中，研究者没有使用任何特殊机制，LLaMA 65B就能拿到这个分数。

这一结果恰恰证明了，如果想要模型实现接近GPT-3.5的水平，最好是在LLaMA 65B上使用RLHF。

根据就是，近来符尧团队发表的一篇Chain-of-Thought Hub论文的发现。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

当然，符尧表示，他们这一测评并非想要引起LLaMA和Falcon之间的争端，毕竟这些都是伟大的开源模型，都为这个领域做出了重大的贡献！

另外，Falcon还有更加方便的使用许可，这也让它有很大的发展潜力。

对于这一最新测评，网友BlancheMinerva指出，公平的比较应该在默认设置下运行猎鹰（Falcon）在MMLU上。

对此，符尧称这是正确的，并正进行这项工作，预计在一天后可以得到结果。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

不管最终的结果怎样，要知道GPT-4这座山峰才是开源社区真正想要追求的目标。

OpenLLM排行榜问题

来自Meta的研究人员称赞，符尧很好地再现了LLaMa的结果，并指出了OpenLLM排行榜的问题。

与此同时，他还分享了关于OpenLLM排行榜的一些问题。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

首先，MMLU的结果：LLaMa 65B MMLU结果在排行榜上是15分，但对7B模型来说是一样的。13B、30B模型也存在较小的性能差距。

OpenLLM真的需要在公布哪个模型是最好的之前看看这个。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

基准：这些基准是如何选择的？

ARC 25 shot和Hellaswag 10 shot似乎与LLM并不特别相关。如果能在其中加入一些生成式基准就更好了。虽然生成式基准有其局限性，但它们仍然是有用的。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

单一平均分：将结果减少到单一分数总是很吸引人的，平均分是最容易的。

但在这种情况下，4个基准的平均值真的有用吗？在MMLU上获得1分和在HellaSwag上获得1分是一样的吗？

在LLM快速迭代的世界里，开发这样一个排行榜肯定有一定的价值。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

还有来自谷歌研究人员Lucas Beyer也发表了自己的观点，

疯狂的是，NLP研究人员对同一个基准有不同的理解，因此导致了完全不同的结果。同时，每当我的同事实现一个指标时，我都会立即问他们是否真的检查将官方代码的完美重现，如果没有，就放弃他们的结果。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

另外，他还表示，据我所知，无论模型如何，它实际上都不会重现原始基准测试的结果。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

网友附和道，这就是LLM基准的现实...

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

Falcon——开源、可商用、性能强

说到Falcon，其实值得我们再好好回顾一下。

按LeCun的说法，大模型时代，开源最重要。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

而在Meta的LLaMA代码遭泄之后，各路开发者都开始跃跃欲试。

Falcon正是由阿联酋阿布扎比的技术创新研究所（TII）开发的一支奇兵。

刚发布时从性能上看，Falcon比LLaMA的表现更好。

目前，「Falcon」有三个版本——1B、7B和40B。

TII表示，Falcon迄今为止最强大的开源语言模型。其最大的版本，Falcon 40B，拥有400亿参数，相对于拥有650亿参数的LLaMA来说，规模上还是小了一点。

不过，此前TII曾表示，别看咱Falcon规模虽小，性能却很能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为，「Falcon」的发布将打破LLM的获取方式，并让研究人员和创业者能够以此提出最具创新性的使用案例。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

FalconLM的两个版本，Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名，而Meta的LLaMA则位于第三。

而前文所讲的有关排行榜的问题也正是这个。

尽管「Falcon」的论文目前还没公开发布，但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员曾透露，「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是，LLM对训练数据的质量非常敏感，这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是，在过滤和去重的基础上从网络中提取高质量的内容。

目前，TII已经发布了精炼的网络数据集，这是一个经过精心过滤和去重的数据集。实践证明，非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手，甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

此外，Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语，并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后，第二个真正开源的模型。

另外，还有一点非常重要——Falcon是目前唯一的可以免费商用的开源模型。

在早期，TII要求，商业用途使用Falcon，如果产生了超过100万美元以上的可归因收入，将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止，所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示，现在暂时不需要通过这个模型挣钱。

而且，TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案，他们还会提供更多的「训练算力支持」，或者提供进一步的商业化机会。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

这简直就是在说：只要项目好，模型免费用！算力管够！钱不够我们还能给你凑！

对于初创企业来说，这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

根据开发团队称，FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后，保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练， 7B版本的模型训练token达到 1.5 万亿。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

（研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据）

此外，Falcon的训练成本相对来说更加可控。

TII称，与GPT-3相比，Falcon在只使用75%的训练计算预算的情况下，就实现了显著的性能提升。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

而且在推断（Inference）时只需要只需要20%的计算时间，成功实现了计算资源的高效利用。

以上就是击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞的详细内容，更多请关注其它相关文章！

# 出了 # 虚拟云主机建设网站 # 合肥光端机网站建设优化 # 简阳网站优化的关键词 # 随州网站包年推广公司 # 抖音seo关键词排名方案怎么做 # 上海旅游网站软文推广 # 宜兴市公司网站建设推广 # 牟平区品牌网站优化公司 # 汽车网站建设规划的内容 # 设备网站推广哪家便宜 # 这就是 # 模型 # 中东 # 丰田 # 中国科学院 # 的是 # 榜上 # 这一 # 开源 # 史上 # llama # hugging face # 排行

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-06-10

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。