GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
机器之心报道
编辑:吴昕
George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。
「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
【资料图】
不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」
实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。
虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。
乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。
「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。
为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。
还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。
关键词:
相关阅读
-
GPT-4是8x2200亿参数的混合模型?这个小...
在采访中,他谈到了GPT-4,称GPT-4其实是一个混合模型。具体来说,它采 -
新疆电力开发AI语音助理 为基层员工配...
(左军辉 池俊)“有了‘疆电小智’,动动嘴就能输入查询信息,几 -
【热闻】全力冲刺节点目标,河南又一高...
【大河财立方记者陈诗昂】为全力冲刺项目6月30日主线通车目标,近段时 -
全球微头条丨佩斯科夫:俄方认为目前不...
【佩斯科夫:俄方认为目前不具备延长黑海港口农产品外运协议的前提条件 -
2023粤港澳车展:问界M5智驾版全国首批交付
2023粤港澳大湾区车展中,问界M5智驾版开启全国首批交付,是业界首个同 -
英国政府债务62年来首次超过GDP_天天最新
6月21日电,英国《金融时报》消息,英国债务与国内生产总值(GDP)之比 -
环球速看:无锡振华:拟以5000万元-1亿...
金融界6月21日消息无锡振华公告,拟以5000万元-1亿元回购股份,回购价 -
甄知科技获数千万融资、「领慧立芯」获...
已于近期完成数千万元天使轮融资,投资方包括了西交一八九六资本、君腾 -
当前聚焦:借股减持后,道通科技大股东...
就在行业中对于李红京和李宏的骚操作是否刻意规避监管规定还没有定论的 -
宋威
1、宋威,男,1980年生。2、2008年1月于北京科技大学计算机应用技术专 -
昉字怎么读_昉|当前关注
1、昀yún中文解释-英文翻译昀的中文解释以下结果由汉典提供词典解释部 -
AIGC“改造”影视业,是炒概念吗? 世界动态
“谁AI概念讲得好,谁家股票就涨得好。” -
国家新闻出版署:6月共89款游戏获批,中...
金融界6月21日消息国家新闻出版署发布6月国产网络游戏审批信息,共89款 -
每日观察!东京全力少女分集剧情_东京全...
1、中岛美雪(NakajimaMiyuki),1952年2月23日出生于日本北海道札幌市 -
热点聚焦:北京海淀区中关村街道举行京...
6月20日,“万水千山粽是情”京港社区大联欢的现场气氛热烈,通过秀... -
海口市区两级法院公开宣判4起毒品犯罪案
商报全媒体讯(椰网 海拔新闻记者柯育超通讯员任玥文)6月21日,在省委 -
【环球财经】英国5月CPI同比上涨8.7%
英国国家统计局21日发布的数据显示,英国5月消费者价格指数(CPI)同比 -
我国成功发射试验二十五号卫星_每日速递
北京时间2023年6月20日11时18分,我国在太原卫星发射中心使用长征六号 -
2023苏州工业园区新馨花园幼儿园招聘保...
招聘岗位:保育员1 招聘人数:5人2 应聘条件(1)女性,50周岁以下,高中 -
半导体板块跌3.07% 晶赛科技涨29.97%居...
半导体板块跌3 07%晶赛科技涨29 97%居首---中国经济网北京6月21日讯今