出品 | 搜狐科技 。前副清吐
作者 | 梁昌均 。总裁
国内大模型再陷“套壳”争议。贾扬阿里巴巴前副总裁 、槽国产闻名AI结构大牛贾扬清发朋友圈,模型慨叹做小公司不容易,李开露效期望国内企业要是应称有学便是开源的模型结构,不要做换名假装,习揭以免做剩余的套壳适配作业。
依据贾扬清的阿里朋友圈,他表明有某海外客户要其公司帮他们适配某国内大厂的前副清吐新模型 ,但后来有朋友奉告 ,总裁这个大厂新模型彻底便是贾扬LLaMA的架构,但为了表明不一致,把代码里边的姓名从LLaMA改成了他们的姓名,然后换了几个变量名 。此外,海外也有工程师直接指出了这一点 。
“咱们是小公司也不想开罪大佬们,姓名我就不说了,不过各位大佬 ,开源社区不容易 ,要是你们便是开源的模型结构,求高抬贵手就叫本来的姓名吧 ,以免咱们还做一堆作业就为了适配你们改姓名 。”贾扬清说。
前述音讯在业界传开后 ,国内不少依据开源的LLaMA的国产大模型纷繁躺枪 。但贾扬清所说的“大厂”到底是谁并不结论 ,他还特别声明到不是老东家阿里 。LLaMA是Meta在本年开源的系列大模型,参数包含13B 、65B等。
不过 ,业界的置疑目标指向刚发布首款预练习大模型Yi-34B的零一万物 ,其是李开复在本年7月入局AI大模型新建立的公司 ,由李开复牵头兴办并担任CEO 。
搜狐科技注意到 ,零一万物开源发布的Yi-34B模型现在在Hugging Face的Open LLM Leaderboard开源大言语模型排行榜排名榜首 。但此前有开发者在Hugging Face社区的Yi-34B项目讨论区留言称 ,除了两个张量被从头命名外(input_layernorm 和 post_attention_layernorm),Yi彻底运用了LLaMA的架构 。
“因此环绕LLaMA架构有很多的出资和东西,因此对张量运用相同的名称是有价值的 。开源社区肯定会从头发布Yi,并从头命名张量 ,以便有一个契合LLaMA架构的版别。咱们期望您能考虑在该模型取得很多选用之前,在您的官方模型中选用这一更改,以便它最终可以享用它应得的选用 。”该留言称 。
关于商场质疑,零一万物方面临搜狐科技回应称 ,GPT是一个业界公认的老练架构,LLaMA在GPT上做了总结 。零一万物研制大模型的结构设计依据GPT老练结构 ,学习了职业顶尖水平的揭露效果,因而大模型技术发展还在十分初期 ,与职业干流保持一致的结构,更有利于全体的适配与未来的迭代 。一起依据零一万物团队对模型和练习的了解做了很多作业 ,也在继续探究模型结构层面实质上的打破 。
零一万物还表明 ,模型结构仅是模型练习其间一部分。Yi 开源模型在其他方面的精力 ,例如数据工程、练习方法、baby sitting(练习进程监测)的技巧、hyperparameter设置