清华系学霸,追赶OpenAI
作者: 21财经 日期:2023-12-15 13:39 阅读:0 来源:21财经
据21财经报道,从张鹏办公室的窗户向外望,一眼就能看到对面的东升大厦,那是智谱AI初创团队从清华实验室出来后,最早的办公地。
智谱AI成立于2019年,从当初的30人左右,扩大到现在的400余人。
滚雪球般增长的,还有它的名气,以及超高的融资额。
今年公司累计获得超25亿元融资,投资机构包括社保基金中关村自主创新专项基金,以及美团、蚂蚁、腾讯、阿里等。
智谱AI集结了一帮技术大牛。
CEO张鹏毕业于清华大学计算机系,董事长刘德兵是中国工程院高文院士弟子,总裁王绍兰为清华创新领军博士。
这支学院派出身的团队最新推出的全自研第三代基座大模型ChatGLM3系列产品,多模态能力逼近GPT-4。
由此,它成为国内唯一对标OpenAI全线产品线的大模型创业公司。
“我们的目标,是尽快追平现有GPT-4的能力。”张鹏向《21CBR》记者表示。
以下是他的自述(经编辑整理)。
脱胎清华
智谱AI是从清华走出来的创业公司。
90年代,清华计算机系成立了知识工程研究室,致力于知识工程理论、方法和应用研究,属于人工智能领域的一个分支。
人工智能本身是门实践性科学,讲究理论和工程落地结合。本世纪初,我们开始把数据挖掘、机器学习等相关研究,落地为产品,推出AMiner系统,做科研情报挖掘。
之后,实验室做了一些落地尝试,直到2019年,智谱AI成立,团队走出实验室,做产业转化。
我一毕业就留在实验室工作,公司成立后,连同团队其他成员一起过来。
整个团队三十来人,大家共事时间久,有的相处将近10年。无论是团队磨合,还是应用转化,从学校到公司的过渡,都非常平滑。刚成立半年时,大家感觉跟在学校里没有大差别。
大的技术路线,早在公司孵化时,就想清楚了。
大家焦虑的是,“AI四小龙”已经把上一代人工智能技术落地的路径,“蹚”得差不多,下一代突破口在哪?
我们逐渐理清一个方向:要从感知智能,走向认知智能。
自2016年起,团队定下认知智能的发展框架,数据和知识双轮驱动,从那时到现在,基本在这一框架下探索,只是各阶段侧重点不同。
2020年,Open AI发布参数规模达到1750亿的GPT-3模型。
我们意识到,人工智能的突破,有了新可能,原来暴力“堆量”,堆到一定程度是会出现拐点的。预训练语言模型的参数量被放大以后,会有“智能涌现”,而不只是能力的线性增长。
GPT-3的发布节点,恰逢智谱成立一周年。公司内经过几轮讨论,跟张钹院士等清华老师,也做了很多探讨。
在大框架不变的前提下,预训练大模型的发展,沿着数据驱动这条路,往前跨了一大步。
我们果断围绕这个方向转,投入到超大规模预训练模型的研发中。
摸索方向
市面上主流的几种预训练框架,BERT、GPT和T5,都来自国外公司。
不同的训练框架,在不同维度上,擅长的能力不同,各自有适合的任务和场景。
把它们各自的优点结合起来,泛化出更多能力,是我们自研GLM预训练架构的出发点。
在许多具有百万参数甚至更少训练步骤的基准测试中,GLM在自然语言理解方面,实现比BERT和T5更好的性能。这给了我们信心。
基于GLM框架,开发百亿参数的稠密模型以后,我们用了一些其他模型架构,比如MoE(Mixture of Experts),用“稀疏化”方法,成功训练出了一个万亿参数模型。
这个“万亿”模型,实际效果没有想象中那么好。
GPT-3的出现,给了我们启发,要坚定走研发稠密基座模型的路。
2021年,团队开始训练千亿参数模型GLM-130B。国内当时做这块的少,海外可借鉴的有限,OpenAI没有公开技术细节,大家不知道怎么复现,也不确定门槛有多高。
我们花了大约半年时间做前期筹备,进行调研、设计、实验和调试,做各种工程实验。因为准备充分,训练GLM-130B,实际只花了两个月。
同百亿参数模型的成本相比,训练一个千亿模型,不是简单的乘以10倍。
最开始融资的时候,我们和投资人聊,需要把大模型的方方面面解释得非常清楚。ChatGPT火起来后,算是给所有人上了一课。
去年底,投资圈就敏锐地捕捉到了讯号。过完春节,ChatGPT掀起讨论热潮,大家对大模型的态度,跟之前比有180度的大掉头。
热度最高的时候,我们一天要接待两三波投资人。
投资人普遍认可智谱的是三点:
切入赛道早,对大模型的认知深刻;所有核心技术,智谱全自研,底层的逻辑靠自己摸索出来;懂国内的To B市场,知道用什么样的产品去做B端的商业化。
团队里,工程师、研究员长期一起工作,这让转换到产品的过程很快,而后快速上线。
公司成立之初,我们就是带着技术和客户入场的,早期做科研情报挖掘等产品,商业化落地做得不错。
全线对齐
今年无论是团队扩张、融资规模还是商业化落地,智谱都在提速。
公司的产品矩阵主要划分为三层。
第一层是包括ChatGLM等在内的基础模型;第二层是工具平台供应链,提供标准化组件,可以产品化来提供服务;再往上是应用层,如数字人、科技情报等产品。
迭代频率上,公司每3-6个月更新一代大模型。最新版本是10月推出的第三代基座大模型ChatGLM3。
评测显示,与ChatGLM二代模型相比,在44个中英文公开数据集测试中,ChatGLM3在国内同尺寸模型中排名前列。
ChatGLM3最大的一个亮点,是智谱的模型能力与OpenAI实现了全线对齐,包括基座模型、语言模型、跨模态模型以及代码解释器等能力象限。
商业模式方面,To B和To C两条线都有,更侧重B端。
C端产品免费,主要包括生成式AI助手“智谱清言”,8月上线,为首批对外开放的大模型之一。
B端的付费主要是三种,API调用、私有化部署以及介于两者之间的云端私有化方案,分别对应不同规模企业的需求。
公司重点布局的行业,包括互联网、金融、教育等。
客户采用大模型后的效果,得落到具体业务里验证,这需要时间,但大家有信心。举个例子,帮程序员写代码的模型产品,平均工作效率至少提升30%。
关于通用大模型和垂直行业大模型,智谱的思考,一直是加码基座大模型。
所谓的行业大模型,不是个独立的事物,跟通用模型不是平行的关系。一个模型,通用能力不够强,但专业能力很强,这恐怕不太可能。无论哪个行业,专有知识其实都建立在基础知识之上。
对标OpenAI,我们期望尽快实现技术追赶,团队有一个动态调整的时间表。接下来,我们会实现技术+商业化落地,两条腿交替跑步前进。
智谱还做了很多跟生态相关的事情,积极建设开源生态。做大模型,需要举行业之力。
有一道物理题:一个金属圆环加热以后,它的内径会变大还是变小?答案是变大。内部力量,会推动整体势能向外走。
我希望大模型的生态圈也能像圆环一样,一股劲一把火烧起来,大家协力,把生存空间做大。
版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
- 北京调整优化购房政策:首套房首付比例降至3成、二套房4成
- 中国商务部回应11月外贸形势:年内对美出口首次实现转正 全年外贸有望实现正增长
- 电商节降温后的消费:追求性价比与情绪体验并存
- 140亿买来的美赞臣,女掌门走到台前
- 热搜爆了!董明珠怒斥孟羽童
- 周海媚病历遭泄露 北京警方行拘一名医院职工
- 陷“小作文”争议 东方甄选股价三天跌近20%
- 香港国安处再发百万元悬赏通缉五名海外港人
- 强寒潮席卷中国大片地区 电力供应面临考验
- 北京地铁车厢脱节 30余人受伤
· 请您文明上网、理性发言
· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任
· 您的留言只代表个人意见,不代表本站立场
· 天维网拥有管理笔名和留言的一切权利
· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用
· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容
· 参与本留言即表明您已经阅读并接受上述条款
查看所有评论 共( 条)