很抱歉,当前没有启用javascript,网站无法正常访问。请开启以便继续访问。智谱AI CEO张鹏:大模型核心技术要坚持自主创新|AI领先者心声2024
智谱AI CEO张鹏:大模型核心技术要坚持自主创新|AI领先者心声2024
2024.01.04 17:39 科创板日报记者 张洋洋

《科创板日报》1月4日讯 (记者 张洋洋)ChatGPT的横空出世,带来2023年全球大模型热潮。在2024年新年之际,财联社、科创板日报邀请人工智能领军者与行业精英推出“2024·AI领先者心声”系列报道,回顾过去的一年,展望新的一年AI大模型发展的机遇与挑战。

AI大模型独角兽智谱AI的CEO张鹏向《科创板日报》记者表示:

在AI大模型核心技术方面要坚持自主创新,这是“买不来,求不来”的。在商业化方面,要打造分层生态圈,联手踏实落地,避免“重复造轮子”的内耗。

展望2024年,要想实现大模型发展的新高度,需要整个生态携手,寻找新的可能,从而实现真正的突围。

image

张鹏的“2024·AI领先者心声”全文如下:

首先,在核心技术方面要坚持自主创新,这是“买不来,求不来”的。

国产大模型要实现自己的创新,就不能单纯复制世界顶尖水平的技术路径。从技术发展上来看,早期预训练模型有几个类型,比如GPT、BERT还有T5,每个训练框架都有适合的某些任务和场景。在早期,BERT的效果比GPT-1和GPT-2更好,直到参数规模更大的GPT-3出现。它开启了基础模型发展的新时代,其在语言生成、上下文学习和知识(常识)理解等方面展现出惊人能力。但我们从2020年底,选择了从0到1研发GLM预训练架构。

当时选择该路径的原因,是希望把不同预训练模型的优势组合到一起,还有一个更重要的原因是,当时中国没有自己的预训练模型框架。如今,从数据到训练集群运维再到核心算法,智谱AI都实现了完全的自研,我们也将它视为智谱大模型弯道超车的起点。

实现国产大模型的突围,就要正视国产大模型与国际领先水平的差距,也要有信心去追赶甚至超越。在我们眼里,GPT-4只是一个阶段性的成果,它不是我们的终极目标。我们的终极目标和Open AI很接近,那就是实现通用人工智能。所以在很多选择上,我们第一步就是虚心学习。他们做了很多创新,如果我们觉得有道理的,也要想办法去实现。比如前段时间我们瞄向GPT-4V实现的技术升级,包括:多模态理解能力的CogVLM、代码增强模块Code Interpreter、网络搜索增强WebGLM等。国产大模型与国外大模型之间的差距依然存在,但我们也一直在不断创新的路上。

在商业化方面,要打造分层生态圈,联手踏实落地,避免”重复造轮子”的内耗。

如今,中国大模型赛道正在从拥挤走向分层。大部分技术进步大抵如此:新技术产生,大家一拥而上;当技术发展到一定程度,自然而然地会沉淀,会分层——有些人解决底层的问题,有些人解决中间的问题,有些人解决上层的问题——这是自然而然形成的,会变成相对稳固而不是混乱的生态,大家互相促进。

我们希望做的,就是能用通用智能水平比较高的模型去赋能大家,让大家去做行业应用。所谓行业模型、通用模型之间的差别和关系到底是什么?我更愿意接受一种说法,就是L0层(指基础模型)、L1层(指行业模型)和L2层(面向更加细分场景的推理模型)。三者并不独立,行业模型(L1)和细分场景的推理模型(L2)理论上来说应该是基于通用模型(L0)增强出来的。

基于此,我们也提出了大模型行业内的首个合作伙伴计划,面向生态开放商业合作资源和底层技术能力,与全球顶尖合作伙伴共建千行百业大模型,打造产业智能新生态。我们做好L0的层面,赋能伙伴和客户做好L1和L2。

我们认为,国产大模型就是要依靠“做更适合中国企业的大模型”这样强强联手的方式来实现突围。自2022年初,GLM系列模型已支持在昇腾、神威超算、海光DCU架构上进行大规模预训练和推理,当前已支持10余种国产硬件生态,包括昇腾、神威超算、海光DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。通过与国产芯片企业的联合创新,性能不断优化,期待有一天国产原生大模型与国产芯片能够在国际舞台上闪光。

最后,要打造开发者生态,通过开源社区和人才培养,实现行业可持续发展。

我们一直很重视开源和开发者生态,因为这是保证一项技术的多样性和可持续发展的重要源泉。

2022年8月,我们开源了1300亿参数规模的双语预训练模型GLM-130B,收到了70余个国家1000余个研究机构的使用需求;今年3月,我们打造了千亿基座的对话模型ChatGLM,并开源单卡版模型ChatGLM-6B。截至今天,我们的开源模型全球下载已超千万、连续四周趋势排行第一。为赋能开源社区的发展ChatGLM-6B和ChatGLM2-6B权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。

在学术生态方面,我们与CCF和各大高校合作,设立首届CCF-智谱大模型基金、全国师范院校新闻传播专业大模型研究计划、并赞助ICLR、WWW、KDD、ISWC、NeurIPS等国际学术会议,支持产学研生态,资助大模型领域的学术研究。

智谱AI也组织了ChatGLM 实践大赛(学术应用篇)、ChatGLM金融大模型挑战赛、智谱清言Prompt优化会盟之旅,并合作主办了AGI Playground Hackathon,为大模型在具体场景中的深入应用探索更多可能性,鼓励创新开发和对大模型生产力工具的全新想象。这都是我们的一些尝试和努力。

展望2024年,要想实现大模型发展的新高度,需要整个生态携手,寻找新的可能。我们的注意力不能只放在市场中已知的这些“钉子”上,要去想有没有可能产生新的定位。其实想想,锤子除了能用来把原来钉子砸一遍以外,其实还有一个可能性:用来砸墙,砸天花板。砸出来的窟窿,你会看到更多的空间,更多的钉子,从而实现真正的突围之路。

我们对2024年充满信心。

1.44W+特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。