《科创板日报》11月19日讯(记者 毛明江 黄心怡 张洋洋 朱凌 )近5个小时,座无虚席!财联社“上海之巅 论道AI”大模型闭门会,近日在中国最高建筑上海中心105层会议厅圆满落幕。
闭门会由财联社TMT主编毛明江主持
在此次会议上,上海人工智能实验室、复旦大学、蚂蚁集团、百度集团等AI领军学者和互联网大厂核心高管在会上做主题演讲。国内外多家人工智能相关上市公司,商汤科技、云从科技、第四范式、浪潮信息、云天励飞、戴尔集团等高管参会。
国内20多家大模型相关新创企业和独角兽创始人及高管参与圆桌交流,包括面壁智能、西湖心辰、智谱AI、达观数据、心识宇宙、墨芯人工智能、OpenCSG、Dify.AI、蜜度、云知声、智子引擎、奇异摩尔、创新奇智、生数科技、恒生聚源、亿铸科技、考拉悠然等。另外还有金沙江创投、源码资本、红点中国等知名投资机构参会交流。
这次会议也是难得的业内交流机会
此外,国泰君安、华泰证券、民生证券、中金资本、上海文化产业发展投资基金、金砖银行、徐汇资本、中国外汇交易中心、上海金融数据港、敦鸿资产、桥麦资本、德必集团等第一时间联系参会并出席。
整个闭门会持续了近5个小时,现场座无虚席,气氛活跃。 “今天活动收获很大,大家交流开放坦诚,尤其圆桌讨论环节,发言嘉宾都是分享干货和行业心声,很精彩。” 一会参会代表会后表示。
圆桌环节参会嘉宾畅所欲言,交流碰撞
本次“上海之巅 论道AI”大模型闭门会,会议地点专设在位于陆家嘴的上海中心大厦105层——全世界建筑物内最高的会议厅举行,会议现场大模型业内的“大咖”云集,是一场真正意义上的AI大模型业内“巅峰”盛会。
那么,这场今年下半年国内“最高”层的大模型会议,都聊了啥?
▍被忽视的“工程能力”
“ChatGPT这样的大模型的出现,让一种模型去应对多种任务成为了可能。而要真正把大模型用好,需要强大的工程能力。此外,目前大模型的基础理论还不完备,需要更多的创新力。” 上海人工智能实验室主任助理乔宇教授在主题演讲中表示。
上海人工智能实验室主任助理、领军科学家乔宇做主题演讲
大模型的出现,被认为是开启了通用人工智能落地应用的窗口。在乔宇看来,之前人工智能都是针对特定的问题收集数据,训练一个特定的模型。
“比如语音识别、人脸识别,甚至下围棋和蛋白质结构预测,都是针对专用特定的一件事情训练一个模型。而ChatGPT这样的大模型的出现,可以有一种模型去应对多种任务。现在自然语言大部分任务都用GPT这样的模型可以很好地应对。不仅如此,有了多模态大模型后,视觉,甚至具身智能,与物理世界连接的很多任务,都可以靠一个模型来去做。” 乔宇说。
任何一个大模型背后依赖千卡、万卡的数量支持,乃至千亿甚至万亿参数规模的训练,而这需要很强的工程能力。
“当你拥有一个千卡级的集群,是一个蛮骄傲的事情。但是真正想把这个集群用好是蛮难的事。Meta此前做开源语言大模型,曾遇到过两个月内系统重启了30多次,大概平均一两天要重启一次,这个频度是非常高的。要把如此大的系统做好,是一项大工程。”
除了工程能力,乔宇还谈到,目前大模型的基础理论还不完备,需要更多的创新力。“几乎没有一个很好的理论,能够预测大模型所具备的能力。也没有很好的理论能够完全指挥大模型这么复杂、这么多参数的优化过程。”
▍TO B应用的三大挑战
“大模型对to B市场意义非常重大,它是一次智能引擎的升级。” 复旦大学教授、上海市数据科学重点实验室主任肖仰华的主题演讲,聚焦于大模型在百行千业的应用。
复旦大学教授、博士生导师肖仰华做主题演讲
他认为,现在很多行业真正解决不了的是跨系统、跨边界、跨层级、跨模块的问题,而大模型的跨学科认知能力,使得把这些问题可以交给大模型成为可能。
谈及大模型面向企业服务的机会时,肖仰华认为要重视以下三个方面:
一是大模型需要与现有企业流程无缝融合,需要与现有工具或接口的有效衔接;
二是大模型需要与员工、专家有效协同;
三是大模型需要领域知识注入,以解决“幻觉”问题。
在肖仰华看来,企业做决策需要非常丰富的专业知识,复杂的决策逻辑,宏观的研判能力、综合任务的拆解、严密精细的规划、复杂约束的取舍和未知事务的预见等等,而通用大模型在这些方面的应用还有待挖掘。
“大模型会一本正经地胡编乱造一些虚假事实,这种虚假的‘真实’产生的后果是极其严重的,譬如金融领域的投资、医疗方面的数据,一个小数点之差就有可能酿成大错。”
针对场景化的大模型,肖仰华认为,如财务、客服、HR等场景的大模型,往往只需要大模型的通识能力加上少量的岗位培训,即可胜任。“这实际上可能是变现最快的一种大模型,值得关注。”
▍要看到AI深“黑盒”面
作为互联网大厂分管技术的核心高管,蚂蚁集团CTO、平台技术事业群总裁何征宇在主题演讲中表示,大模型就像新世界的小火花,它是互联网大数据时代发展到一定阶段必然会迸发出来的产物。作为一个新世界的开端,大模型不是目的,甚至只是一个“钻木取火”般产生类人智能的手段。
“今天的人工智能的范式可能还是处于非常早期的阶段。就像‘日心说’和‘地心说’,当人类敢于把自己从中心位置挪开,认知的角度发生改变的时候,往往就是人类文明进步的开始。”
蚂蚁集团CTO何征宇做主题演讲
何征宇同样提到的AI大模型的“幻觉”问题。“人一本正经胡说八道的时候,自己是知道的。但是AI胡说八道的时候,它自己是不知道的。”
因此,他认为,要加强研究AI的安全与可信,重视大模型的风险与挑战:
第一是认知一致性对齐。为什么会有这个担心?因为AI的价值观可能跟人类的价值观从来就不可能对齐,目前看只靠大模型技术本身是不太可能实现这个目标的,除非有搜索增强或者知识图谱,甚至更多技术的帮助。
第二是决策白盒化。如果真的把大模型用到决策系统中,一定是要白盒化。例如,当你在做一笔支付的时候,如果被拒付了,你一定会打电话给客服了解为什么会拒付?如果只能告诉你这是大模型决策的,我相信一定会被投诉。所以大模型要真正用在决策场景,一定要有白盒化的能力。
第三是交流协同演进。市面上有各种通用大模型,但事实上各有特点。人类之所以能够发展到今天,不是因为一两个人的智慧,如何像人类社会一样集百家之长,取得突破进展?我认为需要协作。大模型之间如何能够更好的协作,不是说简单的从语料层面,或者是从API层面去打通,而是大模型之间能够有一个协同演进的机制。
▍华为AI芯片从“备选项”渐成“必选项”
做大模型,算力一直是一个核心讨论话题。伴随着美国最新一轮的封锁制裁,包括英伟达H800在内的芯片对国内出口都受到影响,大模型GPU国产化已成一个必选项。
此前,业界对于国产芯片的一个观点在于,与英伟达的A100等芯片相比还存在较大差距。但美国芯片限制升级以后,国内人工智能产业与大模型企业该何去何从?这个话题也是现场与会者们讨论最有感触的一个话题。
“陪华为走过的历程确实太痛苦了。”一位参会嘉宾在圆桌交流中直言,“现在(华为芯片性能)是到了还不错的阶段”。该嘉宾认为,未来国内大模型发展趋势将会朝着基础软硬件国产化方向发展。
“我们是非常坚定决定要用华为的。”在现场,另一位参会嘉宾从使用效果举了个例子。“公司技术团队最近告诉我,用华为昇腾910训练大模型时,对比英伟达的A800,测评下来发现华为芯片某些方面效果甚至更好。”他自言听到自己技术团队的这个评价“非常意外”。虽然相比之下华为的各种配套(生态和服务),还是存在不小的差距。
浪潮信息首席AI架构师张云龙认为,明年国内企业算力选择会更多元化。在发展大模型应用时,需要同时关注整个产业链生态变化,从上游芯片厂商、中间整机厂商、模型开发和终端客户的业务应用,做全链横向对比,对业务会有更大帮助。
浪潮信息首席AI架构师张云龙
▍应提升国内整体的算力利用率
关于大模型算力,商汤科技联合创始人陈宇恒则从AI基础设施的角度,谈到未来大模型对于基础设施的需求以及可能演进的路径。要达到更好的大模型效果,下一个阶段如何构建万卡乃至十万卡级超大规模的集群,以及面临大量网络的连接问题,是陈宇恒的关心所在。
商汤科技联合创始人陈宇恒
他认为,训练出来的模型无论是千卡规模、万卡规模,最终还是要做高推理的效率。此时,用分布式算力网络的方式是一个解法。
具体而言,人工智能大模型推理,如果用分布式算力网络均衡化的方法,在全国范围内、多数据中心范围内做更多的调度算力,这就可以解决一些大型的C端应用峰值调用,包括训练和推理混合调度等一系列工作,从而提升国内整体的算力利用率和水平。
陈宇恒以商汤科技的实践举例,商汤科技将以大模型推理为抓手,按照“大中心+小中心”的战略,把原先在各处建设的算力中心逐步使用起来。通过人工智能大模型新的应用场景,去推导出未来人工智能基础设施,甚至整个计算机、算力基础设施如何去建,来形成指导作用。
▍AI大模型要“解决客户的实际问题”
在圆桌交流环节,多位嘉宾提到了同样一个观点,那就是“大模型一定要落地” 。
中科院自动化所副研究员、武汉人工智能研究院算法总监吴凌翔发言中直言, “大模型一定要做产业落地”,但这不是为了做营收,而是在使用的过程中会发现还有很多的问题,从而更好去形成数据闭环。
中科院自动化所副研究员吴凌翔
考拉悠然CEO沈复民则提到一个概念,“人工智能不是一个赛道,到现在为止,人工智能还不是一个行业”。他的逻辑在于,人工智能技术一定要落到行业里才能产生价值,因此,大模型技术更需要考虑如何更好、更快落到行业里去。
作为一家创业公司的CEO,沈复民表示,在创业对接客户的过程中的体会包括:一是AI技术必须要对准行业客户需求,解决客户实际的问题;第二是传统AI技术或系统的开发成本非常高。这也就是导致过去AI技术落地时,没有办法高效进行复制。
沈复民认为,大模型不仅具备强大的知识压缩和逻辑推理能力,解决业务问题时,从一个场景复制到另外一个场景的泛化能力更强,迁移的成本相对而言更低。这也强有力的促进了人工智能更好、更快落地行业,实现产业化发展。
▍语言模型和视觉模型结合才更“能打”
对于如何让大模型更好地应用在业务里以及实际场景里去,云从科技联合创始人、研究院院长李继伟认为,从语言模型和视觉模型生成和感知两个层面上做结合,这样也能更快帮助大模型做落地。
云从科技联合创始人李继伟
李继伟在现场举了个例子,云从科技的长尾算法占到公司业务的30%以上,如果按照以前一个模型去处理一个场景的话,代码根本无法胜任。大模型时代之后,一个大模型就通过Next token的预测和训练,就会涌现出很多关联和推理的能力。云从科技希望借助于大语言模型的能力,把视觉语义的分析关联建立起来,推动大模型后续落地。
面壁智能CEO李大海提出,基于大模型的 Agent 技术是一个好的路径,类似于计算机科学里的时间换空间,让 AI 慢下来,通过反思、COT 等技术,整个水平就会与规模更大、训得更好的模型水平相当。除了上述技术之外,跟知识库的结合、调用工具的能力等技术的使用,可以 Agent 的能力边界得到进一步的扩展。
▍“当前对大模型的想象力还不够”
财联社CTO叶周在交流中表示,当前对大模型的想象力还不够。“ChatGPT这样的杀手级应用把大家对大模型思维定式固化在聊天上,微软的copilot把大模型用在生产工具环节,将其定位在助手。但作为拥有大模型技术的人类,想象力要跟得上生产力的提升,而不只是局限于此。”
叶周认为,大模型的出现,整体拉高了跨领域能力水平,同时其信息传递效率高得离谱。“我们如果用上一个时代的生产关系,比如产品经理、项目经理、前端开发、后端开发这样的人类角色,简单套用在大模型上,那就是用前朝的剑来斩本朝的官。可以说,我们的想象力还有很大的扩展空间。”
财联社技术研发负责人叶周
▍国内到底有没有原创大模型?
在对于大模型技术路线的讨论上,开放传神(OpenCSG)CEO陈冉在交流现场抛出“劲爆”性观点:中国目前缺乏真正的原创的大模型。
“我个人理解,中国在整个开源开放基础软件赛道就没有成功的商业模式,从操作系统,包括硬件、数据库、中间件没有一个做开源开放的基础软件公司IPO的,所以要谈单纯做大模型有没有一家IPO公司?我的答案是很难。” 陈冉认为,中国有广泛的应用,互联网成就了那么多的应用公司,在大模型应用领域会有生态型和平台型IPO的公司出现。
开放传神(OpenCSG)CEO陈冉
对于国内大模型有没有原创的问题,蚂蚁集团CTO、平台技术事业群总裁何征宇接过话题表示,“原创这个东西,要看怎么去理解。我觉得非原创也是可以的,而且后来者也有后来者的优势。”
他举了蚂蚁在研发大模型走过的路作为例子。 “我们并没有直接去抢时间,来复刻GPT的成功。我们当时调了很多卡同时并行测试不同模型结构、不同语料,测试涌现的东西在哪儿。我们开始走了很多弯路,都没有采用Transformer的架构。”
在何征宇看来,第一名已经做出来了,第二名有第二名的红利,因为“第二名不用试错了。”
吴凌翔则认为,中国是否有原创的大模型也跟基于国产软硬件的大模型紧密相关。“之前基于国产软硬件的大模型比较少,大家大多是基于英伟达的,彻底被限制之后才开始转向国产计算卡。”
▍OpenAI 正在让AI从toB走向toC
闭门会的前一天,正逢OpenAI开发者大会,这场“ AI 春晚”也是现场热议的话题。
面壁智能 CEO 李大海在分享中谈到, OpenAI 现在非常关注 Agent 这个方向。Agent 并非新概念,但有了大模型以后,基于大模型的 Agent,其实用性、想象空间都比以前大很多。”
“大语言模型更像是人脑子里的系统1,问一个问题它马上给回答。但是人的整个大脑结合在一起不是这样工作的,他有大脑、小脑和海马体去负责记忆,它有快系统、慢系统,这些综合在一起之后,才能形成一个人的综合行为。”
面壁智能 CEO 李大海
使用了 Agent 的相关技术,OpenAI 能够更方便开发者们进行二次开发,对生态的发展非常有好处。
面壁智能很早就在 Agent 方向进行了布局,开发了面壁智能自己的 "Agent 三架马车",既有很好的单体智能的应用,又有不错的多体智能的探索。
第四范式大模型总架构师袁徐磊说自己“很兴奋”,但“也很恐慌”。兴奋之处在于,自己和团队正在做的很多工作,在OpenAI这里得到了印证。恐慌之处在于,OpenAI的模型能力很强,它现在做的很多事情,是袁徐磊和团队正在做的。如今OpenAI已经卡位前排,国内的企业会不会被甩开?这个赛道国内会不会进去?袁徐磊说自己当天晚上一直在思考这个事情。
第四范式大模型总架构师袁徐磊
吴凌翔很多同事告诉她,他们当晚一个晚上没睡觉,激动、感慨等各种心理交织。她说,可以看到OpenAI正在让AI逐渐从2B走向2C,AI的门槛正在降低,玩家越来越多,从业者们也走得越来越快。她认为,AI产业落地和前沿探索是可以并行往前高速发展的道路。
▍算力、AIPC与AI安全
在本轮AI大模型热潮中,作为IT基础架构或者信息硬件的厂商的戴尔、联想等并没有袖手旁观。一位硬件厂商参会嘉宾在交流中表示:
许多硬件生成厂商并没有推出自己的大模型,也不会成为一个纯AI公司,许多计算机厂商更多还是从算力的角度来看这个问题。
一、企业对算力要求持续增长,正诞生出新的商业模式,叫算力租赁的模式。这样对于大模型初创公司,不需要一开始大规模投入资金来购买GPU和服务器,这是我们的新服务模式。
二、现在各大厂商都在酝酿推出一个AIPC 。明年会是AIPC上市最主要的一年,包括英特尔、联想等很多公司。AIPC是指在电脑里也可以用到大模型的功能,这涉及的技术是大模型要轻量化,要进行模型的裁减、量化,对参数进行减少,因为PC有计算的限制或者存储的限制,这种情况下如何对大模型进行裁减?这也是重点关注的。
三、信息安全。美国总统已发布行政指令,要推出零信任机制,对所有信息系统没有信任,要持续验证、持续认证,从以前的黑名单走成白名单,在AI系统里零信任机制也会得到应用。相信在将来中国也会推出类似的AI规范信息要求,这可能在未来也会是非常重要的方向。AI信息的安全,AI模型可控,这不是要不要做,而是必须要做的。
▍“脚踏实地与仰望星空”
生数科技CEO唐家渝分享了如何看待国内大模型现状以及落地问题。
生数科技CEO唐家渝
概括起来就是脚踏实地与仰望星空:
首先说脚踏实地。现在大模型领域,尤其是多模态大模型的发展还处于非常早期的阶段。比如GPT4的语义理解能力已经很强了,但在一些细分专业的问题上,类似于给一个产品取名字这种,其结果的可控性以及链接知识的能力还是弱一些的。
再比如图像生成中,用户通常需要不断修改描述词,才能生成符合预期的画面,而现阶段3D、视频生成的内容,可控性差的就更多。所以单从可控生成这个角度来说,大模型的发展就还有很长的路要走,更别说打造真正的多模态理解+综合性生成的智能体,其中存在的技术难点更多,例如如何解决多模态数据的统一表示、特征提取以及信息理解等。
但从技术发展趋势来看,多模态融合是人机交互未来的必然趋势。因此我们团队是非常坚定投入多模态大模型方向,并在底层做非常大的投入。这背后也主要依赖于我们核心成员来自清华大学,是国内最早从事生成式AI研究的团队之一。
其次是仰望星空。现阶段大模型的发展还处于早期,但不能说它是个小孩就只能任由他慢慢成长。我们是一家创业公司,面向未来需要有持续商业化的收入,来维持公司的长期发展,这个过程当中需要我们持续思考的事情就是如何将技术做产品化。
现阶段多模态大模型主要围绕生成的能力,最简单的就是各种内容创作,比如快速生成图像、3D、视频等,但未来可延伸做更多可交互式的体验,比如说像我们现在看剧,剧集内容都是固定的,是单向交互的,但未来依托多模态能力刷剧可能变成沉浸式的话剧一样,是可以实时交互的,剧情内容是可以个性化生成的。
但就像人类刚发现火的时候,很难想象未来会有火箭、烟花之类的东西出现,所以在大模型发展的过程中,如何打造出具有领先性、颠覆性的产品,除了持续推进技术能力的成熟,还需要我们打开想象力,让想象力走的更快一步。
另外从技术角度来说,我们也持续在想如何在保障技术产品领先的基础之上,通过算法、架构等方面的优化做到更小算力消耗,获得更大成本优势,这方面我们也做了非常多的工作。