清博智能王欢：实时接入结构化数据的大语言模型是如何练成的？

《科创板日报》6月27日讯（记者徐赐豪） 今年以来，百度、360、阿里巴巴、科大讯飞等互联网巨头相继发布自己的通用大模型，俨然形成了“千模大战”局势。

此外，更多垂直行业企业也加入了这场“狂热”。日前，在中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上，清博智能科技有限公司发布了针对融媒体行业的首个实时接入全网结构化数据的大语言模型——“先问”。

本期《元宇宙之约》我们对话了清博智能技术副总裁王欢。其在大数据与AI领域有十多年的从业经验，其负责设计与研发的清博舆情平台服务数十万用户，并且在一站式自动机器学习平台、智能对话平台的构建与研发有丰富的实践经验。

他透露，先问核心团队有10多人，主要来自包括来自清华、中科大、合工大、华盛顿大学等国内外知名高校的技术人员。先问基于2000亿开源数据集、百万级专业人工数据集，具有数据可溯源、实时同步、可视化分析、多参数版本特点，同时支持用户本地化部署。

在他看来，从底层做个大模型有两个关键点：一个是算力，一个是数据质量；算力的大小直接限制参数的大小，数据的质量决定了模型的好坏。

我们注意到先问大模型提到数据可溯源，这个怎么来理解？

王欢：“先问”给了用户“溯源”的权利。对于AI给出的每一句回答，用户都可以单独查询它的来源。对于需要使用AI来产出正式内容的用户，这种方式虽然会多花些时间，但能核实真实度。

在模型回答问题的实时性上，先问跟ChatGPT的不同在哪里？

王欢：比如你问ChatGPT对于埃隆马斯克最近访华怎么看，因为它是基于2018年那次访问回答的，这个就不准确。当然ChatGPT可以基于插件来回答。

我们跟ChatGPT最大的差别是，我们的数据是结构化的。我知道哪些媒体的权重高，哪些媒体数据的质量更高。以及这些内容是否符合社会价值观，包括正负面信息都可以被筛选出来。底层数据都会根据我们制定的200多个数据标签分类好。

我们基于这些结构化的数据就可以很好召回用户想要的数据。然后再结合模型的能力，实时生成比较好的回答。这就是先问跟ChatGPT的最大不同。

结构化数据和非结构化数据有何不同？

王欢：非结构化数据，比如说你现在访问的网页，你只看正文部分它就是文本，它的内容就是原始正文。搜素引擎看的就是原始正文，给它训练的数据也是原始正文。

结构化数据不仅知道它的原始正文信息，还对这些信息做了结构化处理，包括发布提及的地域信息、文本分词信息、内容分类以及正负面；另外还有发布的作者信息，比如发布媒体的画像、权重等信息。这样你可以找回一些质量更高或者可信度更高的信息。

先问如何兼顾模型的回答与人类价值观相对齐两个问题？

王欢：第一，本身数据源就很重要，因为国内的数据源基本上都是经过“审核”符合社会价值观的。

第二，我们本身是结构化数据，对数据已经打了许多标签，对数据是有画像的。比如说人民日报、央视的数据内容肯定没有问题，没有依据的媒体的可能就不会被召回，这是数据层面。

第三，我们对模型本身做了一些无害训练，以避免它去回答这些违反价值观的提问，在“先问”平台上，我们也前置了有害问题检测模型，进一步防止模型被诱导输出有害内容。

如何理解多模态大模型？

王欢：现在“先问”可以回答的主要还是文本，但以后其实还有图像、视频、音频等回答模式。多模态的做法主要有两种：一种是大语言模型只做语言，能理解你的需求，比如你需要画一张画，可以调用模型给你生成，目前这种方式比较多；另外一种就是融合性，这种模型的数据本身既包含了文本，又包含图像、音频、视频，这种生成是端到端的模式。

做好大模型的关键在于算力和数据质量

清博智能是什么时候开始做大模型的？

王欢：在Transformer出来的时候我们就开始做生成式的语言模型了。因为我们内部也要写报告，几百人团队的人力成本比较高，我们就想机器来写。在ChatGPT火爆之前，我们尝试了很多模型，但是效果不太好，一个是数据的问题，一个就是训练方法不够好，参数也不够多，生成的报告可读性不高。

ChatGPT大模型出来以后，我们发现它擅长写文章，然后就采用这种模式，基于开源的基座模型结合自己的高质量报告数据，以及数据分析引擎，开发了“先问”，并且效果好了很多。

在做大模型过程中，你们团队遇到哪些难点？又是如何克服困难的？

王欢：一个是数据本身，因为是结构化数据，怎样召回这些数据是一个大的问题。我们要有自己的独特算法，让模型召回的数据质量更高。另外，它上下文的记忆长度是有限的，在有限长度之内给模型提供哪些数据，这是我们需要考虑的问题。此外就是如何让模型理解上下文，特别是在多轮交互方面是很难的。

为了攻克这些难点，我们除了做大模型外，也做了一些小模型。数据方面比如排序模型、指数模型等，基于这些小模型让召回的数据更加可靠。另外我们在大模型的基础上，结合大量人工标注的数据来训练模型对用户意图的理解能力，更好地理解用户的提问意图。

如果是100分制的话，“先问”可以达到七八十分，目前还在持续优化中。

回过头来看，做好大模型的关键点在哪里？

王欢：关键点有两个：一个就是算力的大小，一个就是数据质量的好坏。因为每家的底层算法其实都差不多。算力大小直接限制了参数的大小，数据的质量决定了模型的好坏。

对于做大模型来说，成本结构是怎样的？

王欢：百分之六、七‎十的成本花在算力上，人工、算法的成本比较低，其他成本就是数据标注与处理的成本，这个百分之二十左右。

训练基座模型的成本很高，它本身需要上万亿Token的量级的数据，这个数据集的构建成本很高。但是对于垂直企业来说，比如说只是做医疗业务的，它的基座模型别人已经训练好了，不用万亿的Token来训练模型，这个训练成本就低了很多。