达观数据创始人陈运文：训练数据是未来的核心竞争力|AI领先者心声2024

《科创板日报》1月5日讯（记者黄心怡）ChatGPT的横空出世，带来2023年全球大模型热潮。在2024年新年之际，财联社、《科创板日报》联合上海市人工智能行业协会，邀请人工智能领军者与行业精英推出“2024·AI领先者心声”系列报道，回顾过去的一年，展望新的一年AI大模型发展的机遇与挑战。

达观数据创始人兼CEO陈运文向《科创板日报》表示：

文字作为人类历史的重要组成部分，经历了发明、提炼知识、走向智能三个阶段。其中，提炼知识的能力（即知识管理），是核心能力，这也是如今以ChatGPT为代表的大模型LLM（Large Language Model）成功的精髓。

10年内AI将能代替90%以上的日常办公工作，大幅提升社会效率，帮助企业更有效地整合、存储和共享知识资源，加速企业治理创新。企业的目标是利用AI来解决问题，而不是单纯地和AI结合。因此，企业需要思考如何让人和机器更好地协作，且以解决问题为出发点。

陈运文“2024·AI领先者心声”全文如下：

2023年当ChatGPT风靡全球时，对于我们这个专注于文档智能化处理与大数据挖掘的一家科技公司而言，一场漫长而艰苦的“拉锯战”开始了：要做自主研发版的大语言模型。

早在6年前OpenAI就发布了第一代GPT技术，那时除了学术圈，社会大众少有关注。直至去年11月底ChatGPT正式发布，才像一块石头砸入水中，激起浪花无数。短短数年时间，技术迭代以光速般跨越，撬动整个社会与行业的变革。

尽管作出了自主研发的决定，首先要做足的是心理建设——从哪里入手才能尽快追赶同行脚步？开弓没有回头箭，咬着牙也得上。这一路都是“黑夜独行”。海外同行没有公布GPT训练过程的工程细节和参数方法这类核心要素，大模型优异的效果隐藏在诸多技术细节里。为了给团队更多知识补给，我们向复旦大学计算机科学技术学院的教授们请教，翻阅了许多业界顶尖论文和技术报告。每周技术团队都在反复讨论技术方案，开展各种交流研讨，逐字逐句探究“核心指南”。同时，硬件试验设备也得跟上。

由于大语言模型需要消耗大量的算力与海量的数据，采购了一批高性能的科学运算GPU（图形处理器）。这确实是相当大的技术投入，但为了加速国产模型的研发还是非常值得的。除了作为人工智能基础设施的算力平台，大模型的训练还需要巨大规模的训练数据。数据好比智能时代的“石油”。

投入了非常大精力来积累和提炼文本数据，源源不断地投入模型的训练——这些数据规模比一所大学图书馆所有藏书量都要大得多。研发团队每天都在绞尽脑汁攻克技术难关。训练过程中，有监督的精调技术十分关键，提示词的设计也有技巧。尝试了上百次各种有监督精调技术的试验，与各类数据蒸馏加工的技巧，逐步摸索出了一个有效的大语言模型蒸馏和精调方法。测试效果很好，我们越来越有信心。

年初至今，一直在思考垂直场景下大模型的落地产品。不同于ChatGPT的通用模型，我们选择面向垂直行业的企业客户来开发文档资料处理系统，实现模型的本地化部署，让模型具备更高的可靠性、安全性与准确性，由此更符合市场需求。就连产品取名也费了些脑筋，大家在90多个候选名字中最终挑选了“曹植”这个独特的名字，因为曹植有“七步成诗”的美名，希望我们的系统也能流畅地创作写作，源源不断生成内容。

我们的目标是今年6月底发布正式版本。现在团队每天都很紧张，日拱一卒，还有无数技术“鸿沟”等着翻越——只有对质量细节“吹毛求疵”才能让产品更精致。创新创业生涯中这次的挑战很苦很累，但相信这会带来中国文档智能处理方面的重要突破。公司的每一个会议室都是以计算机算法来命名的，等到“曹植”这一产品亮相后，将会用新的核心算法名称挂在会议室门口，以记住这段与时间赛跑的日子。

2015年，创办达观数据时，中国的科技创投行业已经非常蓬勃，对我们这些创业者来说，资金已然不是最主要的门槛，专业背景、技术实力、产业经验和资源，决定着我们这样的初创企业能否做深、做专、做精。这也是达观选择在张江研发国产版“GPT”的原因：“上海、包括张江有很多优秀人才，我们最重要、最宝贵的资产就是我们优秀的工程师。另外我们这边有以前在金融、制造等领域做得非常优秀的业务人员，把他们之前很多年积累的业务知识变成我们人工智能专业能力的一部分。

在To B行业化中，一个主要问题是监管难度的提高。在To C端，也要面对备案等法规要求。虽然达观曹植大模型面向垂直行业专属客户，但依然通过了第三批生成式人工智能（大语言模型）上线备案，以确保合规。传统互联网时代，能够以相对容易的方式审核文本内容，及时发现和处理一些涉及意识形态等有问题的内容。但是，大模型让监管难度显著增加。

因此，在落地过程中，如何进行有效监管成为一个亟待解决的问题。否则会面临滥用、不当使用或者其他潜在的法律问题。在解决监管问题的同时，还需要思考如何让更多的人从大模型的应用中受益。一言以蔽之，如何保证合理监管和推动社会效益之间的平衡是一个全行业都需要认真思考和解决的关键问题。

我们要达成以下两点共识：首先，未来可能只有少数几家厂商具备高质量的提供底层通用大模型的能力，而垂直大模型和其产业化应用将迎来非常多的机会和竞争。未来企业内部，可能会同时将多个大模型结合起来，一起来去解决企业内部的各种问题。其次，企业的目标是利用AI来解决问题，而不是单纯地和AI结合。因此，企业需要思考如何让人和机器更好地协作，且以解决问题为出发点。不是为了用大模型而追捧大模型。

文字作为人类历史的重要组成部分，经历了发明、提炼知识、走向智能三个阶段。其中，提炼知识的能力（即知识管理），是核心能力，这也是如今以ChatGPT为代表的大模型LLM（Large Language Model）成功的精髓。其本质上是对大规模知识的有效提炼学习，并形成强大的文字语义理解能力。

针对其他应用场景未来还会出现更多的X-GPT系统，甚至更多其他的LLM语言模型，其他行业也将逐步落地应用大模型创造自动化脑力工作的系统。未来，智能知识管理行业将会发展为包含巨大机会的全新市场，未来办公形态也会随之发生巨变。

10年内AI将能代替90%以上的日常办公工作，大幅提升社会效率，帮助企业更有效地整合、存储和共享知识资源，加速企业治理创新。在语言模型与企业经营管理的深度结合下，各类办公自动化场景发生巨大转变，实现自动阅读（文档自动审核、数据自动查验、知识自动挖掘），以及自动写作（报告自动撰写、文章自动起草、意见自动归纳）。

不仅如此，基于每个企业的知识库，企业能够打造自己专属的“知识大脑”，通过大模型充分与专业性长文本写作结合，认真打磨出针对每个企业自己的专用文本处理系统，开启企业智慧知识管理新篇章。

目前，大模型仍存在两大缺陷：一是真实性和准确性不足，模型无法保证回复结果的真实性，存在虚假信息，也可能会给出错误的结果。二是模型有偏向性，存在服务合规性问题。事实（Facts）是客观的，观点（Opinion）是主观的，但是两者在文本中往往总是杂糅在一起的，因此如果使用具有各自“”观点〞的文本训练后，相应的系统也会有各自不同的“三观”，给出不同的观点甚至出现偏见。大模型并非是客观和中立的，其结果严重依赖于训练数据本身的偏向性，所以采纳其答案时需要注意。

此外，参数规模大只表明系统承载的知识可以更多，但并不一定代表模型更智能，因为训练数据规模、训练策路好坏、超参数配置等都对模型有更大的影响。训练数据是未来的核心竞争力。论文、报告、新闻、书籍等各类文档资料是主要的训练数据，通过特定渠道收集“喂给”模型，模型通过这些文档资料的阅读和建模来吸收知识，高质量的数据会成为最核心的竞争力。