
04 预训练模型:降低应用开发门槛
实际上AIGC并不是一个新的概念,早在几年之前AI领域便进行了内容生成方面的研究,但基本处于实验阶段,因为训练成本高、使用门槛高、生成内容的质量不够理想等方面的原因,无法推至大众面前。但预训练模型则使得AIGC相关产品获得了质的飞跃,它一方面能够克服此前模型的缺陷,满足不同的功能、场景和任务的需求;另一方面也能够有效提高AIGC的产业化程度。
深度学习模型的训练数据越多,模型的综合性能、稳健性、处理能力也会进一步提升。由此,模型训练的数据资源量成为提升市场竞争力的重要方面。但单纯的海量数据“投喂”不是真的技术创新,也不能完全解决深度学习模型所面临的问题。同时,大规模训练数据将带来更高的算力要求和成本投入,难以在现实场景中落地部署;海量数据也不等同于高质量数据,可能会对模型学习起到反作用,其收益和投入成本可能是不匹配的。
目前,人工智能机器学习领域已经出现了产业链分化的端倪。如果用学历来比喻模型的训练程度,那么初始模型的训练可能是从幼儿园开始,相对成熟的模型我们暂且定位到大学水平。模型的成长需要投入大量时间和资金成本,预训练是用以低成本获取的大规模数据来训练模型,使其成长为“大模型”——具备一定的通用能力或共性,这相当于高中水平;然后依据具体应用领域的需求,用该领域的特定标注数据对其进行定向训练和调整,使其成长到大学水平,真正投入应用。
预训练模型可以被复用且具有较强的扩展性,在很多领域都有出色表现。但目前的问题在于,大模型所带来的商业价值还无法补足训练大模型消耗的成本。怎样推动“大模型”向“大应用”转变,是业界亟须解决的问题。AIGC的技术进步,使大模型的商业化路径明朗起来。一方面,大模型企业可以为个人用户提供“按需定制”的服务;另一方面,随着云存储、云计算使用量的上升,可以构建起多种类型的盈利模式。在未来,AIGC将进一步推广,成为人们日常生活的重要组成部分;同时可以进一步与具体行业、领域、产业需求相结合,探索出一条能够持续创造价值的商业化路径。
预训练模型通常是指代预训练语言模型,即提前进行大规模数据训练以便后期根据具体应用需求进一步开发的语言模型。早期的预训练模型主要有Word2vec、GloVe和CoVe等,后来逐渐发展出自编码语言模型(Autoencoder Language Model)和自回归语言模型(Autoregressive Language Model)两大主要分支,前者包括Bert、ALBert、RoBERTa等,后者则包括ELMo、XLnet和GPT等。2018年后,随着GPT等模型的出现,“预训练语言模型”一词才真正普及开来,逐渐成为智能化产业普遍关注的话题。预训练受到广泛重视,意味着自然语言处理、机器学习进入了新的发展阶段。
ChatGPT的横空出世和备受热捧展示了AI技术所拥有的强大发展潜力,为自然语言处理(Natural Language Processing,NLP)技术的发展指明了方向。NLP是人工智能理解人类语言并生成正确语言的关键基础,包含自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generating,NLG)两个重要方面。要使相关模型输出正确的语句,就要对其进行大规模数据的训练。例如,OpenAI发布的开源模型GPT-3,其训练的参数量大约达到1750亿,而能像真人一样与人类互动聊天的机器人ChatGPT是在GPT-3.5的基础上产生的,除了聊天,还能够写视频脚本、邮件、代码等。
NLP作为研究人与计算机交互的重要学科,预训练语言模型的研究一直是此领域的重要基础。从以往此方面的研究成果来看,最具有代表性的预训练语言模型为Bert和GPT。由于Bert的语言模型基础为DAE[注],因此其具备较强的对语言进行上下文表征的能力,能够比较顺畅地理解语言,但却并不具备组织语言的能力,因此也就无法完成从理解到生成之间的连接。而GPT模型则克服了这一缺陷,这让ChatGPT在具备语言理解能力的同时也能够生成语言。