大模型的由来可以追溯到20世纪的AI研究初期,当时的研究主要集中在逻辑推理和专家系统上。然而,这些方法受限于硬编码的知识和规则,难以处理自然语言的复杂性和多样性。2017年,谷歌推出的Transformer模型结构通过引入自注意力机制(self-attention),极大地提升了序列建模的能力,特别是在处理长距离依赖关系时的效率和准确性方面。此后,预训练语言模型(PLM)的理念逐渐成为主流。2022年11月,美国著名AI研究公司OpenAI发布旗下基于大语言模型GPT-3.5的AI聊天机器人程序ChatGPT。