大模型相关概念大语言模型

标签

预训练 Pre-training

预训练是大型语言模型训练流程的第一阶段，其目标是在大规模数据集上学习语言的通用表示。这个过程使模型能够捕捉语言的基本结构和模式，理解单词、短语和句子的语义，以及这些元素如何在不同的上下文中交互。预训练模型通常使用无监督或自监督的学习方法，这意味着它们不需要人工标记的训练数据。通过预训练，模型可以构建一个广泛的知识基础，这可以在之后的微调阶段针对特定任务进行优化。

预训练模型的一个典型例子是GPT（Generative Pre-trained Transformer），它使用了大量的文本数据进行预训练，以掌握语言生成的能力。此外，BERT（Bidirectional Encoder Representations from Transformers）通过预训练来更好地理解语言中的双向上下文关系。

预训练不仅仅是模型训练流程的起点，更是确保模型在各种语言处理任务上具备强大通用性和适应性的关键步骤。随着预训练技术的不断进步，我们可以期待模型在更多复杂任务上表现出色，如对话系统、自然语言理解、文本摘要等。

提示词 Prompt

零样本学习 Zero-shot Learning

零样本学习是指模型在没有接受过特定任务训练的情况下，仍然能够解决该任务。这种能力很大程度上依赖于模型在预训练阶段学习到的丰富知识和泛化能力。在实际应用中，零样本学习可以极大地提高模型的适用性，使其能够处理在训练时未曾见过的问题。

微调 Fine-tune

微调是在预训练的大模型基础上，通过对特定领域的数据进行额外训练，来增强模型在该领域的表现。这一过程可以显著提高模型在特定任务上的性能，如通过法律文本微调来优化法律咨询的准确性。

微调对应NLP的第三、四范式。NLP四大范式：

第一范式：非神经网络时代的完全监督学习（特征工程）。需要大量任务相关的训练数据，通过特征工程和算法，代表算法是朴素贝叶斯Naïve Bayes、支持向量机SVM、逻辑回归LR等；
第二范式：基于神经网络的完全监督学习（架构工程）。也需要大量任务相关的训练数据，通过深度学习方法，自动获取特征(表示学习)进行端到端分类学习；
第三范式：预训练，精调范式（目标工程）：当前使用比较多的预训练+微调范式，通过预训练的方式(比如掩码语言模型Masked Language Model)来学习海量的语言学知识，然后下游使用少量的任务相关的数据对预训练模型进行微调即可完成相关任务；
第四范式：预训练，提示，预测范式（Prompt工程）：当前进入了Prompt Learning提示学习的新范式，使用Few-shot或者Zero-shot即可完成下游任务。

嵌入 Embeddings

向量化嵌入是将单词、短语或文档转化为数值向量的过程。这些向量捕捉了语义信息，可以用于计算相似度，或作为深度学习模型的输入。它是现代NLP中的基石之一，是理解和生成语言的关键。
延展阅读：
《Vector Embeddings: From the Basics to Production》 https://partee.io/2022/08/11/vector-embeddings/

上下文学习 In-context Learning

上下文学习利用模型能够理解和使用上下文的能力。通过在输入中提供相关的背景信息，模型能够更准确地理解意图，并产生更贴切的响应。这种学习方式使得模型在没有额外微调的情况下也能适应新任务。

检索增强生成 RAG

Retrieval Augmented Generation 检索增强生成是一种混合方法，它结合了传统的信息检索和语言生成。模型在生成文本之前会查询一个外部知识库，以引入相关信息，这有助于生成更加准确和丰富的内容，减少误导性信息的产生，避免在模型内嵌知识不足时产生幻觉。

其它

多任务学习 Multi-task Learning
多任务学习是指在一个模型中同时训练多个相关任务，目的是让模型学会泛化，从一个任务中学到的知识能够帮助它在其他任务上表现得更好。在大模型训练中，多任务学习使得模型能够在不同的语言处理任务之间共享知识，提高模型的通用性和效率。

联合学习 Joint Learning
联合学习通常指的是在模型训练中同时进行嵌入学习和任务特定的学习。这种方法允许模型学习到更为精细的特征表示，并且可以在不同任务间更好地迁移和泛化。

参数效率 Parameter Efficiency
在大模型中，参数效率是指使用尽可能少的参数来达到良好的模型性能。这涉及到模型设计的优化，如使用共享权重、知识蒸馏等技术来减少模型的参数量，同时保持或提升模型的表现。

知识蒸馏 Knowledge Distillation
知识蒸馏是一种模型压缩技术，它通过训练一个小型模型（学生模型）来模仿一个大型模型（教师模型）的行为。通过这种方式，小型模型可以在保持较小体积的同时，学习到大型模型的知识和表现能力。