一、生成式AI和LLM #
1.生成式AI是什么? #
人工智能(AI)是一个广泛的领域,指的是让计算机或机器能够执行通常需要人类智能才能完成的任务。我们一般讲的AI指的是生成式AI,它是人工智能的一个分支。
生成式人工智能 (AI) 是一种深度学习模型,可以根据提示生成文本、图像、计算机代码和视听内容。
通俗的讲,它是一种能够"创造"新内容的人工智能技术。它就像一个会创作的机器,可以:
- 写文章、诗歌或故事
- 创作音乐
- 生成图像或视频
- 编写代码
- 回答问题和进行对话
2.LLM (大型语言模型) 是什么? #
LLM是"Large Language Model"的缩写,中文称为"大型语言模型"。它是生成式AI的一种特定类型,专门处理和生成文本。
我们常说的DeepSeek-V3、DeepSeek-R1、ChatGPT,都是LLM的具体实例,是LLM的不同实现方式。
二、相关概念了解 #
1.对话模型 #
对话模型就是最常见的聊天模型、文生文模型。
模型举例:
| 模型 | 厂商 |
|---|---|
| DeepSeek-V3/deepseek-chat | 深度求索 |
| Qwen2.5 | 阿里 |
| GPT-4 | OpenAI |
| Claude | Anthropic |
| Gemini |
2.推理模型 #
推理模型是一种专门设计用于执行复杂推理任务的大型语言模型 (LLM)。与传统的 LLM 相比,推理模型不仅仅是基于统计概率生成下一个单词,而是会分解问题,并通过类似人类的“思维链”(即模型在给出正式回答之前的思考过程)过程来得出更准确的答案。
模型举例:
| 模型 | 厂商 |
|---|---|
| DeepSeek-R1/deepseek-reasoner | 深度求索 |
| Qwen3 | 阿里 |
| O3 | OpenAI |
| Claude 3.7 Sonnet | Anthropic |
| Gemini 2.5 Flash |
3.多模态模型 #
多模态是从输入和输出数据类型维度划分的分类,一个多模态模型可以同时具备文本处理、图像生成、音频生成等多种类型的信息的模型。
模型举例:
| 模型 | 厂商 | 核心功能 | 模态交互 |
|---|---|---|---|
| Qwen2.5-VL | 阿里 | 文本/图像生成 | 文本/图像→图像(生成+编辑) |
| GPT-4o | OpenAI | 通用模型 | 图像/视频→文本(识别) |
| DALL·E 3 | OpenAI | 根据文本生成高质量图像 | 文本→图像(生成) |
| Whisper | OpenAI | 语音转文本(支持多语言) | 音频→文本(识别) |
| Stable Diffusion | Stability AI | 文本/图像生成或编辑图片 | 文本/图像→图像(生成+编辑) |
| VALL-E | Microsoft | 文本生成逼真语音(少量样本克隆音色) | 文本→音频(生成) |
| Imagen 3 | 文本/图像生成 | 文本→图像(生成) |
4.函数调用(Function Calling) #
**Function Calling **让模型能够调用外部工具(Tool),来增强自身能力。
比如借助外部工具,让模型能够帮你查询天气。
拥有函数调用的常见模型:
| 模型 | 厂商 |
|---|---|
| DeepSeek-V3/DeepSeek-R1 | 深度求索 |
| Qwen2.5 | 阿里 |
| O3/GPT4 | OpenAI |
| Claude3 | Anthropic |
| Gemini-2.5/Gemini-2 |
5.FIM 补全 #
在 FIM (Fill In the Middle) 补全,用户提供希望输入的前后内容,模型来补全中间的内容,典型用于代码补全、文本中间内容补全等场景中。
模型举例:
| 模型 | 厂商 |
|---|---|
| deepseek-chat | 深度求索 |
| Qwen2.5-Coder-32B-Instruct | 阿里 |
| Codex | OpenAI |
6.模型参数 #
6.1 Token #
token 是模型用来表示自然语言文本的基本单位,也是我们的计费单元,可以直观的理解为“字”或“词”;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。
一般情况下模型中 token 和字数的换算比例大致如下:
- 1 个英文字符 ≈ 0.3 个 token。
- 1 个中文字符 ≈ 0.6 个 token。
但因为不同模型的分词不同,所以换算比例也存在差异,每一次实际处理 token 数量以模型返回为准。
token成本计算一般如下:
$$\text{总成本} = (\text{输入Token数} \times \text{输入Token单价}) + (\text{输出Token数} \times \text{输出Token单价})$$6.2 模型温度(Temperature) #
模型生成文本的随机程度。值越大,回复内容越赋有多样性、创造性、随机性。
7.嵌入模型(Embedding) #
Embedding(嵌入)在机器学习和自然语言处理领域中是一个常见的概念,通常指的是将数据映射到一个低维度的向量空间的过程。
当我们需要训练自己的知识库的时候,就需要嵌入模型可帮我们将问题和知识库中的文档都转换为嵌入向量,捕捉文本的语义信息。这使得机器能够理解文本的含义,而不仅仅是字面上的匹配。
模型举例:
| 厂商 | 模型 |
|---|---|
| OpenAI | text-embedding-ada-002 |
| 阿里 | text-embedding-v3 |
| Anthropic | voyage-3-large |
| text-embedding-004 |
8.检索增强生成 (RAG) #
通用大模型存在知识局限性和“幻觉”问题。RAG(Retrieval-Augmented Generation) 技术是解决这些问题的有效方案,它允许大模型在生成答案时参考外部的、最新的或私有的知识库。
RAG 的工作流程如下图:
graph TD
A[知识库] --> B(数据预处理(切块))
B --> C{嵌入模型}
C --> D[嵌入向量]
D --> E(向量数据库(存储))
F[用户提问] --> G{嵌入模型}
G --> H[查询向量]
H --> E(向量数据库(检索))
E --> I[相关切块]
J[用户提问 + 相关切块] --> K{大型语言模型}
K --> L[生成答案]
整个流程的核心思想是:
- 将知识库转换为向量表示,方便快速检索。
- 利用向量数据库高效地找到与用户提问相关的知识。
- 将检索到的知识作为上下文,增强 LLM 的生成能力,提高答案的准确性和相关性。
9.MCP (Model Context Protocol) #
Model Context Protocol (MCP),即模型上下文协议,是一种相对较新的开放标准协议,由 Anthropic(Claude模型的厂商) 于 2024 年 11 月提出。它的核心目的是解决大型语言模型(LLM)与外部世界(包括各种数据源、应用程序和工具)之间的连接问题。
MCP 基于客户端-服务器架构:
- MCP 主机 (Host): 运行 AI 应用程序(如 Claude Desktop、AI 助手等),包含 MCP 客户端 (Client)。主机为 AI 交互提供环境,能够访问工具和数据。
- MCP 客户端 (Client): 运行在主机端内部,负责与 MCP 服务器建立连接、发送请求和接收响应。
- MCP 服务器 (Server): 运行在外部系统(如文件系统、数据库、SaaS 应用、特定工具等)旁边,作为该系统的适配器。服务器负责处理来自 MCP 客户端的请求,与外部系统交互,并将结果以标准化的格式返回。
- 工具 (Tools): 由 MCP 服务器暴露给 AI 模型的功能,代表可以在外部系统上执行的动态操作,用于修改状态或与外部系统交互。大模型通函数调用功能来与该工具交互。
MCP 架构与工作流程示意图
graph TD A[用户] --> B(AI 应用程序此图展示了用户通过 AI 应用程序(MCP Host)与 LLM 交互。LLM 通过 MCP Client 调用 MCP Servers 来访问外部系统,获取数据或执行操作,然后将结果返回给 LLM 生成最终响应。
MCP Host) B --> C(MCP Client) C --> D(MCP Server 1
文件系统) C --> E(MCP Server 2
数据库) C --> F(MCP Server 3
SaaS 应用) B --> G(大型语言模型
LLM) G --> C D --> H[外部系统 1] E --> I[外部系统 2] F --> J[外部系统 3] H --> D I --> E J --> F D --> C E --> C F --> C C --> G B -- 包含 --> C; B -- 调用 --> G; G -- 指示 --> C; C -- 请求 --> D; C -- 请求 --> E; C -- 请求 --> F; D -- 访问 --> H; E -- 访问 --> I; F -- 访问 --> J; H -- 响应 --> D; I -- 响应 --> E; J -- 响应 --> F; D -- 响应 --> C; E -- 响应 --> C; F -- 响应 --> C; C -- 数据 --> G; G -- 结果 --> B; B --> A;
三、国内外主流厂商 #
| 厂商 | 地区 | 代表模型 |
|---|---|---|
| DeepSeek | 国产 | DeepSeek |
| 阿里云 | 国产 | 通义千问 |
| 腾讯 | 国产 | 混元AI大模型, 腾讯智影 |
| 字节跳动 | 国产 | 豆包 |
| 智谱 AI / 清华大学 | 国产 | 智谱清言 (GLM系列, CogView系列, CogVideoX) |
| 华为 | 国产 | 盘古 |
| 科大讯飞 | 国产 | 星火 |
| 百度 | 国产 | 文心一言 |
| OpenAI | 美国 | GPT系列 (GPT-4o,o3-mini-high), ChatGPT |
| 美国 | Gemini系列, Imagen 3 | |
| Anthropic | 美国 | Claude系列 |
| xAI | 美国 | Grok |