大模型 LLM

探索人工智能前沿技术与应用

开始探索查看资源

更新时间: 2025年5月8日

1. LLM--AGI & AIGC

要点: AGI 是人工智能的终极愿景，追求构建具备人类智慧的通用系统。AIGC 是当前人工智能的具体应用形式，突出在内容生成领域的创新与效率提升。两者的主要联系在于技术的共性与互相推动关系：AIGC 为 AGI 的发展提供技术支撑与实验验证，而 AGI 的实现会进一步提升 AIGC 的能力与潜力。

⼤语⾔模型（LLM，Large Language Model），也称⼤型语⾔模型，是⼀种旨在理解和⽣成⼈类语⾔的⼈⼯智能模型。LLM 通常指包含数千亿（765B）参数的语⾔模型，它们在海量的⽂本数据上进⾏训练，从⽽获得对语⾔深层次的理解。

⽬前，国外的知名 LLM 有 GPT-3.5、GPT-4、PaLM、Claude 和 LLaMA 等，国内的有深度求索、通义千问、智谱清言等。

为了探索性能的极限，许多研究⼈员开始训练越来越庞⼤的语⾔模型。尽管这些⼤型语⾔模型与⼩型语⾔模型（例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2 ）使⽤相似的架构和预训练任务，但它们展现出截然不同的能⼒，尤其在解决复杂任务时表现出了惊⼈的潜⼒，这被称为"涌现能⼒"。以 GPT-3 和 GPT-2 为例，GPT-3 可以通过学习上下⽂来解决少样本任务，⽽ GPT-2 在这⽅⾯表现较差。

因此，科研界给这些庞⼤的语⾔模型起了个名字，称之为"⼤语⾔模型（LLM）"。LLM的一个显著应用是ChatGPT，它实现了面向对话的GPT系列模型的适应。这个对话代理通过结合监督微调和从人类反馈中学习的强化学习（RLHF）的创新训练方法，在人机交互中达到了前所未有的流畅度。

2. LLM种类

要点: 从框架角度看，LLM主要分为Dense架构和MoE架构两种重要类型。Dense架构是LLM的基础，结构简单，性能稳定，但计算资源需求高。MoE架构通过引入专家机制，实现了参数量和计算量的解耦，提高了计算效率和模型扩展能力，尤其适合处理大规模数据和复杂任务。

3. LLM基础概念

4. LLM应用

4.4 MCP(大模型上下文协议)

参考资源:

MCP 起源于 2024 年 11 月 25 日 Anthropic 发布的文章：Introducing the Model Context Protocol。

MCP （Model Context Protocol，模型上下文协议）定义了应用程序和 AI 模型之间交换上下文信息的方式。这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型（一个中间协议层），就像 USB-C 让不同设备能够通过相同的接口连接一样。MCP 的目标是创建一个通用标准，使 AI 应用程序的开发和集成变得更加简单和统一。

所谓一图胜千言，我这里引用一些制作的非常精良的图片来帮助理解

1. MCP 服务收集网址 (As of March 27, 2025):

Collection	Author	Mode	Servers	URL
MCP.so	mcp.so	Website	4774	mcp.so
Glama	glama.ai	Website	3356	glama.ai
PulseMCP	Antanavicius et al.	Website	3164	pulsemcp.com
Smithery	Henry Mao	Website	2942	smithery.ai
Dockmaster	mcp-dockmaster	Desktop App	517	mcp-dockmaster.com
Official Collection	Anthropic	GitHub Repo	320	modelcontextprotocol/servers
AiMCP	Hekmon	Website	313	aimcp.info
MCP.run	mcp.run	Website	114	mcp.run
Awesome MCP Servers	Stephen Akinyemi	GitHub Repo	88	appcypher/mcp-servers
mcp-get registry	Michael Latman	Website	59	mcp-get.com
Awesome MCP Servers	wong2	Website	34	mcpservers.org
OpenTools	opentoolsteam	Website	25	opentools.com
Toolbase	gching	Desktop App	24	gettoolbase.ai
make inference	mkinf	Website	20	mkinf.io
Awesome Crypto MCP Servers	Luke Fan	GitHub Repo	13	badkk/crypto-mcp-servers

2. 在线 MCP 服务

5. 资源

WangRongsheng/awesome-LLM-resourses: 🧑‍🚀 全世界最好的LLM资料总结（Agent框架、辅助编程、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型） | Summary of the world's best LLM resources.

大模型 LLM

目录

1. LLM--AGI & AIGC

1.1 LLM历史

1.2 NLP 的早期探索

1.3 深度学习的崛起

1.4 预训练与微调范式

1.5 生成式AI

2. LLM种类

语言大模型 (NLP)

视觉大模型 (CV)

多模态大模型

2.1 框架

2.1.1 Dense Transformer 架构

2.1.2 MoE (Mixture of Experts) 架构

3. LLM基础概念

3.1 Prompt

3.2 Temperature

低 Temperature (接近0)

高 Temperature (接近1)

3.3 思维链（Chain-of-Thought, CoT）

传统上下文学习

思维链方法

3.4 LLM 基本训练方法

3.5 预训练（Pretraining）

3.6 后训练（Post-training）

3.7 强化学习（Reinforcement Learning, RL）

DeepSeek-R1 完整训练过程

4. LLM应用

4.1 API 调用

4.1.1 API 提供平台

模型提供商

第三方API聚合平台/代理服务

开源模型和本地部署

4.1.3 Agent 产品

4.1.4 AI 代码开发工具

AI 代码编辑器

vscode 插件

其他

4.1.5 桌面工具

4.1.6 AI 搜索引擎

AI 搜索

搜索服务商

4.1.7 文档处理工具

4.2 RAG

4.3 Agent

4.4 MCP(大模型上下文协议)

1. MCP 服务收集网址 (As of March 27, 2025):

2. 在线 MCP 服务

5. 资源