大语言模型
在自然语言处理(Natural Language Processing,NLP)中,有一项关键技术叫Transformer,这是一种神经网络模型,是如今AI高速发展的主要原因。
我们熟知的大模型(Large Language Models,LLM),列如GPT,DeepSeek底层都是采用的Transformer神经网络。
- Generative:根据上文预测之后应该出现在哪个文本,从而形成连续的文本输出
- Pre-trained:预训练,让大模型可以理解人类语言的语法、词性
- Transformer:推理预测,深度学习的一种神经网络模型。多数的AIGC模型都依赖于此
文本向量化
将文本相近的变成坐标点,文本语义相近的就距离较近。
- 将文本转成一组浮点数,放入一个数组,作为多为空间坐标(words–enbedding->vectors)
- 通过训练调整向量坐标,使其在不同的方向具备含义,让其相近的语义的词在空间中更加接近
- 两个向量的差,也就是一个向量到另外一个向量,可以表示两个点的不同点;比如man和woman
举例:
E(中国)和E(美国)的饮食有什么差别,向量逻辑就是中国向量和美国向量做差,会得到一个向量A;在找到美国的饮食向量,比如汉堡,向量A和它相加可能就会得到肉夹馍:E(中国) - E(美国) + E(汉堡) = E(肉夹馍)
注意力机制
就是通过不同的条件去缩小向量点的范围,要求的算力是比较高的。这些条件就组成了上下文,但是上下文是存在容量上限的,当上下文超出上限之后,大模型就可能丢失之前的记忆。
大模型应用开发
模型部署
- 云部署:阿里云、gpt等,前期成本低,但是数据隐私喝网络依赖高,长期成本也高。
- 本地部署:ollma自己部署,初始成本高,维护复炸,部署周期长。
调用大模型
以DeepSeek官方给出的demo:https://api-docs.deepseek.com/zh-cn/
1 | # Please install OpenAI SDK first: `pip3 install openai` |
大模型应用
大模型应用是基于大模型的推理、分析、生成能力,结合传统编程能力,开发出的各种应用。
- 传统程序擅长:确定性逻辑处理和精确控制与高可靠性
- AI大模型擅长:模糊问题处理和复杂模式识别
两者结合汲取优势就是大模型应用。
大模型没有记忆能力,它能够拥有记忆都是传统代码生成的。
AI应用开发技术架构
- 纯Prompt问答:利用大模型的推理能力,通过Prompt问答来完成业务。(对话机器人)
- Agent+Function Calling(tools):AI拆解任务,通过业务端提供接口实现复杂业务;大模型是没有联网能力的,给他一个链接就只是一个链接;只能通过传统程序(Function calling)去获取链接内容。(智能客服)
- RAG(Retrieval Augmented Generation):给大模型外挂一个知识库,让大模型基于知识库内容做推理和回答
- Fine-tuning:针对特有的业务场景对基础大模型做数据训练和微调,以满足特定场景的需求
rag知识库步骤:文档加载->文档切分->文档编码->写入知识库->ai应用检索知识片段,组织prompt发送给基础大模型
AI核心概念
- LLM:大模型,是所有AI技术的核心
- Token:大模型处理数据的最基本单元
- Context:大模型每次处理任务时接收到的信息总和
- Context Window:大模型的Context最多能够存储的Token量
- Prompt:用户或系统当前给大模型下达的具体指令或问题
- Tool:大模型用来感知和影响外部环境的函数
- MCP:统一了工具接入格式的标准协议
- Agent:能够自主规划和调用工具、直至解决用户问题的程序
- Agent Skill:给Agent看的说明文档
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 coder-xuyong!
评论





