21
2025
03
01:17:52

【LLM|BLOG】Transformer 架构

1. transformer 架构图

【LLM|BLOG】Transformer 架构
1. transformer 架构图

2. 分模块介绍

2.1 什么是transformer

【LLM|BLOG】Transformer 架构
什么是transformer

Transformer 是一种神经网络,擅长理解顺序数据的上下文并从中生成新数据。 他们是第一个完全依赖自注意力,不使用 RNN 或卷积的算法

2.2 transfomer 比喻一个黑盒。

将用于语言翻译的 Transformer 想象为一个黑匣子。

• 输入:一种语言的句子。 • 输出:翻译。但这个黑匣子里面会发生什么呢?让我们来看看吧!

【LLM|BLOG】Transformer 架构
经过transformer 实现翻译

2.3 / 架构。

• 输入:西班牙语句子¿De quién es?

• 编码器:将其转换为捕捉其本质的结构化格式。

• 解码器:接收编码数据并生成翻译。

• 输出:翻译后的句子:这是谁的?

【LLM|BLOG】Transformer 架构
/ 架构。

2.4 transformer 底层架构。

每个编码器和解码器都由层组成。它们的工作原理如下:

• 编码器:按顺序、逐层处理输入。

• 解码器:获取编码数据并逐步生成输出。

【LLM|BLOG】Transformer 架构
transformer 底层架构

两者都使用自注意力和前馈神经网络,从而能够生成自然语言处理。

【LLM|BLOG】Transformer 架构
transformer 架构




推荐本站淘宝优惠价购买喜欢的宝贝:

【LLM|BLOG】Transformer 架构

本文链接:https://hqyman.cn/post/9555.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: