欢迎,这是jzq服务器的导航页。

ChatGPT的背后:大模型之力

大模型的结构

avatar

图中所示是chatgpt的结构,为 transformer模型,由 谷歌首次提出。

整体来看

ChatGPT的大模型整体原理是:根据上文生成下文

ChatGPT的一句话并不是直接生成的,而是一个词一个词"蹦"出来的

从零开始理解大模型

词向量

词向量是一种把词汇映射到高维向量(或称为点)的方法,通过不断的迭代演化,我们可以得到词汇间的关系,相似或通常在一起的词汇在高维空间中会更接近

通过词向量技术,我们可以让AI理解 人话,并把 AI话转成 人话,是transformer模型中输入和输出的重要部分

输入详解

输入即将上文(ChatGPT说过的词和用户问的话)输入进模型

什么是 positional encoding?这是位置标记,这样AI便不会把'Tom chase Jerry'理解成'Jerry chase Tom'

Encoder和Decoder

这是两个神经网络,OpenAI团队运用了一种特殊的小模型转大模型方法

OpenAI团队首先训练出小模型,接下来运用了一个技巧把小模型参数转为大模型参数,减少了训练成本(大家可以上Arxiv搜索Greg Yang的论文详细了解)

输出

根据Decoder的输出,'输出'部分可以将数据转为词汇

Transformer的优缺点

(引用自某篇CSDN文章)

Transformer虽然好,但它也不是万能的,还是存在这一些不足:

优点:

1.效果好

2.可以并行训练,速度快

3.很好地解决了长距离依赖的问题

缺点:

1.完全基于self-attention,对于词语位置之间的信息有一定的丢失,虽然加入了positional encodeing来解决,但仍可以优化