深入理解Llama模型的源码案例

本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼)。

并且训练它来实现一个有趣的实例：两数之和。

输入输出类似如下：

输入："12345+54321="

输出："66666"

我们把这个任务当做一个文本生成任务来进行。输入是一个序列的上半部分，输出其下半部分.

这和文本生成的输入输出结构是类似的，所以可以用Llama来做。

目前大部分开源LLM模型都是基于transformers库来做的，它们的结构大部分都和Llama大同小异。

俗话说，魔鬼隐藏在细节中，深入理解Llama模型的的源码细节，将会帮助你打通和开源LLM模型相关的基础原理(如旋转位置编码以及长度外推)，并让你熟悉各种参数的配置和使用(如past_key_value，attention_mask的使用等等)。

一，准备数据

import?random

import?numpy?as?np
import?torch
from?torch.utils.data?import?Dataset,DataLoader

#?定义字典
words?=?',,,1,2,3,4,5,6,7,8,9,0,+,='
vocab?=?{word:?i?for?i,?word?in?enumerate(words.split(','))}
vocab_r?=?[k?for?k,?v?in?vocab.items()]?#反查词典

#两数相加数据集
def?get_data(min_length=10,max_length=20):
????#?定义词集合
????words?=?['0',?'1',?'2',?'3',?'4',?'5',?'6',?'7',?'8',?'9']

????#?每个词被选中的概率
????p?=?np.array([7,?5,?5,?7,?6,?5,?7,?6,?5,?7])
????p?=?p?/?p.sum()

????#?随机采样n1个词作为s1
????n1?=?random.randint(min_length,?max_length)
????s1?=?np.random.choice(words,?size=n1,?replace=True,?p=p)
????s1?=?s1.tolist()

????#?随机采样n2个词作为s2
????n2?=?random.randint(min_length,?max_length)
????s2?=?np.random.choice(words,?size=n2,?replace=True,?p=p)
????s2?=?s2.tolist()

????#?x等于s1和s2字符上的相加
????x?=?s1?+?['+']?+?s2?+?['=']
????
????#?y等于s1和s2数值上的相加
????y?=?int(''.join(s1))?+?int(''.join(s2))
????y?=?list(str(y))
????
????#?加上首尾符号
????x?=?['']?+?x?
????y?=??y?+?['']
????
????return?x,y

x,y?=?get_data()?
print(''.join(x)+''.join(y),"
")

3914835626735057733+318829464988=3914835945564522721

#?定义数据集
class?TwoSumDataset(torch.utils.data.Dataset):
????def?__init__(self,size?=?100000,?min_length=10,max_length=20):
????????super(Dataset,?self).__init__()
????????self.size?=?size
????????self.min_length=min_length
????????self.max_length=max_length

????def?__len__(self):
????????return?self.size

????def?__getitem__(self,?i):
????????x,y?=?self.get(i)
????????
????????#?编码成token
????????context_ids?=?[vocab[i]?for?i?in?x]
????????target_ids?=?[vocab[i]?for?i?in?y]
????????
????????input_ids?=?context_ids?+?target_ids
????????
????????#-100标志位后面会在计算loss时会被忽略不贡献损失，我们集中优化target部分生成的loss
????????labels?=?[-100]*len(context_ids)+?target_ids
????????masks?=?[0?if?t==vocab['']?else?1?for?t?in?input_ids]
????????
????????example?=?{'input_ids':input_ids,
??????????????????'labels':labels,'attention_mask':masks}
????????
????????return?example
????
????def?get(self,i):
????????return?get_data(self.min_length,self.max_length)
????
????
????def?show_example(self,example):
????????input_ids,labels?=?example['input_ids'],example['labels']
????????x?=?''.join([vocab_r[a]?for?a,b?in?zip(input_ids,labels)?if?b==-100])
????????y?=?''.join([vocab_r[a]?for?a,b?in?zip(input_ids,labels)?if?b!=-100])
????????print(x+y)
????????
????????
????
ds_train?=?TwoSumDataset(size?=?100000,min_length=10,max_length=20)
ds_val?=?TwoSumDataset(size?=?10000,min_length=10,max_length=20)
example?=?ds_train[0]
ds_train.show_example(example)

12878683929048906366+11274414130675477=12889958343179581843

def?data_collator(examples:?list):
????len_ids?=?[len(example["input_ids"])?for?example?in?examples]
????longest?=?max(len_ids)?#之后按照batch中最长的input_ids进行padding
????
????input_ids?=?[]
????labels_list?=?[]
????masks_list?=?[]
????
????for?length,?example?in?sorted(zip(len_ids,?examples),?key=lambda?x:?-x[0]):
????????ids?=?example["input_ids"]
????????labs?=?example["labels"]
????????masks?=?example['attention_mask']
????????
????????ids?=?[vocab['']]?*?(longest?-?length)+ids?
????????labs?=?[-100]?*?(longest?-?length)+labs
????????masks?=?[0]*(longest?-?length)+masks
????????
????????input_ids.append(torch.LongTensor(ids))
????????labels_list.append(torch.LongTensor(labs))
????????masks_list.append(torch.LongTensor(masks))
??????????
????input_ids?=?torch.stack(input_ids)
????labels?=?torch.stack(labels_list)
????attention_mask?=?torch.stack(masks_list)
????return?{
????????"input_ids":?input_ids,
????????"labels":?labels,
????????"attention_mask":attention_mask
????}

#?数据加载器
dl_train?=?DataLoader(dataset=ds_train,
?????????batch_size=200,
?????????drop_last=True,
?????????shuffle=True,
?????????collate_fn?=?data_collator????????
????????)

dl_val?=?DataLoader(dataset=ds_val,
?????????batch_size=200,
?????????drop_last=True,
?????????shuffle=False,
?????????collate_fn?=?data_collator??
????????)

for?batch?in?dl_train:
????break?

batch?

{'input_ids': tensor([[ 1, 11,  6,  ...,  7, 11,  2],
         [ 0,  1,  6,  ...,  5,  4,  2],
         [ 0,  1,  7,  ...,  8,  8,  2],
         ...,
         [ 0,  0,  0,  ..., 10, 11,  2],
         [ 0,  0,  0,  ..., 12,  3,  2],
         [ 0,  0,  0,  ..., 11, 12,  2]]),
 'labels': tensor([[-100, -100, -100,  ...,    7,   11,    2],
         [-100, -100, -100,  ...,    5,    4,    2],
         [-100, -100, -100,  ...,    8,    8,    2],
         ...,
         [-100, -100, -100,  ...,   10,   11,    2],
         [-100, -100, -100,  ...,   12,    3,    2],
         [-100, -100, -100,  ...,   11,   12,    2]]),
 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1],
         [0, 1, 1,  ..., 1, 1, 1],
         [0, 1, 1,  ..., 1, 1, 1],
         ...,
         [0, 0, 0,  ..., 1, 1, 1],
         [0, 0, 0,  ..., 1, 1, 1],
         [0, 0, 0,  ..., 1, 1, 1]])}

二，定义模型

下面，我们会像搭积木建城堡那样从低往高地构建LLaMA模型。

先构建4个基础组件：旋转位置编码，多头注意力、前馈网络、层归一化。类似用最基础的积木块搭建了墙壁，房顶，房门，窗户这样的模块。

然后用这4个基础组件构建中间成品: 解码层。类似用基础组件构建了房间。

接着用多个中间成品解码层的堆叠组装成了LlamaModel完整模型，相当于通过构建多个房间建成了城堡的主体结构。

最后我们在LlamaModel基础上设计了两种不同的输出head，一种是语言模型Head，得到了LlamaForCausalLM，可用于文本生成。

另外一种是分类head，得到了LlamaForSequenceClassification，可用于文本分类。

相当于我们在城堡主体结构完成的基础上设计了两种不同的装修风格，一种是加装了一些游乐设施以便用于商业活动，另一种则是加装了一些武器以便用于军事活动。

1, 旋转位置编码: RoPE (使用旋转矩阵实现的绝对位置编码，可以起到相对位置编码的效果)

2, 多头注意力: LlamaAttention (用于融合不同token之间的信息)

3, 前馈网络: LlamaMLP (用于逐位置将多头注意力融合后的信息进行高维映射变换)

4, 层归一化: LlamaRMSNorm (用于稳定输入，相当于保持每个词向量的方向不变，但对模长标准化。)

5, Llama解码层: LlamaDecoderLayer (同时具备信息融合，信息转换功能的基本结构单元)

6, Llama解码器: LlamaModel (多个解码层的堆叠)

7，Llama语言模型: LlamaForCausalLM (解码器加上语言模型head，可用于文本生成)

8，Llama分类模型: LlamaForSequenceClassification (解码器加上分类head，可用于文本分类)

import?math
from?typing?import?List,?Optional,?Tuple,?Union

import?torch
import?torch.nn.functional?as?F
import?torch.utils.checkpoint
from?torch?import?nn
from?torch.nn?import?BCEWithLogitsLoss,?CrossEntropyLoss,?MSELoss

from?transformers.activations?import?ACT2FN
from?transformers.modeling_outputs?import?BaseModelOutputWithPast,?CausalLMOutputWithPast,?SequenceClassifierOutputWithPast
from?transformers.modeling_utils?import?PreTrainedModel
from?transformers.utils?import?add_start_docstrings,?add_start_docstrings_to_model_forward,?logging,?replace_return_docstrings

from?transformers.models.llama.configuration_llama??import?LlamaConfig
from?transformers.models.llama.modeling_llama?import?LLAMA_INPUTS_DOCSTRING,LLAMA_START_DOCSTRING

logger?=?logging.get_logger('llama')

config?=?LlamaConfig(
????vocab_size=len(vocab),
????hidden_size=512,
????intermediate_size=2752,
????num_hidden_layers=8,
????num_attention_heads=16,
????hidden_act='silu',
????max_position_embeddings=128,
????initializer_range=0.02,
????rms_norm_eps=1e-06,
????use_cache=True,
????pad_token_id=0,
????bos_token_id=1,
????eos_token_id=2,
????tie_word_embeddings=False
)?

1，旋转位置编码 RoPE

旋转位置编码即使用旋转矩阵表示位置编码(Rotary Position Encoding),简称RoPE。

关于RoPE的3个核心要点知识如下：

RoPE的设计思想是使用绝对位置编码来达到相对位置编码的效果。

RoPE的实现方式是使用旋转矩阵来表示绝对位置编码。

使用NTK扩展方法可以让RoPE在短文本上训练并在长文本上做预测。

参考文章：

《博采众长的旋转式位置编码》https://kexue.fm/archives/8265

《RoPE是一种进制编码》https://kexue.fm/archives/9675

（1）绝对位置编码和相对位置编码

位置编码一般可以分成绝对位置编码和相对位置编码。

绝对位置编码的优点是计算简单高效，缺点是一般效果不如相对位置编码。

相对位置编码的优点是效果较好，缺点是计算效率不如绝对位置编码。

绝对位置编码：

相对位置编码：

在相对位置编码中，注意力权重的结果仅仅和参与注意力计算的token向量的相对位置有关，不和绝对位置直接关联。

这符合NLP领域在序列长度方向上具有平移不变性的特点，所以相对位置编码一般效果会优于绝对位置编码。

不过绝对位置编码并非一无是处，绝对位置编码只需要初始化时对序列的每个位置(数量正比于序列长度)赋予位置编码即可，后续无需干预。

而相对位置编码要在计算过程中获取许多个(数量正比于序列长度平方)相对位置。

因此绝对位置编码更加简单高效。

（2）使用旋转矩阵表示位置编码

上述讨论可以看到，绝对位置编码和相对位置编码互有优劣，那么有没有什么办法能够对二者进行取长补短呢？

有的，这个方法就是RoPE，它的设计思想就是使用绝对位置编码来达到相对位置编码的效果。

那么旋转位置编码如何使用绝对位置编码来达到相对位置编码的效果的呢？答案是使用旋转矩阵来表示位置编码。

其中为旋转矩阵，满足性质。于是，有：

符合相对位置编码形式。

perfect! 我们用绝对位置编码实现了相对位置编码的效果。

那么，旋转矩阵长什么样呢？

在二维情形长下面样子。

在NLP领域，词向量的维度一般会很高（例如4096）。

利用矩阵的分块思想，可以证明高维情形下扩展成下述形式依旧满足旋转矩阵性质

其中，即越高的维度对应三角函数的系数越小，周期越大，变化越缓慢。

由于旋转矩阵是稀疏矩阵，直接使用乘法计算会很浪费算力，可以将旋转位置编码过程由矩阵乘法运算简化成两次向量的哈达玛积求和。

（3）旋转位置编码的长度扩展

在LLM的应用中，有一个非常重要的参数，叫做LLM支持的上下文长度(max context length)。

更长的上下文长度允许我们进行更多轮次的对话，允许我们对更长的本文进行总结分析，也允许我们生成更长的文章。

但是在训练LLM的时候，我们的训练语料大部分是不够长的，许多LLM训练时候设计的最大文本长度都是只有2k，也就是最长2048个token。

那么，能否在训练的时候使用较短的文本，而在推理的时候扩展到长文本上呢？

是有可能的，我们可以对RoPE进行长度扩展。

我们介绍3种扩展方案。

第一种是直接外推：直接外推其实就是继续沿用现有的位置编码公式，不做任何修改。

在扩展长度不太长的时候，例如由2k扩展到2.5k时，这种方法可能对性能的影响并不大。

因为旋转位置编码只和相对位置m-n的大小有关，一般具有远程衰减性，即相对距离越大的两个token，其相关性一般越弱。

因此如果我们的模型已经从训练数据那里学习到了token之间的相关性相对于相对距离在0-2k的一个合适的衰减规律的时候，可以设想把这个规律应用到0-2.5k也是没有太大的问题的。

但是如果我们要扩展到更长的长度，例如从2k扩展到32k，这种直接外推的方案通常会严重地影响性能。因为我们学习到的衰减规律有可能在5k的那里就完全衰减截断基本降为0了，这样我们就无法捕捉相对距离长于5k的两个token之间的相互作用，外推就会导致性能下降。

总结一下，直接外推对衰减规律在长距离情况下的使用容易出现问题，导致性能下降。

为了减少长度外推对性能的影响，我们可以让训练好的模型在更长的上下文上做少许步骤的微调。

第二种是线性内插：线性内插需要改变位置编码公式，等效于将位置序号等比例缩小。

编码公式变化如，当从2k扩展到32k，等效于需要将位置序号变成原来的1/16.

线性内插没有改变模型学习到的衰减规律的应用范围，不考虑微调的话，其效果一般好于直接外推方案。

但是，扩展倍数非常大的时候，例如从2k扩展到32k，其性能也会明显的受到影响。

因为在这种情况下，衰减规律在短距离情况下的使用会受到较严重的影响，本来距离为1的两个token，长度扩展后相当于变成了距离为1/16，衰减规律在短距离时可能具有非常大的变化率，因此对相关性的评估可能会极端地偏离合理值。

应用线性内插时，在长文本上做少许步骤的微调也能够明显地改善性能。

第三种是NTK扩展方式：这种方式综合了外推和内插的优点，做长度扩展后即使不微调也能够保持较好的性能。

前面的分析我们知道直接外推对衰减规律在长距离情况下的使用容易出问题，在短距离情况下的使用不受影响。

而线性内插对衰减规律在短距离情况下的使用容易出现问题，在长距离的情况下影响较小。

我们能否将它们综合起来，在短距离情况下具有外推特性(与扩展前基本一致)，在长距离情况下具有内插特性(缩放到扩展前的范围)，从而使得长距离情况下和短距离情况下衰减规律的使用都不太受到影响呢。

我们观察RoPE位置编码第行的元素计算公式，可以发现越大，三角函数对应的角频率系数越小，或者说越低频，对应的三角函数变化越慢。

容易得到如下直观结论：短距离之间的差异(例如1和5的差异)，主要体现在高频分量(i比较小)上，长距离之间的差异(例如5000和10000的差异)，主要体现在低频分量(i比较大)上。

为了在短距离情况下具有外推特性，而在长距离情况下具有内插特性，我们可以设计一个和有关的位置序号缩放因子，使得在最高频()时取值为1(与扩展前基本一致)，而在最低频时()恰好为缩放倍数的倒数(缩放到扩展前的范围)。

一种有效的选择方案是的指数函数，其效果相当于对中的做一个缩放，根据边界条件容易求得合适的缩放因子为。

NTK扩展方式的要点是高频外推，低频内插，实现方法是直接对底数base进行缩放，类似进制编码转换。

采用NTK扩展到长文本，即使不做微调，性能会只会略有下降。

下面是RoPE以及三种长度扩展方式的实现。

class?LlamaRotaryEmbedding(torch.nn.Module):
????def?__init__(self,?dim,?max_position_embeddings=2048,?base=10000,?device=None):
????????super().__init__()
????????self.dim?=?dim
????????self.max_position_embeddings?=?max_position_embeddings
????????self.base?=?base
????????inv_freq?=?1.0?/?(self.base?**?(torch.arange(0,?self.dim,?2).float().to(device)?/?self.dim))
????????self.register_buffer("inv_freq",?inv_freq,?persistent=False)?#persistent=False将不会作为state_dict

????????#?Build?here?to?make?`torch.jit.trace`?work.
????????self._set_cos_sin_cache(
????????????seq_len=max_position_embeddings,?device=self.inv_freq.device,?dtype=torch.get_default_dtype()
????????)

????def?_set_cos_sin_cache(self,?seq_len,?device,?dtype):
????????self.max_seq_len_cached?=?seq_len
????????t?=?torch.arange(self.max_seq_len_cached,?device=device,?dtype=self.inv_freq.dtype)

????????freqs?=?torch.einsum("i,j->ij",?t,?self.inv_freq)
????????#?Different?from?paper,?but?it?uses?a?different?permutation?in?order?to?obtain?the?same?calculation
????????emb?=?torch.cat((freqs,?freqs),?dim=-1)
????????self.register_buffer("cos_cached",?emb.cos()[None,?None,?:,?:].to(dtype),?persistent=False)
????????self.register_buffer("sin_cached",?emb.sin()[None,?None,?:,?:].to(dtype),?persistent=False)

????def?forward(self,?x,?seq_len=None):
????????#?x:?[bs,?num_attention_heads,?seq_len,?head_size]
????????#超过预设的max_position_embeddings则重新计算更大的Rope缓存，否则直接在缓存上切片
????????if?seq_len?>?self.max_seq_len_cached:?
????????????self._set_cos_sin_cache(seq_len=seq_len,?device=x.device,?dtype=x.dtype)

????????return?(
????????????self.cos_cached[:,?:,?:seq_len,?...].to(dtype=x.dtype),
????????????self.sin_cached[:,?:,?:seq_len,?...].to(dtype=x.dtype),
????????)

????
class?LlamaLinearScalingRotaryEmbedding(LlamaRotaryEmbedding):
????"""LlamaRotaryEmbedding?extended?with?linear?scaling.?Credits?to?the?Reddit?user?/u/kaiokendev"""

????def?__init__(self,?dim,?max_position_embeddings=2048,?base=10000,?device=None,?scaling_factor=1.0):
????????self.scaling_factor?=?scaling_factor
????????super().__init__(dim,?max_position_embeddings,?base,?device)

????def?_set_cos_sin_cache(self,?seq_len,?device,?dtype):
????????self.max_seq_len_cached?=?seq_len
????????t?=?torch.arange(self.max_seq_len_cached,?device=device,?dtype=self.inv_freq.dtype)
????????t?=?t?/?self.scaling_factor?#线性内插相当于将位置序号等比例缩小

????????freqs?=?torch.einsum("i,j->ij",?t,?self.inv_freq)
????????#?Different?from?paper,?but?it?uses?a?different?permutation?in?order?to?obtain?the?same?calculation
????????emb?=?torch.cat((freqs,?freqs),?dim=-1)
????????self.register_buffer("cos_cached",?emb.cos()[None,?None,?:,?:].to(dtype),?persistent=False)
????????self.register_buffer("sin_cached",?emb.sin()[None,?None,?:,?:].to(dtype),?persistent=False)


class?LlamaDynamicNTKScalingRotaryEmbedding(LlamaRotaryEmbedding):
????"""LlamaRotaryEmbedding?extended?with?Dynamic?NTK?scaling.?Credits?to?the?Reddit?users?/u/bloc97?and?/u/emozilla"""

????def?__init__(self,?dim,?max_position_embeddings=2048,?base=10000,?device=None,?scaling_factor=1.0):
????????self.scaling_factor?=?scaling_factor
????????super().__init__(dim,?max_position_embeddings,?base,?device)

????def?_set_cos_sin_cache(self,?seq_len,?device,?dtype):
????????self.max_seq_len_cached?=?seq_len

????????if?seq_len?>?self.max_position_embeddings:
????????????base?=?self.base?*?(
????????????????(self.scaling_factor?*?seq_len?/?self.max_position_embeddings)?-?(self.scaling_factor?-?1)
????????????)?**?(self.dim?/?(self.dim?-?2))??#NTK扩展方式直接对base进行缩放
????????????inv_freq?=?1.0?/?(base?**?(torch.arange(0,?self.dim,?2).float().to(device)?/?self.dim))
????????????self.register_buffer("inv_freq",?inv_freq,?persistent=False)

????????t?=?torch.arange(self.max_seq_len_cached,?device=device,?dtype=self.inv_freq.dtype)

????????freqs?=?torch.einsum("i,j->ij",?t,?self.inv_freq)
????????
????????#此处处理逻辑与原始的ROPE有差异，原始逻辑如下
????????#emb?=?torch.cat((freqs,?freqs),?dim=-1)
????????#emb[...,0::2]=freqs
????????#emb[...,1::2]=freqs
????????
????????
????????#?Different?from?paper,?but?it?uses?a?different?permutation?in?order?to?obtain?the?same?calculation
????????emb?=?torch.cat((freqs,?freqs),?dim=-1)
????????self.register_buffer("cos_cached",?emb.cos()[None,?None,?:,?:].to(dtype),?persistent=False)
????????self.register_buffer("sin_cached",?emb.sin()[None,?None,?:,?:].to(dtype),?persistent=False)
????????
????????
def?rotate_half(x):
????"""Rotates?half?the?hidden?dims?of?the?input."""
????
????#此处逻辑与原始的ROPE有所差异，原始逻辑如下
????#x1?=?x[...,?0::2]?
????#x2?=?x[...,?1::2]
????#res?=?torch.cat((x1,?x2),?dim=-1)
????#res[...,0::2]=-x2
????#res[...,1::2]=x1
????#return?res
????
????x1?=?x[...,?:?x.shape[-1]?//?2]?
????x2?=?x[...,?x.shape[-1]?//?2?:]
????return?torch.cat((-x2,?x1),?dim=-1)


def?apply_rotary_pos_emb(q,?k,?cos,?sin,?position_ids):
????#?The?first?two?dimensions?of?cos?and?sin?are?always?1,?so?we?can?`squeeze`?them.
????cos?=?cos.squeeze(1).squeeze(0)??#?[seq_len,?dim]
????sin?=?sin.squeeze(1).squeeze(0)??#?[seq_len,?dim]
????cos?=?cos[position_ids].unsqueeze(1)??#?[bs,?1,?seq_len,?dim]
????sin?=?sin[position_ids].unsqueeze(1)??#?[bs,?1,?seq_len,?dim]
????q_embed?=?(q?*?cos)?+?(rotate_half(q)?*?sin)
????k_embed?=?(k?*?cos)?+?(rotate_half(k)?*?sin)
????return?q_embed,?k_embed

x?=?torch.randn(1,8,4,2)
rope?=?LlamaRotaryEmbedding(dim=8)
cos,sin?=?rope.forward(x,seq_len=4)
print(cos.shape)?
print(cos)

torch.Size([1, 1, 4, 8])
tensor([[[[ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000,
            1.0000],
          [ 0.5403,  0.9950,  0.9999,  1.0000,  0.5403,  0.9950,  0.9999,
            1.0000],
          [-0.4161,  0.9801,  0.9998,  1.0000, -0.4161,  0.9801,  0.9998,
            1.0000],
          [-0.9900,  0.9553,  0.9996,  1.0000, -0.9900,  0.9553,  0.9996,
            1.0000]]]])

2，多头注意力 LlamaAttention

这里的LlamaAttention 基本上和《Attention Is All You Need》论文里的是一致的，主要差异有以下一些。

1，k和v的head数量可以是q的head数量的几分之一，类似分组卷积的思想，可以减少参数规模。

2，rope位置编码是每次做多头注意力时都进行一次，而不是原论文只在输入的时候进行一次。

3，允许传入key和value的states的缓存past_key_value，这在多轮对话中可以减少重复计算，起到加速效果。

4，attention_mask是通过加法形式作用到softmax之前的attention矩阵上的。

def?repeat_kv(hidden_states:?torch.Tensor,?n_rep:?int)?->?torch.Tensor:
????"""
????This?is?the?equivalent?of?torch.repeat_interleave(x,?dim=1,?repeats=n_rep).?The?hidden?states?go?from?(batch,
????num_key_value_heads,?seqlen,?head_dim)?to?(batch,?num_attention_heads,?seqlen,?head_dim)
????"""
????batch,?num_key_value_heads,?slen,?head_dim?=?hidden_states.shape
????if?n_rep?==?1:
????????return?hidden_states
????hidden_states?=?hidden_states[:,?:,?None,?:,?:].expand(batch,?num_key_value_heads,?n_rep,?slen,?head_dim)
????return?hidden_states.reshape(batch,?num_key_value_heads?*?n_rep,?slen,?head_dim)


class?LlamaAttention(nn.Module):
????"""Multi-headed?attention?from?'Attention?Is?All?You?Need'?paper"""

????def?__init__(self,?config:?LlamaConfig):
????????super().__init__()
????????self.config?=?config
????????self.hidden_size?=?config.hidden_size
????????self.num_heads?=?config.num_attention_heads
????????self.head_dim?=?self.hidden_size?//?self.num_heads
????????self.num_key_value_heads?=?config.num_key_value_heads
????????self.num_key_value_groups?=?self.num_heads?//?self.num_key_value_heads
????????self.max_position_embeddings?=?config.max_position_embeddings

????????if?(self.head_dim?*?self.num_heads)?!=?self.hidden_size:
????????????raise?ValueError(
????????????????f"hidden_size?must?be?divisible?by?num_heads?(got?`hidden_size`:?{self.hidden_size}"
????????????????f"?and?`num_heads`:?{self.num_heads})."
????????????)
????????self.q_proj?=?nn.Linear(self.hidden_size,?self.num_heads?*?self.head_dim,?bias=False)
????????self.k_proj?=?nn.Linear(self.hidden_size,?self.num_key_value_heads?*?self.head_dim,?bias=False)
????????self.v_proj?=?nn.Linear(self.hidden_size,?self.num_key_value_heads?*?self.head_dim,?bias=False)
????????self.o_proj?=?nn.Linear(self.num_heads?*?self.head_dim,?self.hidden_size,?bias=False)
????????self._init_rope()

????def?_init_rope(self):
????????if?self.config.rope_scaling?is?None:
????????????self.rotary_emb?=?LlamaRotaryEmbedding(self.head_dim,?max_position_embeddings=self.max_position_embeddings)
????????else:
????????????scaling_type?=?self.config.rope_scaling["type"]
????????????scaling_factor?=?self.config.rope_scaling["factor"]
????????????if?scaling_type?==?"linear":
????????????????self.rotary_emb?=?LlamaLinearScalingRotaryEmbedding(
????????????????????self.head_dim,?max_position_embeddings=self.max_position_embeddings,?scaling_factor=scaling_factor
????????????????)
????????????elif?scaling_type?==?"dynamic":
????????????????self.rotary_emb?=?LlamaDynamicNTKScalingRotaryEmbedding(
????????????????????self.head_dim,?max_position_embeddings=self.max_position_embeddings,?scaling_factor=scaling_factor
????????????????)
????????????else:
????????????????raise?ValueError(f"Unknown?RoPE?scaling?type?{scaling_type}")

????def?_shape(self,?tensor:?torch.Tensor,?seq_len:?int,?bsz:?int):
????????return?tensor.view(bsz,?seq_len,?self.num_heads,?self.head_dim).transpose(1,?2).contiguous()

????def?forward(
????????self,
????????hidden_states:?torch.Tensor,
????????attention_mask:?Optional[torch.Tensor]?=?None,
????????position_ids:?Optional[torch.LongTensor]?=?None,
????????past_key_value:?Optional[Tuple[torch.Tensor]]?=?None,
????????output_attentions:?bool?=?False,
????????use_cache:?bool?=?False,
????)?->?Tuple[torch.Tensor,?Optional[torch.Tensor],?Optional[Tuple[torch.Tensor]]]:
????????bsz,?q_len,?_?=?hidden_states.size()

????????if?self.config.pretraining_tp?>?1:
????????????key_value_slicing?=?(self.num_key_value_heads?*?self.head_dim)?//?self.config.pretraining_tp
????????????query_slices?=?self.q_proj.weight.split(
????????????????(self.num_heads?*?self.head_dim)?//?self.config.pretraining_tp,?dim=0
????????????)
????????????key_slices?=?self.k_proj.weight.split(key_value_slicing,?dim=0)
????????????value_slices?=?self.v_proj.weight.split(key_value_slicing,?dim=0)

????????????query_states?=?[F.linear(hidden_states,?query_slices[i])?for?i?in?range(self.config.pretraining_tp)]
????????????query_states?=?torch.cat(query_states,?dim=-1)

????????????key_states?=?[F.linear(hidden_states,?key_slices[i])?for?i?in?range(self.config.pretraining_tp)]
????????????key_states?=?torch.cat(key_states,?dim=-1)

????????????value_states?=?[F.linear(hidden_states,?value_slices[i])?for?i?in?range(self.config.pretraining_tp)]
????????????value_states?=?torch.cat(value_states,?dim=-1)

????????else:
????????????query_states?=?self.q_proj(hidden_states)
????????????key_states?=?self.k_proj(hidden_states)
????????????value_states?=?self.v_proj(hidden_states)

????????query_states?=?query_states.view(bsz,?q_len,?self.num_heads,?self.head_dim).transpose(1,?2)
????????key_states?=?key_states.view(bsz,?q_len,?self.num_key_value_heads,?self.head_dim).transpose(1,?2)
????????value_states?=?value_states.view(bsz,?q_len,?self.num_key_value_heads,?self.head_dim).transpose(1,?2)

????????kv_seq_len?=?key_states.shape[-2]
????????if?past_key_value?is?not?None:
????????????kv_seq_len?+=?past_key_value[0].shape[-2]
????????cos,?sin?=?self.rotary_emb(value_states,?seq_len=kv_seq_len)
????????query_states,?key_states?=?apply_rotary_pos_emb(query_states,?key_states,?cos,?sin,?position_ids)

????????if?past_key_value?is?not?None:
????????????#?reuse?k,?v,?self_attention
????????????key_states?=?torch.cat([past_key_value[0],?key_states],?dim=2)
????????????value_states?=?torch.cat([past_key_value[1],?value_states],?dim=2)

????????past_key_value?=?(key_states,?value_states)?if?use_cache?else?None

????????#?repeat?k/v?heads?if?n_kv_heads??1:
????????????attn_output?=?attn_output.split(self.hidden_size?//?self.config.pretraining_tp,?dim=2)
????????????o_proj_slices?=?self.o_proj.weight.split(self.hidden_size?//?self.config.pretraining_tp,?dim=1)
????????????attn_output?=?sum([F.linear(attn_output[i],?o_proj_slices[i])?for?i?in?range(self.config.pretraining_tp)])
????????else:
????????????attn_output?=?self.o_proj(attn_output)

????????if?not?output_attentions:
????????????attn_weights?=?None

????????return?attn_output,?attn_weights,?past_key_value
????
????

3，前馈网络 LlamaMLP

前馈网络是一个2层的感知机MLP。

先从hidden_size维度up_proj到intermediate_size维度，然后再down_proj还原为hidden_size维度。

这里的主要特色是引入了一个gate_proj配合激活函数来实现一个门控注意力的作用。

class?LlamaMLP(nn.Module):
????def?__init__(self,?config):
????????super().__init__()
????????self.config?=?config
????????self.hidden_size?=?config.hidden_size
????????self.intermediate_size?=?config.intermediate_size
????????self.gate_proj?=?nn.Linear(self.hidden_size,?self.intermediate_size,?bias=False)
????????self.up_proj?=?nn.Linear(self.hidden_size,?self.intermediate_size,?bias=False)
????????self.down_proj?=?nn.Linear(self.intermediate_size,?self.hidden_size,?bias=False)
????????self.act_fn?=?ACT2FN[config.hidden_act]

????def?forward(self,?x):
????????if?self.config.pretraining_tp?>?1:
????????????slice?=?self.intermediate_size?//?self.config.pretraining_tp
????????????gate_proj_slices?=?self.gate_proj.weight.split(slice,?dim=0)
????????????up_proj_slices?=?self.up_proj.weight.split(slice,?dim=0)
????????????down_proj_slices?=?self.down_proj.weight.split(slice,?dim=1)

????????????gate_proj?=?torch.cat(
????????????????[F.linear(x,?gate_proj_slices[i])?for?i?in?range(self.config.pretraining_tp)],?dim=-1
????????????)
????????????up_proj?=?torch.cat([F.linear(x,?up_proj_slices[i])?for?i?in?range(self.config.pretraining_tp)],?dim=-1)

????????????intermediate_states?=?(self.act_fn(gate_proj)?*?up_proj).split(slice,?dim=2)
????????????down_proj?=?[
????????????????F.linear(intermediate_states[i],?down_proj_slices[i])?for?i?in?range(self.config.pretraining_tp)
????????????]
????????????down_proj?=?sum(down_proj)
????????else:
????????????down_proj?=?self.down_proj(self.act_fn(self.gate_proj(x))?*?self.up_proj(x))

????????return?down_proj

4，层归一化 LlamaRMSNorm

这里的层归一化叫做RMSNorm，和标准的LayerNorm有少许差异。

首先是没有移除均值，直接除的RootMeanSquare，然后也没有加上bias。

这两个小的修正可以保证在层归一化不会改变hidden_states对应的词向量的方向，只会改变其模长。

在一定的意义上具有合理性。

class?LlamaRMSNorm(nn.Module):
????def?__init__(self,?hidden_size,?eps=1e-6):
????????"""
????????LlamaRMSNorm?is?equivalent?to?T5LayerNorm
????????"""
????????super().__init__()
????????self.weight?=?nn.Parameter(torch.ones(hidden_size))
????????self.variance_epsilon?=?eps

????def?forward(self,?hidden_states):
????????input_dtype?=?hidden_states.dtype
????????hidden_states?=?hidden_states.to(torch.float32)
????????variance?=?hidden_states.pow(2).mean(-1,?keepdim=True)
????????hidden_states?=?hidden_states?*?torch.rsqrt(variance?+?self.variance_epsilon)
????????return?self.weight?*?hidden_states.to(input_dtype)
????

5，Llama解码层

解码层LlamaDecoderLayer由LlamaAttention，LlamaMLP，以及两个LlamaRMSNorm组成，并使用了两次残差结构。

class?LlamaDecoderLayer(nn.Module):
????def?__init__(self,?config:?LlamaConfig):
????????super().__init__()
????????self.hidden_size?=?config.hidden_size
????????self.self_attn?=?LlamaAttention(config=config)
????????self.mlp?=?LlamaMLP(config)
????????self.input_layernorm?=?LlamaRMSNorm(config.hidden_size,?eps=config.rms_norm_eps)
????????self.post_attention_layernorm?=?LlamaRMSNorm(config.hidden_size,?eps=config.rms_norm_eps)

????def?forward(
????????self,
????????hidden_states:?torch.Tensor,
????????attention_mask:?Optional[torch.Tensor]?=?None,
????????position_ids:?Optional[torch.LongTensor]?=?None,
????????past_key_value:?Optional[Tuple[torch.Tensor]]?=?None,
????????output_attentions:?Optional[bool]?=?False,
????????use_cache:?Optional[bool]?=?False,
????)?->?Tuple[torch.FloatTensor,?Optional[Tuple[torch.FloatTensor,?torch.FloatTensor]]]:
????????"""
????????Args:
????????????hidden_states?(`torch.FloatTensor`):?input?to?the?layer?of?shape?`(batch,?seq_len,?embed_dim)`
????????????attention_mask?(`torch.FloatTensor`,?*optional*):?attention?mask?of?size
????????????????`(batch,?1,?tgt_len,?src_len)`?where?padding?elements?are?indicated?by?very?large?negative?values.
????????????output_attentions?(`bool`,?*optional*):
????????????????Whether?or?not?to?return?the?attentions?tensors?of?all?attention?layers.?See?`attentions`?under
????????????????returned?tensors?for?more?detail.
????????????use_cache?(`bool`,?*optional*):
????????????????If?set?to?`True`,?`past_key_values`?key?value?states?are?returned?and?can?be?used?to?speed?up?decoding
????????????????(see?`past_key_values`).
????????????past_key_value?(`Tuple(torch.FloatTensor)`,?*optional*):?cached?past?key?and?value?projection?states
????????"""

????????residual?=?hidden_states

????????hidden_states?=?self.input_layernorm(hidden_states)

????????#?Self?Attention
????????hidden_states,?self_attn_weights,?present_key_value?=?self.self_attn(
????????????hidden_states=hidden_states,
????????????attention_mask=attention_mask,
????????????position_ids=position_ids,
????????????past_key_value=past_key_value,
????????????output_attentions=output_attentions,
????????????use_cache=use_cache,
????????)
????????hidden_states?=?residual?+?hidden_states

????????#?Fully?Connected
????????residual?=?hidden_states
????????hidden_states?=?self.post_attention_layernorm(hidden_states)
????????hidden_states?=?self.mlp(hidden_states)
????????hidden_states?=?residual?+?hidden_states

????????outputs?=?(hidden_states,)

????????if?output_attentions:
????????????outputs?+=?(self_attn_weights,)

????????if?use_cache:
????????????outputs?+=?(present_key_value,)

????????return?outputs

6，Llama解码器

LlamaModel由多个Llama解码层堆叠而成。

有几个理解上的要点：

1，_make_causal_mask用于构造下三角这种mask结构以实现语言模型的单向注意力。

2，_expand_mask用于将传入的等特殊符号相关的mask信息展开成和attention矩阵相同的张量结构。

3，设置gradient_checkpointing=True可以节约显存。其主要应用了torch.utils.checkpoint.checkpoint方法。它的原理非常简单，在对decoder_layer进行forward时不保存中间激活值从而节约显存，backward时重新计算相关值，从而通过时间换取了空间。

4，gradient_checkpointing和use_cache不能同时设置为True，前者是为了节约显存时间换空间的，后者是为了节约时间空间换时间。

#?Copied?from?transformers.models.bart.modeling_bart._make_causal_mask
def?_make_causal_mask(
????input_ids_shape:?torch.Size,?dtype:?torch.dtype,?
????device:?torch.device,?past_key_values_length:?int?=?0
):
????"""
????Make?causal?mask?used?for?bi-directional?self-attention.
????"""
????bsz,?tgt_len?=?input_ids_shape
????mask?=?torch.full((tgt_len,?tgt_len),?torch.finfo(dtype).min,?device=device)
????mask_cond?=?torch.arange(mask.size(-1),?device=device)
????mask.masked_fill_(mask_cond??0:
????????mask?=?torch.cat([torch.zeros(tgt_len,?past_key_values_length,?dtype=dtype,?device=device),?mask],?dim=-1)
????return?mask[None,?None,?:,?:].expand(bsz,?1,?tgt_len,?tgt_len?+?past_key_values_length)


#?Copied?from?transformers.models.bart.modeling_bart._expand_mask
def?_expand_mask(mask:?torch.Tensor,?dtype:?torch.dtype,?tgt_len:?Optional[int]?=?None):
????"""
????Expands?attention_mask?from?`[bsz,?seq_len]`?to?`[bsz,?1,?tgt_seq_len,?src_seq_len]`.
????"""
????bsz,?src_len?=?mask.size()
????tgt_len?=?tgt_len?if?tgt_len?is?not?None?else?src_len

????expanded_mask?=?mask[:,?None,?None,?:].expand(bsz,?1,?tgt_len,?src_len).to(dtype)
????inverted_mask?=?1.0?-?expanded_mask

????return?inverted_mask.masked_fill(inverted_mask.to(torch.bool),?torch.finfo(dtype).min)


@add_start_docstrings(
????"The?bare?LLaMA?Model?outputting?raw?hidden-states?without?any?specific?head?on?top.",
????LLAMA_START_DOCSTRING,
)
class?LlamaPreTrainedModel(PreTrainedModel):
????config_class?=?LlamaConfig
????base_model_prefix?=?"model"
????supports_gradient_checkpointing?=?True
????_no_split_modules?=?["LlamaDecoderLayer"]
????_skip_keys_device_placement?=?"past_key_values"

????def?_init_weights(self,?module):
????????std?=?self.config.initializer_range
????????if?isinstance(module,?nn.Linear):
????????????module.weight.data.normal_(mean=0.0,?std=std)
????????????if?module.bias?is?not?None:
????????????????module.bias.data.zero_()
????????elif?isinstance(module,?nn.Embedding):
????????????module.weight.data.normal_(mean=0.0,?std=std)
????????????if?module.padding_idx?is?not?None:
????????????????module.weight.data[module.padding_idx].zero_()

????def?_set_gradient_checkpointing(self,?module,?value=False):
????????if?isinstance(module,?LlamaModel):
????????????module.gradient_checkpointing?=?value


@add_start_docstrings(
????"The?bare?LLaMA?Model?outputting?raw?hidden-states?without?any?specific?head?on?top.",
????LLAMA_START_DOCSTRING,
)
class?LlamaModel(LlamaPreTrainedModel):
????"""
????Transformer?decoder?consisting?of?*config.num_hidden_layers*?layers.?Each?layer?is?a?[`LlamaDecoderLayer`]

????Args:
????????config:?LlamaConfig
????"""

????def?__init__(self,?config:?LlamaConfig):
????????super().__init__(config)
????????self.padding_idx?=?config.pad_token_id
????????self.vocab_size?=?config.vocab_size

????????self.embed_tokens?=?nn.Embedding(config.vocab_size,?config.hidden_size,?self.padding_idx)
????????self.layers?=?nn.ModuleList([LlamaDecoderLayer(config)?for?_?in?range(config.num_hidden_layers)])
????????self.norm?=?LlamaRMSNorm(config.hidden_size,?eps=config.rms_norm_eps)

????????self.gradient_checkpointing?=?False
????????#?Initialize?weights?and?apply?final?processing
????????self.post_init()

????def?get_input_embeddings(self):
????????return?self.embed_tokens

????def?set_input_embeddings(self,?value):
????????self.embed_tokens?=?value

????#?Copied?from?transformers.models.bart.modeling_bart.BartDecoder._prepare_decoder_attention_mask
????def?_prepare_decoder_attention_mask(self,?attention_mask,?input_shape,?inputs_embeds,?past_key_values_length):
????????#?create?causal?mask
????????#?[bsz,?seq_len]?->?[bsz,?1,?tgt_seq_len,?src_seq_len]
????????combined_attention_mask?=?None
????????if?input_shape[-1]?>?1:
????????????combined_attention_mask?=?_make_causal_mask(
????????????????input_shape,
????????????????inputs_embeds.dtype,
????????????????device=inputs_embeds.device,
????????????????past_key_values_length=past_key_values_length,
????????????)

????????if?attention_mask?is?not?None:
????????????#?[bsz,?seq_len]?->?[bsz,?1,?tgt_seq_len,?src_seq_len]
????????????expanded_attn_mask?=?_expand_mask(attention_mask,?inputs_embeds.dtype,?tgt_len=input_shape[-1]).to(
????????????????inputs_embeds.device
????????????)
????????????combined_attention_mask?=?(
????????????????expanded_attn_mask?if?combined_attention_mask?is?None?else?expanded_attn_mask?+?combined_attention_mask
????????????)

????????return?combined_attention_mask

????@add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
????def?forward(
????????self,
????????input_ids:?torch.LongTensor?=?None,
????????attention_mask:?Optional[torch.Tensor]?=?None,
????????position_ids:?Optional[torch.LongTensor]?=?None,
????????past_key_values:?Optional[List[torch.FloatTensor]]?=?None,
????????inputs_embeds:?Optional[torch.FloatTensor]?=?None,
????????use_cache:?Optional[bool]?=?None,
????????output_attentions:?Optional[bool]?=?None,
????????output_hidden_states:?Optional[bool]?=?None,
????????return_dict:?Optional[bool]?=?None,
????)?->?Union[Tuple,?BaseModelOutputWithPast]:
????????output_attentions?=?output_attentions?if?output_attentions?is?not?None?else?self.config.output_attentions
????????output_hidden_states?=?(
????????????output_hidden_states?if?output_hidden_states?is?not?None?else?self.config.output_hidden_states
????????)
????????use_cache?=?use_cache?if?use_cache?is?not?None?else?self.config.use_cache

????????return_dict?=?return_dict?if?return_dict?is?not?None?else?self.config.use_return_dict

????????#?retrieve?input_ids?and?inputs_embeds
????????if?input_ids?is?not?None?and?inputs_embeds?is?not?None:
????????????raise?ValueError("You?cannot?specify?both?decoder_input_ids?and?decoder_inputs_embeds?at?the?same?time")
????????elif?input_ids?is?not?None:
????????????batch_size,?seq_length?=?input_ids.shape
????????elif?inputs_embeds?is?not?None:
????????????batch_size,?seq_length,?_?=?inputs_embeds.shape
????????else:
????????????raise?ValueError("You?have?to?specify?either?decoder_input_ids?or?decoder_inputs_embeds")

????????seq_length_with_past?=?seq_length
????????past_key_values_length?=?0

????????if?past_key_values?is?not?None:
????????????past_key_values_length?=?past_key_values[0][0].shape[2]
????????????seq_length_with_past?=?seq_length_with_past?+?past_key_values_length

????????if?position_ids?is?None:
????????????device?=?input_ids.device?if?input_ids?is?not?None?else?inputs_embeds.device
????????????position_ids?=?torch.arange(
????????????????past_key_values_length,?seq_length?+?past_key_values_length,?dtype=torch.long,?device=device
????????????)
????????????position_ids?=?position_ids.unsqueeze(0).view(-1,?seq_length)
????????else:
????????????position_ids?=?position_ids.view(-1,?seq_length).long()

????????if?inputs_embeds?is?None:
????????????inputs_embeds?=?self.embed_tokens(input_ids)
????????#?embed?positions
????????if?attention_mask?is?None:
????????????attention_mask?=?torch.ones(
????????????????(batch_size,?seq_length_with_past),?dtype=torch.bool,?device=inputs_embeds.device
????????????)
????????attention_mask?=?self._prepare_decoder_attention_mask(
????????????attention_mask,?(batch_size,?seq_length),?inputs_embeds,?past_key_values_length
????????)

????????hidden_states?=?inputs_embeds

????????if?self.gradient_checkpointing?and?self.training:
????????????if?use_cache:
????????????????logger.warning_once(
????????????????????"`use_cache=True`?is?incompatible?with?gradient?checkpointing.?Setting?`use_cache=False`..."
????????????????)
????????????????use_cache?=?False

????????#?decoder?layers
????????all_hidden_states?=?()?if?output_hidden_states?else?None
????????all_self_attns?=?()?if?output_attentions?else?None
????????next_decoder_cache?=?()?if?use_cache?else?None

????????for?idx,?decoder_layer?in?enumerate(self.layers):
????????????if?output_hidden_states:
????????????????all_hidden_states?+=?(hidden_states,)

????????????past_key_value?=?past_key_values[idx]?if?past_key_values?is?not?None?else?None

????????????if?self.gradient_checkpointing?and?self.training:

????????????????def?create_custom_forward(module):
????????????????????def?custom_forward(*inputs):
????????????????????????#?None?for?past_key_value
????????????????????????return?module(*inputs,?output_attentions,?None)

????????????????????return?custom_forward

????????????????layer_outputs?=?torch.utils.checkpoint.checkpoint(
????????????????????create_custom_forward(decoder_layer),
????????????????????hidden_states,
????????????????????attention_mask,
????????????????????position_ids,
????????????????????None,
????????????????)
????????????else:
????????????????layer_outputs?=?decoder_layer(
????????????????????hidden_states,
????????????????????attention_mask=attention_mask,
????????????????????position_ids=position_ids,
????????????????????past_key_value=past_key_value,
????????????????????output_attentions=output_attentions,
????????????????????use_cache=use_cache,
????????????????)

????????????hidden_states?=?layer_outputs[0]

????????????if?use_cache:
????????????????next_decoder_cache?+=?(layer_outputs[2?if?output_attentions?else?1],)

????????????if?output_attentions:
????????????????all_self_attns?+=?(layer_outputs[1],)

????????hidden_states?=?self.norm(hidden_states)

????????#?add?hidden?states?from?the?last?decoder?layer
????????if?output_hidden_states:
????????????all_hidden_states?+=?(hidden_states,)

????????next_cache?=?next_decoder_cache?if?use_cache?else?None
????????if?not?return_dict:
????????????return?tuple(v?for?v?in?[hidden_states,?next_cache,?all_hidden_states,?all_self_attns]?if?v?is?not?None)
????????return?BaseModelOutputWithPast(
????????????last_hidden_state=hidden_states,
????????????past_key_values=next_cache,
????????????hidden_states=all_hidden_states,
????????????attentions=all_self_attns,
????????)

7，Llama语言模型

Llama语言模型 LlamaForCausalLM是在Llama解码器LlamaModel的基础上增加了一个lm_head作为Generator。

从而实现了一个完整的语言模型。

除此之外，Llama语言模型还实现了以下重要功能。

1，loss计算功能。当forward方法中传入labels时，会自动计算语言模型的交叉熵损失。注意labels中的-100会被忽略不参与计算。

2，文本生成generate方法。这个方法继承自PreTrainedModel，可以设置model.generation_config.num_beams选择束搜索的束宽度，默认为1即贪心搜索。

_CONFIG_FOR_DOC?=?"LlamaConfig"

class?LlamaForCausalLM(LlamaPreTrainedModel):
????_tied_weights_keys?=?["lm_head.weight"]

????def?__init__(self,?config):
????????super().__init__(config)
????????self.model?=?LlamaModel(config)
????????self.vocab_size?=?config.vocab_size
????????self.lm_head?=?nn.Linear(config.hidden_size,?config.vocab_size,?bias=False)

????????#?Initialize?weights?and?apply?final?processing
????????self.post_init()

????def?get_input_embeddings(self):
????????return?self.model.embed_tokens

????def?set_input_embeddings(self,?value):
????????self.model.embed_tokens?=?value

????def?get_output_embeddings(self):
????????return?self.lm_head

????def?set_output_embeddings(self,?new_embeddings):
????????self.lm_head?=?new_embeddings

????def?set_decoder(self,?decoder):
????????self.model?=?decoder

????def?get_decoder(self):
????????return?self.model

????@add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
????@replace_return_docstrings(output_type=CausalLMOutputWithPast,?config_class=_CONFIG_FOR_DOC)
????def?forward(
????????self,
????????input_ids:?torch.LongTensor?=?None,
????????attention_mask:?Optional[torch.Tensor]?=?None,
????????position_ids:?Optional[torch.LongTensor]?=?None,
????????past_key_values:?Optional[List[torch.FloatTensor]]?=?None,
????????inputs_embeds:?Optional[torch.FloatTensor]?=?None,
????????labels:?Optional[torch.LongTensor]?=?None,
????????use_cache:?Optional[bool]?=?None,
????????output_attentions:?Optional[bool]?=?None,
????????output_hidden_states:?Optional[bool]?=?None,
????????return_dict:?Optional[bool]?=?None,
????)?->?Union[Tuple,?CausalLMOutputWithPast]:

????????output_attentions?=?output_attentions?if?output_attentions?is?not?None?else?self.config.output_attentions
????????output_hidden_states?=?(
????????????output_hidden_states?if?output_hidden_states?is?not?None?else?self.config.output_hidden_states
????????)
????????return_dict?=?return_dict?if?return_dict?is?not?None?else?self.config.use_return_dict

????????#?decoder?outputs?consists?of?(dec_features,?layer_state,?dec_hidden,?dec_attn)
????????outputs?=?self.model(
????????????input_ids=input_ids,
????????????attention_mask=attention_mask,
????????????position_ids=position_ids,
????????????past_key_values=past_key_values,
????????????inputs_embeds=inputs_embeds,
????????????use_cache=use_cache,
????????????output_attentions=output_attentions,
????????????output_hidden_states=output_hidden_states,
????????????return_dict=return_dict,
????????)

????????hidden_states?=?outputs[0]
????????if?self.config.pretraining_tp?>?1:
????????????lm_head_slices?=?self.lm_head.weight.split(self.vocab_size?//?self.config.pretraining_tp,?dim=0)
????????????logits?=?[F.linear(hidden_states,?lm_head_slices[i])?for?i?in?range(self.config.pretraining_tp)]
????????????logits?=?torch.cat(logits,?dim=-1)
????????else:
????????????logits?=?self.lm_head(hidden_states)
????????logits?=?logits.float()

????????loss?=?None
????????if?labels?is?not?None:
????????????#?Shift?so?that?tokens?

	?

	?

	8，Llama分类模型

	LlamaForSequenceClassification是一个序列分类模型。

	这个分类模型可以用来训练RLHF流程中的Reward模型。

	?

	?
@add_start_docstrings(
????"""
????The?LLaMa?Model?transformer?with?a?sequence?classification?head?on?top?(linear?layer).

????[`LlamaForSequenceClassification`]?uses?the?last?token?in?order?to?do?the?classification,?as?other?causal?models
????(e.g.?GPT-2)?do.

????Since?it?does?classification?on?the?last?token,?it?requires?to?know?the?position?of?the?last?token.?If?a
????`pad_token_id`?is?defined?in?the?configuration,?it?finds?the?last?token?that?is?not?a?padding?token?in?each?row.?If
????no?`pad_token_id`?is?defined,?it?simply?takes?the?last?value?in?each?row?of?the?batch.?Since?it?cannot?guess?the
????padding?tokens?when?`inputs_embeds`?are?passed?instead?of?`input_ids`,?it?does?the?same?(take?the?last?value?in
????each?row?of?the?batch).
????""",
????LLAMA_START_DOCSTRING,
)
class?LlamaForSequenceClassification(LlamaPreTrainedModel):
????def?__init__(self,?config):
????????super().__init__(config)
????????self.num_labels?=?config.num_labels
????????self.model?=?LlamaModel(config)
????????self.score?=?nn.Linear(config.hidden_size,?self.num_labels,?bias=False)

????????#?Initialize?weights?and?apply?final?processing
????????self.post_init()

????def?get_input_embeddings(self):
????????return?self.model.embed_tokens

????def?set_input_embeddings(self,?value):
????????self.model.embed_tokens?=?value

????@add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
????def?forward(
????????self,
????????input_ids:?torch.LongTensor?=?None,
????????attention_mask:?Optional[torch.Tensor]?=?None,
????????position_ids:?Optional[torch.LongTensor]?=?None,
????????past_key_values:?Optional[List[torch.FloatTensor]]?=?None,
????????inputs_embeds:?Optional[torch.FloatTensor]?=?None,
????????labels:?Optional[torch.LongTensor]?=?None,
????????use_cache:?Optional[bool]?=?None,
????????output_attentions:?Optional[bool]?=?None,
????????output_hidden_states:?Optional[bool]?=?None,
????????return_dict:?Optional[bool]?=?None,
????)?->?Union[Tuple,?SequenceClassifierOutputWithPast]:
????????r"""
????????labels?(`torch.LongTensor`?of?shape?`(batch_size,)`,?*optional*):
????????????Labels?for?computing?the?sequence?classification/regression?loss.?Indices?should?be?in?`[0,?...,
????????????config.num_labels?-?1]`.?If?`config.num_labels?==?1`?a?regression?loss?is?computed?(Mean-Square?loss),?If
????????????`config.num_labels?>?1`?a?classification?loss?is?computed?(Cross-Entropy).
????????"""
????????return_dict?=?return_dict?if?return_dict?is?not?None?else?self.config.use_return_dict

????????transformer_outputs?=?self.model(
????????????input_ids,
????????????attention_mask=attention_mask,
????????????position_ids=position_ids,
????????????past_key_values=past_key_values,
????????????inputs_embeds=inputs_embeds,
????????????use_cache=use_cache,
????????????output_attentions=output_attentions,
????????????output_hidden_states=output_hidden_states,
????????????return_dict=return_dict,
????????)
????????hidden_states?=?transformer_outputs[0]
????????logits?=?self.score(hidden_states)

????????if?input_ids?is?not?None:
????????????batch_size?=?input_ids.shape[0]
????????else:
????????????batch_size?=?inputs_embeds.shape[0]

????????if?self.config.pad_token_id?is?None?and?batch_size?!=?1:
????????????raise?ValueError("Cannot?handle?batch?sizes?>?1?if?no?padding?token?is?defined.")
????????if?self.config.pad_token_id?is?None:
????????????sequence_lengths?=?-1
????????else:
????????????if?input_ids?is?not?None:
????????????????sequence_lengths?=?(torch.eq(input_ids,?self.config.pad_token_id).long().argmax(-1)?-?1).to(
????????????????????logits.device
????????????????)
????????????else:
????????????????sequence_lengths?=?-1

????????pooled_logits?=?logits[torch.arange(batch_size,?device=logits.device),?sequence_lengths]

????????loss?=?None
????????if?labels?is?not?None:
????????????labels?=?labels.to(logits.device)
????????????if?self.config.problem_type?is?None:
????????????????if?self.num_labels?==?1:
????????????????????self.config.problem_type?=?"regression"
????????????????elif?self.num_labels?>?1?and?(labels.dtype?==?torch.long?or?labels.dtype?==?torch.int):
????????????????????self.config.problem_type?=?"single_label_classification"
????????????????else:
????????????????????self.config.problem_type?=?"multi_label_classification"

????????????if?self.config.problem_type?==?"regression":
????????????????loss_fct?=?MSELoss()
????????????????if?self.num_labels?==?1:
????????????????????loss?=?loss_fct(pooled_logits.squeeze(),?labels.squeeze())
????????????????else:
????????????????????loss?=?loss_fct(pooled_logits,?labels)
????????????elif?self.config.problem_type?==?"single_label_classification":
????????????????loss_fct?=?CrossEntropyLoss()
????????????????loss?=?loss_fct(pooled_logits.view(-1,?self.num_labels),?labels.view(-1))
????????????elif?self.config.problem_type?==?"multi_label_classification":
????????????????loss_fct?=?BCEWithLogitsLoss()
????????????????loss?=?loss_fct(pooled_logits,?labels)
????????if?not?return_dict:
????????????output?=?(pooled_logits,)?+?transformer_outputs[1:]
????????????return?((loss,)?+?output)?if?loss?is?not?None?else?output

????????return?SequenceClassifierOutputWithPast(
????????????loss=loss,
????????????logits=pooled_logits,
????????????past_key_values=transformer_outputs.past_key_values,
????????????hidden_states=transformer_outputs.hidden_states,
????????????attentions=transformer_outputs.attentions,
????????)


	?

	?

	三，训练模型

	下面，我们来训练一个LlamaForCausalLM 实现两数之和的任务。

	?

	?
config?=?LlamaConfig(
????vocab_size=len(vocab),
????hidden_size=512,
????intermediate_size=2752,
????num_hidden_layers=8,
????num_attention_heads=16,
????num_key_value_heads=4,
????rope_scaling?=?None,
????hidden_act='silu',
????max_position_embeddings=128,
????initializer_range=0.02,
????rms_norm_eps=1e-06,
????use_cache=True,
????pad_token_id=0,
????bos_token_id=1,
????eos_token_id=2,
????tie_word_embeddings=False,
????pretraining_tp?=?1,
????max_new_tokens?=?100
)?


#试算一下
model?=?LlamaForCausalLM(config)
out?=?model.forward(**batch)
print(out.loss)


	?

	?

	tensor(2.7630, grad_fn=)

	?

	?
from?torchkeras?import?KerasModel?
from?accelerate?import?Accelerator?

class?StepRunner:
????def?__init__(self,?net,?loss_fn,?accelerator=None,?stage?=?"train",?metrics_dict?=?None,?
?????????????????optimizer?=?None,?lr_scheduler?=?None
?????????????????):
????????self.net,self.loss_fn,self.metrics_dict,self.stage?=?net,loss_fn,metrics_dict,stage
????????self.optimizer,self.lr_scheduler?=?optimizer,lr_scheduler
????????self.accelerator?=?accelerator?if?accelerator?is?not?None?else?Accelerator()?
????????if?self.stage=='train':
????????????self.net.train()?
????????else:
????????????self.net.eval()
????
????def?__call__(self,?batch):
????????
????????#loss
????????with?self.accelerator.autocast():
????????????loss?=?self.net(**batch).loss

????????#backward()
????????if?self.stage=="train"?and?self.optimizer?is?not?None:????????
????????????self.accelerator.backward(loss)
????????????if?self.accelerator.sync_gradients:
????????????????self.accelerator.clip_grad_norm_(self.net.parameters(),?1.0)
????????????self.optimizer.step()
????????????if?self.lr_scheduler?is?not?None:
????????????????self.lr_scheduler.step()
????????????self.optimizer.zero_grad()
????????????
????????all_loss?=?self.accelerator.gather(loss).sum()
????????
????????#losses?(or?plain?metrics?that?can?be?averaged)
????????step_losses?=?{self.stage+"_loss":all_loss.item()}
????????
????????#metrics?(stateful?metrics)
????????step_metrics?=?{}
????????
????????if?self.stage=="train":
????????????if?self.optimizer?is?not?None:
????????????????step_metrics['lr']?=?self.optimizer.state_dict()['param_groups'][0]['lr']
????????????else:
????????????????step_metrics['lr']?=?0.0
????????return?step_losses,step_metrics
????
KerasModel.StepRunner?=?StepRunner?



keras_model?=?KerasModel(model,loss_fn?=?None,
????????optimizer=torch.optim.AdamW(model.parameters(),lr=3e-5))


#加载?之前训练过的权重
ckpt_path?=?'llama_twosum'

keras_model.fit(train_data?=?dl_train,
????????????????val_data?=?dl_val,
????????????????epochs=100,patience=5,
????????????????monitor='val_loss',mode='min',
????????????????ckpt_path?=?ckpt_path,
????????????????mixed_precision='fp16'
???????????????)



	?

	?

	

	四，使用模型

	?

	?
from?transformers.generation.utils?import?GenerationConfig
model.generation_config?=?GenerationConfig.from_dict({'num_beams':1,
????????????????????????????'max_new_tokens':100,
????????????????????????????'max_length':200})

model.generation_config.num_beams=1
model.generation_config.max_new_tokens?=?100?
model.generation_config.max_length=200

def?get_ans(tensor)?->"str":
????s?=?"".join([vocab_r[i]?for?i?in?tensor.tolist()])
????ans?=?s[s.find('=')+1:s.find('')].replace('','').replace('','')
????return?ans

x,y?=?get_data()?
print('x:?'+''.join(x).replace('',''))
print('y:?'+''.join(y).replace('',''))

x: 3481340050+90157504501803=
y: 90160985841853

input_ids?=?torch.tensor([[vocab[i]?for?i?in?x]])?
out?=?model.generate(inputs=input_ids)

out?


	?

	?

	tensor([[ 1, ?5, ?6, 10, ?3, ?5, ?6, 12, 12, ?7, 12, 13, 11, 12, ?3, ?7, ?9, ?7,12, ?6, ?7, 12, ?3, 10, 12, ?5, 14, 11, 12, ?3, ?8, 12, 11, 10, ?7, 10,6, ?3, 10, ?7, ?5, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2,2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, ?2, 12, ?2, ?2, ?2, ?2, ?2, ?2, ?2,2, 12, ?3, 12, ?3]])

	?

	?
get_ans(out[0])


	?

	?

	'90160985841853'

	五，评估模型

	?

	?
from?tqdm?import?tqdm?
loop?=?tqdm(range(1,201))
correct?=?0
for?i?in?loop:
????x,y?=?get_data()?
????input_ids?=?torch.tensor([[vocab[i]?for?i?in?x]])?
????out?=?model.generate(inputs=input_ids)
????pred?=?get_ans(out[0])
????gt?=?''.join(y).replace('','')
????if?pred==gt:
????????correct+=1
????loop.set_postfix(acc?=?correct/i)
????
print("acc=",correct/len(loop))


	?

	?

	acc= 0.99

	漂亮，我们的测试准确率达到了99%！

	编辑：好

	?

阅读全文

解码器(40053) 解码器(40053)
源码(28488) 源码(28488)
位置编码器(5494) 位置编码器(5494)
LLM(229) LLM(229)

RT-Thread记录（十一、UART设备—源码解析）

一文带你深入理解 RT-Thread I/O 设备模型 — UART 设备源码分析。

2022-07-01 11:24:45

4969

从接口定义和实现两个方面，深入理解AWbus-lite

在使用AWBus-lite对设备进行管理时，无论设备处于 AWBus-lite拓扑结构中的哪个位置，只要其能够提供某种标准服务，就可以使用相应的通用接口对其进行操作。本文将从接口的定义和实现两个方面，深入理解AWbus-lite工作的原理。

2018-07-23 09:08:31

8015

深入理解运放的工作原理（空气净化器系统案例）

重点讲解了运放的内部电路结构，帮助深入理解运放的工作原理。运放是设计使用非常频繁且非常重要器件，通常在信号放大，电流采样电路里常见，对于初学者经常感到困惑，所以掌握好能够帮助你很好的分析电路。

2019-04-19 09:10:58

5920

深入理解运放的工作原理内部电路结构

重点讲解了运放的内部电路结构，帮助深入理解运放的工作原理。运放是设计使用非常频繁且非常重要器件，通常在信号放大，电流采样电路里常见。

2019-04-22 16:02:10

16698

深入理解FPGA Verilog HDL语法(二)

今天给大侠带来的是一周掌握FPGA Verilog HDL 语法，今天开启第二天。上一篇提到了整数型以及参数型，此篇我们继续来看变量以及后续其他内容，结合实例理解理论语法，会让你理解运用的更加透彻。下面咱们废话就不多说了，一起来看看吧。

2022-07-18 09:52:36

1262

RTOS信号量、队列通信原理

有深入理解RTOS原理，或阅读过RTOS源码的同学应该知道：RTOS实现任务间通信通常是由一系列指针进行操作实现的。

2022-08-16 10:07:10

1389

RISC-V 跑大模型（二）：LLaMA零基础移植教程

这是RISC-V跑大模型系列的第二篇文章，主要教大家如何将LLaMA移植到RISC-V环境里。

2023-07-17 16:16:20

916

RISC-V 跑大模型（三）：LLaMA中文扩展

这是RISC-V跑大模型系列的第三篇文章，前面我们为大家介绍了如何在RISC-V下运行LLaMA，本篇我们将会介绍如何为LLaMA提供中文支持。

2023-07-17 17:15:47

495

大模型笔记之gem5运行模型框架LLama介绍

LLama.cpp 支持x86，arm，gpu的编译。

2024-01-22 09:10:16

315

51单片机C语言讲义（谭浩强）以及深入理解C指针

本帖最后由发烧友之麒麟于 2014-10-6 09:19 编辑 C语言讲义（谭浩强）及深入理解C指针，自己在用的资料，觉得写得挺好的就拿出来分享，需要的请回[attach]214757[/attac]

2014-10-02 17:05:11

深入理解Android：WiFi模块 NFC和GPS卷

本帖最后由 lee_st 于 2018-2-26 00:21 编辑 深入理解Android：WiFi模块 NFC和GPS卷

2018-02-25 22:26:16

深入理解C指针(带书签完整版)

本帖最后由 lee_st 于 2018-2-25 22:24 编辑 深入理解C指针(带书签完整版)

2018-02-25 22:23:30

深入理解C语言比较有用的几个资料

这里有三个对深入理解C语言的资料，觉得不错，分享一下

2014-08-07 21:37:55

深入理解Linux内核中文版+英文原版

深入理解Linux内核中文版+英文原版经典之作

2016-05-17 08:18:47

深入理解SD卡原理和其内部结构总结

深入理解SD卡原理和其内部结构总结

2012-08-18 11:11:00

深入理解SQLite3之sqlite3_exec及回调函数sqlite3

深入理解SQLite3之sqlite3_exec及回调函数sqlite3：深入理解sqlite3_stmt 机制sqlite3: sqlite3_step 函数sqlite3

2021-11-04 07:11:56

深入理解STM32

时钟系统是处理器的核心，所以在学习STM32所有外设之前，认真学习时钟系统是必要的,有助于深入理解STM32。下面是从网上找的一个STM32时钟框图，比《STM32中文参考手册》里面的是中途看起来清晰一些：重要的时钟：PLLCLK,SYSCLK,HCKL,PCLK1,...

2021-08-12 07:46:20

深入理解和实现RTOS_连载

和trcohili的帖子。深入理解和实现RTOS_连载1_RTOS的前生今世今天发布的是第一篇，"RTOS的前生今世"。通过软件系统结构的比对简要的介绍rtos为何而生。如果读者对RTOS

2014-05-29 11:20:54

深入理解和实现RTOS_连载

和trcohili的帖子。trochili rtos完全是作者兴趣所在，且行且坚持，比没有duo。深入理解和实现RTOS_连载1_RTOS的前生今世今天发布的是第一篇，"RTOS的前生今世"

2014-05-30 01:02:26

1.指针函数的定义顾名思义，指针函数即返回指针的函数。其一般定义形式如下：类型名 *函数名(函数参数表列); 其中，后缀运算符括号“()”表示这是一个函数，其前缀运算符星号“*”表示此函数为指针型函数，其函数值为指针，即它带回来的值的类型为指针，当调用这个函数后，将得到一个“指向返回值为…的指针（地址），“类型名”表示函数返回的指针指向的类型”。 “(函数参数表列)”中的括号为函数调用运算符，在调用语句中，即使函数不带参数，其参数表的一对括号也不能省略。其示例如下： int *pfun(int, int); 由于“*”的优先级低于“()”的优先级，因而pfun首先和后面的“()”结合，也就意味着，pfun是一个函数。即： int *(pfun(int, int)); 接着再和前面的“*”结合，说明这个函数的返回值是一个指针。由于前面还有一个int，也就是说，pfun是一个返回值为整型指针的函数。我们不妨来再看一看，指针函数与函数指针有什么区别？ int (*pfun)(int, int); 通过括号强行将pfun首先与“*”结合，也就意味着，pfun是一个指针，接着与后面的“()”结合，说明该指针指向的是一个函数，然后再与前面的int结合，也就是说，该函数的返回值是int。由此可见，pfun是一个指向返回值为int的函数的指针。虽然它们只有一个括号的差别，但是表示的意义却截然不同。函数指针的本身是一个指针，指针指向的是一个函数。指针函数的本身是一个函数，其函数的返回值是一个指针。2. 用函数指针作为函数的返回值在上面提到的指针函数里面，有这样一类函数，它们也返回指针型数据（地址），但是这个指针不是指向int、char之类的基本类型，而是指向函数。对于初学者，别说写出这样的函数声明，就是看到这样的写法也是一头雾水。比如,下面的语句： int (*ff(int))(int *, int);我们用上面介绍的方法分析一下，ff首先与后面的“()”结合，即： int (*(ff(int)))(int *, int); // 用括号将ff(int)再括起来也就意味着，ff是一个函数。接着与前面的“*”结合，说明ff函数的返回值是一个指针。然后再与后面的“()”结合，也就是说，该指针指向的是一个函数。这种写法确实让人非常难懂，以至于一些初学者产生误解，认为写出别人看不懂的代码才能显示自己水平高。而事实上恰好相反，能否写出通俗易懂的代码是衡量程序员是否优秀的标准。一般来说，用typedef关键字会使该声明更简单易懂。在前面我们已经见过： int (*PF)(int *, int);也就是说，PF是一个函数指针“变量”。当使用typedef声明后，则PF就成为了一个函数指针“类型”，即： typedef int (*PF)(int *, int);这样就定义了返回值的类型。然后，再用PF作为返回值来声明函数: PF ff(int);下面将以程序清单1为例，说明用函数指针作为函数的返回值的用法。当程序接收用户输入时，如果用户输入d，则求数组的最大值，如果输入x，则求数组的最小值，如果输入p，则求数组的平均值。程序清单 1求最值与平均值示例1 #include2 #include 3 double GetMin(double *dbData, int iSize)// 求最小值4 {5double dbMin;6int i;78assert(iSize>0);9dbMin=dbData[0];10 for (i=1; idbData) {12dbMin=dbData;13 }14 }15 return dbMin;16}1718double GetMax(double *dbData, int iSize)// 求最大值19{20double dbMax;21int i;2223assert(iSize>0);24dbMax=dbData[0];25for (i=1; i0);39for (i=0; i

2019-01-23 06:35:17

深入理解无线充电原理

的无线收发、同时尽量减小对外的辐射量，需要进行正确地设计。因此需要进一步理解和确定正确的电极尺寸、它们的设计、工作电压、功率值、最佳工作频率和总的尺寸约束条件。一般情况下，理想的频率范围在200kHz至

2012-12-09 22:51:43

深入理解计算机系统之虚拟存储器讲解

深入理解计算机系统第9章虚拟存储器

2019-06-25 09:49:40

深入理解计算机网络硬件知识

前言《图解网络硬件》本书作者三轮贤一是硅谷网络设备公司日本分部资深系统工程师，重点讲述了在实际网络建设工程中真实使用的网络硬件设备及其相关背景知识，能够帮助读者深入理解计算机网络在工程实践中某些容易

2021-07-27 06:40:35

TCP/UDP通信原理看完你就懂了

深入理解TCP/UDP通信原理

2021-03-30 06:14:42

TIM，systick，GPIO，USART，NVIC深入理解

本文是我在知乎上的一篇回答，有兴趣的朋友可以参考下面的链接，不过两篇文章是一样的。本文适用于初学者。硬件功能方面，十分建议学习好TIM，systick，GPIO，USART，NVIC这几个东西，最好能深入理解，因为这几个东西常常是出现在很多个项目当中的，非常重要的东西。一，环境的...

2021-08-23 08:28:27

《深入理解FFmpeg阅读体验》+ 书收到了，崭新的开篇

今天收到了《深入理解FFmpeg》崭新的书，一个在2022年较近距离接触过却尚未深入研究的领域图像处理。最近刚好在作这方面的研究，希望自己可以把握这次机会，好好学习下 FFMpeg，相信可以让自己

2024-01-07 18:57:06

《深入理解LINUX内存管理》学习笔记

《深入理解LINUX内存管理》学习笔记1

2016-11-07 10:20:16

《深入理解Linux网络技术内幕》(EN)

《深入理解Linux网络技术内幕》(EN)

2018-02-06 15:17:30

《深入理解微电子电路设计——数字电子技术及其应用》+做芯片的不做芯片的都来看一看！

也陆陆续续看了一些资料，但是在多方权衡之后还是放弃了这种幼稚的想法，还是老老实实做好自己的应用开发，虽然薪资和芯片设计本身相差不少。扯远了，回到书本本身，一起来领略一下《深入理解微电子

2023-05-29 22:24:28

《深入理解微电子电路设计——数字电子技术及应用》+深究数字芯片的内核与要点

吧，与感兴趣的同仁一起来领略一下《深入理解微电子电路设计》吧！《深入理解微电子电路设计》是2020年清华大学出版社出版的图书，由宋延强翻译。原书作者是[美] 理查德 · C.耶格（Richard

2023-07-29 11:59:12

《Android Runtime源码解析》+深入体会第六章ART的执行（4）

、RISC-V等开源社区，主要研究内容为Clang/LLVM、JVM等。在深入阅读《Android Runtime源码解析》这本书之后，我对Android Runtime的内部机制有了更深入的理解。这本书不仅

2023-11-17 01:33:20

【书籍评测活动NO.25】深入理解FFmpeg，带你FFmpeg从入门到精通

，涵盖音视频基础知识、FFmpeg参数解析、API使用、内部组件的开发定制行业大咖审校，多名业界专家与学者作序推荐详细解读实际应用与开发案例，帮助读者深入理解FFmpeg 大咖推荐我

2023-11-15 14:26:01

【牛逼资料分享】深入理解MOSFET规格书datasheet

【非常牛逼资料分享】深入理解MOSFET规格书datasheet需要原版稳定的朋友，请自行回帖下载。 [hide]https://pan.baidu.com/s/1o85LQWE[/hide] 文章比较长，截了一部分资料的图片如下

2017-10-24 16:45:30

【直播回顾】战码先锋第五期：深入理解OpenHarmony系统启动，轻松踏上设备软件开发之旅

《深入理解OpenHarmony系统启动，轻松踏上设备软件开发之旅》直播中，Handy老师讲解了OpenHarmony设备启动过程的设计理念、基础特性以及系统基础软件开发模型。结合qemu虚拟机平台

2022-06-15 14:35:25

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能，根据官网提供的信息，LLaMA的模型包含4个版本，最小的只有70亿参数，最大的650亿参数，但是其性能相比较之前的OPT

2023-12-22 10:18:11

为什么要深入理解栈

[导读] 从这篇文章开始，将会不定期更新关于嵌入式C语言编程相关的个人认为比较重要的知识点，或者踩过的坑。为什么要深入理解栈？做C语言开发如果栈设置不合理或者使用不对，栈就会溢出，溢出就会遇到无法

2022-02-15 06:09:14

分享高性能Android应用开发超清版PDF

;amp;ckook《深入理解Android：Wi-Fi、nfc和gps卷》Android Studio实战快速高效地构建Android应用Android编程权威指南Android第一行代码

2018-08-13 10:40:22

基于模型的设计（MBD）的深入讨论

讨论1：2016-6-14-基于模型的设计（MBD）_讨论1主要论述了MBD的自动生成代码的可用性，以及自动生成代买与手写代码的效率讨论2：2016-6-14-基于模型的设计（MBD）_讨论2深入介绍了基于模型的设计（MBD）的设计流程，以及关键问题

2016-06-14 18:30:16

如何深入理解ES6之函数

深入理解ES6之函数

2020-05-22 07:40:56

如何深入理解和运用二极管钳位作用？

二极管钳位作用如何运用？在电路设计过程中很多位置需要用二极管钳位，如何深入理解和运用？

2019-04-03 03:03:34

如何更加深入理解MOSFET开关损耗？

如何更加深入理解MOSFET开关损耗？Coss产生开关损耗与对开关过程有什么影响？

2021-04-07 06:01:07

对arm按键中断的深入理解

对arm按键中断还是不太了解深入寄存器去看看使用key_init()就能得到按键按下的值,所以中断函数在key)_init里key_init()分析初始化io口对应的按键使能io口使能RCC寄存器里

2021-08-16 07:05:25

对栈的深入理解

为什么要深入理解栈？做C语言开发如果栈设置不合理或者使用不对，栈就会溢出，溢出就会遇到无法预测乱飞现象。所以对栈的深入理解是非常重要的。注：动画如果看不清楚可以电脑看更清晰啥是栈先来看一段动画：没有

2022-02-15 07:01:00

深入理解计算机系统 (PDF版下载)

深入理解计算机系统本书适用于那些想要写出更快、更可靠程序的程序员。通过掌握程序是如何映射到系统上，以及程序是如何执行的，读者能够更好的理解程序的行为为什么是

2009-10-09 16:43:26

深入理解应用广泛的QMatrix 技术

深入理解应用广泛的QMatrix 技术作者：Hal Philipp 量研集团首席技术官摘要在家电、消费电子和手机应用中，触摸传感控制正在日益取代机电开关。触摸传感的流行获有很强的

2010-02-06 17:08:31

#硬声创作季【IO多线程】深入Redis源码理解Redis高并发线程模型

数据库源码多线程Redis

Mr_haohao发布于 2022-09-14 07:29:16

深入理解Linux虚拟内存管理_爱尔兰/戈尔曼著

电子发烧友网站提供《深入理解Linux虚拟内存管理_爱尔兰/戈尔曼著.txt》资料免费下载

2015-02-09 15:19:27

深入理解LINUX内核（中文版）_ 陈莉君/冯锐/牛欣源译

电子发烧友网站提供《深入理解LINUX内核（中文版）_ 陈莉君/冯锐/牛欣源译.txt》资料免费下载

2015-02-11 11:16:33

深入理解三极管

深入理解三极管的相应资料，有需要的可以下载，不喜勿喷

2016-01-14 16:19:11

深入理解Android之资源文件

深入理解Android之资源文件

2017-01-22 21:11:02

《深入理解Android》文前

《深入理解Android》文前

2017-03-19 11:23:20

《深入理解Android：卷I》

《深入理解Android：卷I》

2017-03-19 11:23:45

深入理解Android网络编程

深入理解Android网络编程

2017-03-19 11:26:35

开关电源技术saber深入理解和巩固验证基本理论知识指导书

2017-09-15 16:19:30

深入理解Linux内核(第三版)中文版

深入理解Linux内核(第三版)中文版

2017-11-28 11:54:15

深入理解Java虚拟机-判断对象存活状态

深入理解Java虚拟机之判断对象是否存活我们知道Java虚拟机中对象的存储位置在堆上，所以GC回收主要也就是在堆上进行的，那么垃圾收集器在进行对象回收的时候肯定不能随便收集，必须要判断对象的状态

2017-11-29 01:06:51

957

深入理解计算机系统(中文版)pdf下载

深入理解计算机系统(中文版)

2018-01-10 16:11:03

关于堆栈的深入理解

这里提了三个概念：堆，栈，以及堆栈。我把栈和堆栈的概念等同了。所以，接下来只要把两个概念弄清楚就可以了：堆和栈。先说由来。由于我的工作大部分是和单片机相关的，因此也是基于嵌入式的这个方面的理解。

2018-03-04 15:57:52

3808

深入理解C指针（C/C++程序员进阶必备，透彻理解指针与内存管理）pdf

深入理解C指针

2018-03-21 09:42:45

116

带你深入理解51单片机C编程的C51

深入理解并应用C51对标准ANSIC的扩展是学习C51的关键之一。因为大多数扩展功能都是直接针对8051系列CPU硬件的。大致有以下8类：

2019-06-26 17:43:00

中文预训练模型ERNIE使用指南

Okay，当我们了解了ERNIE模型的大体框架及原理之后，接下来就可以深入理解一下具体的实现啦。ERNIE是基于百度自己的深度学习框架飞桨（PaddlePaddle）搭建的，（百度推这个飞桨的力度还是蛮大的，还开放了免费算力）

2019-08-02 09:15:32

5734

米尔科技深入理解LINUX内核简介

为了透彻理解Linux的工作机理，以及为何它在各种系统上能顺畅运行，你需要深入到内核的心脏。

2019-11-25 09:34:06

1520

深入理解网络编程框架详细关系图合集免费下载

本文档的主要内容详细介绍的是深入理解网络编程框架详细关系原理图合集免费下载。

2019-11-29 15:31:22

老司机带你深入理解ST库中的 assert_param 语句

老司机带你深入理解ST库中的assert_param语句

2020-03-14 14:52:50

3373

如何更加深入理解I2C总线、协议及应用

更加深入理解I2C总线、协议及应用

2020-03-20 09:29:21

2999

sparc体系架构的窗口寄存器的深入理解

sparc体系架构的窗口寄存器的深入理解 1.概述 2.窗口寄存器的特性 3.程序的设计 4.sparc设计对于嵌入式编程的优劣 1.概述 sparc这种架构有着特殊的窗口寄存器，使用sparc芯片

2021-01-07 10:39:59

3200

深入理解MOS管电子版资源下载

深入理解MOS管电子版资源下载

2021-07-09 09:43:01

华为开发者大会2021：深入理解用户意图

　如何深入理解用户意图，实现服务精准分发。

2021-10-22 15:41:08

1573

深入理解计算机系统教材

深入理解计算机系统中文版pdf下载

2021-11-11 18:11:26

pycharm 递归栈溢出_STM32编程：是时候深入理解栈了<一>

2021-12-16 16:58:12

pycharm 递归栈溢出_STM32编程：是时候深入理解栈了<一>

2021-12-16 16:58:22

【RTOS的最通俗理解】行业大佬用一篇文章带你快速理解RTOS

电子产品2.2 要深入理解RTOS就必须深入理解CPU架构3. 课程重点系统课程学习 5分钟拿下你的三连，RTOS的最通俗理解！单片机_RTOS_架构1. RTOS的概念1.1 用人来类

2021-12-20 19:08:52

深入理解LED开发过程

不知道你是否想过，一个LED灯点亮过程的本质是什么。当你是一个小白的时候，点亮一个LED灯，IDE都会帮你做好所有的事情，你只需要点击一下编译即可。但是，当你成长到一定程度时，就需要好好想想，一个LED的点亮，其实是对单片机中背后原理机制真正的深入理解。今天我就带你，来深入理解一个LDE点亮的过程。

2021-12-22 19:08:21

STM32编程：是时候深入理解栈了<一>

为什么要深入理解栈？做C语言开发如果栈设置不合理或者使用不对，栈就会溢出，溢出就会遇到无法预测乱飞现象。所以对栈的深入理解是非常...

2022-01-26 17:55:42

深入理解工业4.0成熟度模型

作者：与子同袍首发：物联网前沿技术观察今天，我给大家介绍德国亚琛工业大学的工业4.0成熟度模型。为了让大家理解的更准确，我会结合工...

2022-01-26 19:00:51

深入理解深度学习中的反(转置)卷积

本文首发于 GiantPandaCV ：深入理解神经网络中的反(转置)卷积作者：梁德澎本文主要是把之前在知乎上的回答：反卷积和上采样+卷积的区别...

2022-02-07 11:17:57

一文深入理解操作系统的进程调度

想深入理解操作系统的进程调度，需要先获得一些准备知识，这样后面就不懵圈啦：

2022-03-16 10:58:03

1952

一文深入理解抖频开电源技术

刚接触芯片中集成了这种功能的时候，一时之间到不算太理解这项技术的意义，然后找了一些资料，然后找到两个分析电路进行大致介绍。

2022-03-16 12:45:38

8480

如何通过仿真器理解Verilog语言的思路

要想深入理解Verilog就必须正视Verilog语言同时具备硬件特性和软件特性。

2022-07-07 09:54:48

1124

如何从汇编代码来理解enum

Rust enum 是一个非常强大的特性, 很多人好奇他内部是如何实现的, 这里作者从生成的汇编代码来帮你深入理解 Rust 的 enum. 一些关键结论:

2022-11-15 11:13:55

345

深入理解语言模型的突显能力

最近，人们对大型语言模型所展示的强大能力（例如思维链 ^[2]^ 、便签本 ^[3]^ ）产生了极大的兴趣，并开展了许多工作。我们将之统称为大模型的突现能力 ^[4]^ ，这些能力可能只存在于大型模型

2023-02-22 11:16:05

674

成长计划知识赋能 | 第九期：渐进式深入理解OpenHarmony系统

系统架构和驱动框架，助力开发者快速上手OpenHarmony系统开发。详情见海报内容，资深软件开发工程师梁开祝老师带你一起学习进步。原文标题：成长计划知识赋能 | 第九期：渐进式深入理解

2023-03-25 04:25:02

253

深入理解Alpaca 的优化、训练及应用

为了提高训练的稳定性，LLaMA对每个transformer子层的输入进行归一化，而不是对输出进行归一化。同时使用RMSNorm归一化函数。

2023-04-05 10:19:00

2068

基于LLAMA的魔改部署

去训练），并且和Vision结合的大模型也逐渐多了起来。所以怎么部署大模型是一个超级重要的工程问题，很多公司也在紧锣密鼓的搞着。目前效果最好讨论最多的开源实现就是LLAMA，所以我这里讨论的也是基于 LLAMA的魔改部署。基于LLAMA的finetune模型

2023-05-23 15:08:47

4396

LLaMA生态中的各个模型梳理

既然已经有了成功ChatGPT这一成功的案例，大家都想基于LLaMA把这条路再走一遍，以期望做出自己的ChatGPT。

2023-07-04 15:07:25

3280

RISC-V跑大模型（二）：LLaMA零基础移植教程

这是RISC-V跑大模型系列的第二篇文章，主要教大家如何将LLaMA移植到RISC-V环境里。

2023-07-10 10:10:38

706

Meta推出免费大模型Llama 2，GPT要有危机感了

作为Meta首批合作伙伴之一，亚马逊云科技宣布客户可以通过Amazon SageMaker JumpStart来使用Meta开发的Llama 2基础模型。

2023-07-21 16:10:59

903

Llama2的技术细节探讨分析

模型结构为Transformer结构，与Llama相同的是采用RMSNorm归一化、SwiGLU激活函数、RoPE位置嵌入、词表的构建与大小，与Llama不同的是增加GQA（分组查询注意力），扩增了模型输入最大长度，语料库增加了40%。

2023-07-23 12:36:54

1096

关于Llama 2的一切资源，我们都帮你整理好了

Meta 发布的 Llama 2，是新的 SOTA 开源大型语言模型（LLM）。Llama 2 代表着 LLaMA 的下一代版本，可商用。Llama 2 有 3 种不同的大小 —— 7B、13B 和 70B 个可训练参数。

2023-08-23 15:40:09

674

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

2023-08-25 09:06:57

885

Meta发布一种Code Llama工具用于生成新代码和调试人工编写工作

Meta公司表示，Meta发布了一种名为Code Llama的工具，该工具建立在其Llama 2大型语言模型的基础上，用于生成新代码和调试人工编写的工作。 Code Llama将使用与Llama

2023-08-28 16:56:39

931

深入理解redis分布式锁

深入理解redis分布式锁哈喽，大家好，我是指北君。本篇文件我们来介绍如何Redis实现分布式锁的演进过程，以及为什么不能直接用Setnx实现分布式锁。 1、分布式锁简介分布式锁是控制分布式

2023-10-08 14:13:27

489

深入理解BigBird的块稀疏高效实现方案

RoBERTa 架构的 BigBird 模型现已集成入 transformers 中。本文的目的是让读者深入了解 BigBird 的实现，并让读者能在 transformers 中轻松

2023-11-29 11:02:26

232

恒讯科技带大家深入理解：WebSocket服务器的工作原理

WebSocket是一种在单个TCP连接上进行全双工通信的通信协议。它的设计目标是在Web浏览器和服务器之间提供低延迟、高效的双向通信。下面是深入理解WebSocket服务器工作原理的一些关键概念

2024-01-29 16:48:37

144

Meta发布开源大模型Code Llama 70B

近日，Meta宣布推出了一款新的开源大模型Code Llama 70B，这是其“Code Llama家族中体量最大、性能最好的模型版本”。这款新模型提供三种版本，并免费供学术界和商业界使用。

2024-01-31 09:24:18

310

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 发布的 LLaMA 2，是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代表着 LLaMA 的下一代版本，并且具有商业许可证。

2024-02-21 16:00:21

243

已全部加载完成

搜索历史

深入理解Llama模型的源码案例

评论