From 1995c1356ad2017685643c3abf0be6ddcd24abc9 Mon Sep 17 00:00:00 2001
From: lihaibineric <lihaibineric@gmail.com>
Date: Wed, 28 Feb 2024 14:14:32 +0800
Subject: [PATCH] Site updated: 2024-02-28 14:14:31

---
 2024/01/30/dl_summary/index.html | 8 ++++----
 local-search.xml                 | 2 +-
 search.xml                       | 2 +-
 3 files changed, 6 insertions(+), 6 deletions(-)
diff --git a/2024/01/30/dl_summary/index.html b/2024/01/30/dl_summary/index.html
index 5808444..880ba63 100644
--- a/2024/01/30/dl_summary/index.html
+++ b/2024/01/30/dl_summary/index.html
@@ -25,7 +25,7 @@
 <meta property="og:locale" content="en_US">
 <meta property="og:image" content="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240222173542613.png">
 <meta property="article:published_time" content="2024-01-30T14:43:32.000Z">
-<meta property="article:modified_time" content="2024-02-28T06:10:59.853Z">
+<meta property="article:modified_time" content="2024-02-28T06:14:22.220Z">
 <meta property="article:author" content="Haibin Li">
 <meta property="article:tag" content="人工智能">
 <meta property="article:tag" content="深度学习">
@@ -211,7 +211,7 @@
       <span class="post-meta mr-2">
         <i class="iconfont icon-chart"></i>
         
-          9k words
+          9.7k words
         
       </span>
     
@@ -222,7 +222,7 @@
         
         
         
-          75 mins
+          82 mins
         
       </span>
     
@@ -433,7 +433,7 @@ <h3 id="实现参数稀疏">实现参数稀疏</h3>
 <h3 id="batch-normalization">Batch Normalization</h3>
 <figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">class</span> <span class="hljs-title class_">MyBN</span>:<br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, momentum=<span class="hljs-number">0.01</span>, eps=<span class="hljs-number">1e-5</span>, feat_dim=<span class="hljs-number">2</span></span>):<br>    self._running_mean = np.zeros(shape = (feat_dim,))<br>    self._running_var = np.ones(shape = (fear_dim,))<br>    self._momentum = momentum<br>    <span class="hljs-comment">#防止分母计算为0</span><br>    self._eps = eps<br>    <br>    <span class="hljs-comment">#对应batch norm中需要更新beta 和 gamma， 采用pytorch文档中的初始化</span><br>    self._beta = np.zeros(shape=(feat_dim,))<br>    self._gamma = np.ones(shape=(feat_dim,))<br>    <br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">batch_norm</span>(<span class="hljs-params">self, x</span>):<br>    <span class="hljs-keyword">if</span> self.training:<br>      x_mean = x.mean(axis=<span class="hljs-number">0</span>)<br>      x_var = x.var(axis=<span class="hljs-number">0</span>)<br>      <span class="hljs-comment">#对应running_mean的更新公式</span><br>      self._running_mean = (<span class="hljs-number">1</span>-self._momentum)*x_mean +self._momentum*self._running_mean<br>      self._running_var = (<span class="hljs-number">1</span>-self._momentum)*x_var + self._momentum*self._running_var<br>      <span class="hljs-comment">#对应论文中计算BN公式</span><br>      x_hat = (x-x_mean)/np.sqrt(x_var+self._eps)<br>    <span class="hljs-keyword">else</span>:<br>      x_hat = (x-self._running_mean)/np.sqrt(self._running_var+self._eps)<br>    <span class="hljs-keyword">return</span> self._gamma*x_hat + self._beta<br></code></pre></td></tr></table></figure>
 <h3 id="transformer结构">Transformer结构</h3>
-<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, num_heads</span>):<br>        <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>        <span class="hljs-keyword">assert</span> d_model % num_heads == <span class="hljs-number">0</span><br>        self.d_model = d_model<br>        self.num_heads = num_heads<br>        self.depth = d_model // num_heads<br>        <br>        self.wq = nn.Linear(d_model, d_model)<br>        self.wk = nn.Linear(d_model, d_model)<br>        self.wv = nn.Linear(d_model, d_model)<br>        <br>        self.dense = nn.Linear(d_model, d_model)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">split_heads</span>(<span class="hljs-params">self, x, batch_size</span>):<br>        x = x.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.depth)<br>        <span class="hljs-keyword">return</span> x.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>    <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, q, k, v, mask=<span class="hljs-literal">None</span></span>):<br>        batch_size = q.size(<span class="hljs-number">0</span>)<br>        <br>        q = self.wq(q)<br>        k = self.wk(k)<br>        v = self.wv(v)<br>        <br>        q = self.split_heads(q, batch_size)<br>        k = self.split_heads(k, batch_size)<br>        v = self.split_heads(v, batch_size)<br>        <br>        scaled_attention_logits = torch.matmul(q, k.transpose(-<span class="hljs-number">1</span>, -<span class="hljs-number">2</span>)) / torch.sqrt(torch.tensor(self.depth, dtype=torch.float32))<br>        <span class="hljs-keyword">if</span> mask <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>:<br>            scaled_attention_logits += (mask * -<span class="hljs-number">1e9</span>)<br>        <br>        attention_weights = torch.softmax(scaled_attention_logits, dim=-<span class="hljs-number">1</span>)<br>        output = torch.matmul(attention_weights, v)<br>        <br>        output = output.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>).contiguous().view(batch_size, -<span class="hljs-number">1</span>, self.d_model)<br>        output = self.dense(output)<br>        <br>        <span class="hljs-keyword">return</span> output, attention_weights<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">PositionwiseFeedForward</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, dff</span>):<br>        <span class="hljs-built_in">super</span>(PositionwiseFeedForward, self).__init__()<br>        self.fc1 = nn.Linear(d_model, dff)<br>        self.fc2 = nn.Linear(dff, d_model)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>        x = self.fc1(x)<br>        x = torch.relu(x)<br>        x = self.fc2(x)<br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">TransformerBlock</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, num_heads, dff, dropout_rate=<span class="hljs-number">0.1</span></span>):<br>        <span class="hljs-built_in">super</span>(TransformerBlock, self).__init__()<br>        <br>        self.mha = MultiHeadAttention(d_model, num_heads)<br>        self.ffn = PositionwiseFeedForward(d_model, dff)<br>        <br>        self.layernorm1 = nn.LayerNorm(d_model)<br>        self.layernorm2 = nn.LayerNorm(d_model)<br>        <br>        self.dropout1 = nn.Dropout(dropout_rate)<br>        self.dropout2 = nn.Dropout(dropout_rate)<br>        <br>        self.dropout_rate = dropout_rate<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        attn_output, _ = self.mha(x, x, x, mask)<br>        attn_output = self.dropout1(attn_output)<br>        out1 = self.layernorm1(x + attn_output)<br>        <br>        ffn_output = self.ffn(out1)<br><br></code></pre></td></tr></table></figure>
+<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><span class="hljs-keyword">import</span> torch.nn.functional <span class="hljs-keyword">as</span> F<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, num_heads</span>):<br>        <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>        self.num_heads = num_heads<br>        self.head_dim = embed_dim // num_heads<br>        <br>        self.query_fc = nn.Linear(embed_dim, embed_dim)<br>        self.key_fc = nn.Linear(embed_dim, embed_dim)<br>        self.value_fc = nn.Linear(embed_dim, embed_dim)<br>        self.fc_out = nn.Linear(embed_dim, embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, query, key, value, mask=<span class="hljs-literal">None</span></span>):<br>        batch_size = query.shape[<span class="hljs-number">0</span>]<br>        <br>        <span class="hljs-comment"># Linearly project queries, keys, and values</span><br>        Q = self.query_fc(query)<br>        K = self.key_fc(key)<br>        V = self.value_fc(value)<br>        <br>        <span class="hljs-comment"># Split the embedding into num_heads</span><br>        Q = Q.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        K = K.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        V = V.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        <br>        <span class="hljs-comment"># Calculate the attention scores</span><br>        scores = torch.matmul(Q, K.permute(<span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>, <span class="hljs-number">2</span>)) / torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float32))<br>        <br>        <span class="hljs-keyword">if</span> mask <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>:<br>            scores = scores.masked_fill(mask == <span class="hljs-number">0</span>, <span class="hljs-built_in">float</span>(<span class="hljs-string">&quot;-1e20&quot;</span>))<br>        <br>        <span class="hljs-comment"># Apply softmax to get attention probabilities</span><br>        attention_weights = F.softmax(scores, dim=-<span class="hljs-number">1</span>)<br>        <br>        <span class="hljs-comment"># Apply dropout</span><br>        attention_weights = F.dropout(attention_weights, p=<span class="hljs-number">0.1</span>, training=self.training)<br>        <br>        <span class="hljs-comment"># Multiply the attention weights with the values</span><br>        output = torch.matmul(attention_weights, V)<br>        <br>        <span class="hljs-comment"># Concatenate multi-heads and project</span><br>        output = output.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>).contiguous().view(batch_size, -<span class="hljs-number">1</span>, embed_dim)<br>        output = self.fc_out(output)<br>        <br>        <span class="hljs-keyword">return</span> output, attention_weights<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">PositionwiseFeedforward</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(PositionwiseFeedforward, self).__init__()<br>        self.fc1 = nn.Linear(embed_dim, hidden_dim)<br>        self.fc2 = nn.Linear(hidden_dim, embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>        x = F.relu(self.fc1(x))<br>        x = self.fc2(x)<br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">EncoderLayer</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, num_heads, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(EncoderLayer, self).__init__()<br>        self.multihead_attention = MultiHeadAttention(embed_dim, num_heads)<br>        self.feed_forward = PositionwiseFeedforward(embed_dim, hidden_dim)<br>        self.layer_norm1 = nn.LayerNorm(embed_dim)<br>        self.layer_norm2 = nn.LayerNorm(embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        <span class="hljs-comment"># Multi-Head Attention</span><br>        residual = x<br>        x, _ = self.multihead_attention(x, x, x, mask)<br>        x = self.layer_norm1(x + residual)<br>        <br>        <span class="hljs-comment"># Feed Forward</span><br>        residual = x<br>        x = self.feed_forward(x)<br>        x = self.layer_norm2(x + residual)<br>        <br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">TransformerEncoder</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, vocab_size, embed_dim, num_layers, num_heads, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(TransformerEncoder, self).__init__()<br>        self.embedding = nn.Embedding(vocab_size, embed_dim)<br>        self.layers = nn.ModuleList([EncoderLayer(embed_dim, num_heads, hidden_dim) <span class="hljs-keyword">for</span> _ <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(num_layers)])<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        x = self.embedding(x)<br>        <span class="hljs-keyword">for</span> layer <span class="hljs-keyword">in</span> self.layers:<br>            x = layer(x, mask)<br>        <span class="hljs-keyword">return</span> x<br><br></code></pre></td></tr></table></figure>
 
                 
               </div>
diff --git a/local-search.xml b/local-search.xml
index dd4db66..6b901e2 100644
--- a/local-search.xml
+++ b/local-search.xml
@@ -64,7 +64,7 @@
     <link href="/2024/01/30/dl_summary/"/>
     <url>/2024/01/30/dl_summary/</url>
     
-    <content type="html"><![CDATA[<h1 id="深度学习知识汇总">深度学习知识汇总</h1><p>深度学习八股文，这里将会收集深度学习中的基本概念和常见的问题</p><p><ahref="https://blog.csdn.net/weixin_42693876/article/details/120345924">https://blog.csdn.net/weixin_42693876/article/details/120345924</a></p><p>L2范数<ahref="https://blog.csdn.net/u010725283/article/details/79212762">https://blog.csdn.net/u010725283/article/details/79212762</a></p><p>L1L2范数 <ahref="https://blog.csdn.net/weixin_35849560/article/details/113395018">https://blog.csdn.net/weixin_35849560/article/details/113395018</a></p><p>Transformer为什么用多头 <ahref="https://www.zhihu.com/question/341222779">https://www.zhihu.com/question/341222779</a></p><p>Transformer里的LN <ahref="https://blog.csdn.net/weixin_45069761/article/details/107834049">https://blog.csdn.net/weixin_45069761/article/details/107834049</a></p><p><ahref="https://zhuanlan.zhihu.com/p/560482252">https://zhuanlan.zhihu.com/p/560482252</a></p><p>batch和minibatch <ahref="https://link.zhihu.com/?target=https%3A//blog.csdn.net/xys430381_1/article/details/80680167">https://link.zhihu.com/?target=https%3A//blog.csdn.net/xys430381_1/article/details/80680167</a></p><p>优化器 <ahref="https://zhuanlan.zhihu.com/p/78622301">https://zhuanlan.zhihu.com/p/78622301</a></p><p>BN <ahref="https://zhuanlan.zhihu.com/p/93643523">https://zhuanlan.zhihu.com/p/93643523</a></p><p>神经网络权重初始化 <ahref="https://blog.csdn.net/kebu12345678/article/details/103084851">https://blog.csdn.net/kebu12345678/article/details/103084851</a></p><p><ahref="https://zhuanlan.zhihu.com/p/667048896">https://zhuanlan.zhihu.com/p/667048896</a></p><p><ahref="https://zhuanlan.zhihu.com/p/643560888">https://zhuanlan.zhihu.com/p/643560888</a></p><p>bert模型细节 <ahref="https://www.zhihu.com/question/534763354">https://www.zhihu.com/question/534763354</a></p><p>为什么Bert三个embedding可以相加 <ahref="https://www.zhihu.com/question/374835153/answer/1080315948">https://www.zhihu.com/question/374835153/answer/1080315948</a></p><p>LLAMA2结构<ahref="https://blog.csdn.net/sikh_0529/article/details/134375318">https://blog.csdn.net/sikh_0529/article/details/134375318</a></p><p>旋转位置嵌入<ahref="https://www.zhihu.com/tardis/zm/art/647109286?source_id=1005">https://www.zhihu.com/tardis/zm/art/647109286?source_id=1005</a></p><p>Qlora <ahref="https://zhuanlan.zhihu.com/p/618894919">https://zhuanlan.zhihu.com/p/618894919</a></p><p>RLHF <ahref="https://zhuanlan.zhihu.com/p/631238431">https://zhuanlan.zhihu.com/p/631238431</a></p><pre><code class="hljs">    [https://zhuanlan.zhihu.com/p/599016986](https://zhuanlan.zhihu.com/p/599016986)</code></pre><h3 id="逻辑回归和线性回归"><strong>逻辑回归和线性回归</strong></h3><p><strong>线性回归解决的是回归问题，逻辑回归相当于是线性回归的基础上，来解决分类问题</strong>。</p>线性回归(Linear Regression) <span class="math display">\[\begin{aligned}&amp;f_{w, b}(x)=\sum_i w_i x_i+b\\\end{aligned}\]</span> 逻辑回归(Logistic Regression) $$<span class="math display">\[\begin{aligned}&amp;f_{w, b}(x)=\sigma\left(\sum_i w_i x_i+b\right)\end{aligned}\]</span><p>$$ 逻辑回归可以理解为在线性回归后加了一个 <code>sigmoid</code>函数。将线性回归变成一个<code>0~1</code>输出的分类问题。逻辑回归本质上是一个线性回归模型，因为除去<code>sigmoid</code>映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归都是以线性回归为理论支持的，只不过逻辑回归可以轻松解决<code>0/1</code> 分类问题。</p><h3 id="深度学习模型的参数都在-0-1-之间">深度学习模型的参数都在 0-1之间</h3><p>因为参数越小代表模型越简单，越是复杂的模型，越是尝试对所有样本进行拟合，包括异常点。这就会造成在较小的区间中产生较大的波动，这个较大的波动也会反映在这个区间的导数比较大。只有越大的参数才可能产生较大的导数。因此参数越小，模型就越简单。</p><h3 id="实现参数稀疏">实现参数稀疏</h3><p>参数的稀疏，在一定程度上实现了特征的选择。一般而言，大部分特征对模型是没有贡献的。这些没有用的特征虽然可以减少训练集上的误差，但是对测试集的样本，反而会产生干扰。稀疏参数的引入，可以将那些无用的特征的权重置为0</p><h3id="batch_size的大小对学习率的影响">Batch_size的大小对学习率的影响</h3><ul><li>batch-size大，学习率也可以取得大一点，而且，batch-size大通常更新次数少，所以需要更多的epoch才能让loss收敛。</li><li>batch-size小，学习率应该取得小一点，取的大会发生nan（梯度爆炸了），batch-size小通常更新次数多，较少的epoch就课可以让loss收敛，但是缺点是训练过程慢。</li></ul><p>为什么batch-size小，学习率取的大会发生nan？学习率较高的情况下，直接影响到每次更新值的程度比较大，走的步伐因此也会大起来。如下图，过大的学习率会导致无法顺利地到达最低点，稍有不慎就会跳出可控制区域，此时我们将要面对的就是损失成倍增大(跨量级)</p><p>优化器<code>optimizer</code>和损失函数<code>loss function</code>的区别：</p><ol type="1"><li>优化器定义了哪些参数是要用来更新的，并且设置了更新的方式（学习率、动量、SGD等），还有一些权重衰减的设置。</li><li>损失函数是用来计算损失的，也可以说损失函数是负责反向传播求导用的</li></ol><p>残差结构设计思想：残差网络的本质也是解决梯度消失/爆炸的问题，只不过是在网络结构层面的改变残差网络的出现解决了构建深层神经网络时网络退化即梯度消失/爆炸的问题。残差结构主要设计有两个，快捷连接（shortcutconnection）和恒等映射（identitymapping），快捷连接使得残差变得可能，而恒等映射使得网络变深，恒等映射主要有两个：跳跃连接和激活函数</p><p><strong>Adam与SGD的区别</strong></p><p>SGD缺点是其更新方向完全依赖于当前batch计算出的梯度，因而十分不稳定。</p><p>Adam的优点主要在于：</p><ul><li>考虑历史步中的梯度更新信息，能够降低梯度更新噪声。</li><li>此外经过偏差校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。</li></ul><p>但是Adam也有其自身问题：可能会对前期出现的特征过拟合，后期才出现的特征很难纠正前期的拟合效果。二者似乎都没法很好避免局部最优问题。</p><p><strong>softmax如何防止指数上溢</strong></p><p>在计算softmax函数时，指数上溢是一个常见的问题，特别是当输入的数值非常大时，指数函数的计算结果可能会溢出。为了解决这个问题，可以采取以下几种方法：</p><ol type="1"><li><p><strong>数值稳定性技巧</strong>：为了避免指数函数的溢出，可以将输入的数值减去一个常数，使得输入相对较小，从而减少指数函数的值。通常，可以通过找到输入向量中的最大值，并将所有元素减去这个最大值来实现数值稳定性。</p><p><img src="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240222173542613.png" alt="image-20240222173542613" style="zoom:67%;" /></p><p>这样做可以保持相对稳定，防止指数函数的溢出。</p></li><li><p><strong>利用性质</strong>：softmax函数的分子和分母同时除以一个相同的常数并不会改变函数的值。因此，我们可以在计算softmax时，将所有输入向量的值都减去向量中的最大值，然后进行softmax计算。</p></li></ol><p>以上两种方法都可以有效地避免指数上溢的问题，并保持softmax函数的数值稳定性。在实际应用中，通常会使用这些技巧来计算softmax函数，以确保模型的稳定性和数值精度。</p><p><strong>训练过程中发现loss快速增大应该从哪些方面考虑?</strong></p><ol type="1"><li><ol type="1"><li>学习率过大</li><li>训练样本中有坏数据</li></ol></li><li><p><strong>model.eval vs和torch.no_grad区别</strong></p></li><li><ul><li>model.eval():依然计算梯度，但是不反传；dropout层保留概率为1；batchnorm层使用全局的mean和var</li><li>with torch.no_grad: 不计算梯度</li></ul></li><li></li><li></li><li><p><strong>Dropout和Batch norm能否一起使用？</strong></p></li><li><p>可以，但是只能将Dropout放在Batchnorm之后使用。因为Dropout训练时会改变输入X的方差，从而影响Batchnorm训练过程中统计的滑动方差值；而测试时没有Dropout，输入X的方差和训练时不一致，这就导致Batchnorm测试时期望的方差和训练时统计的有偏差。</p></li><li></li><li><p><strong>梯度消失和梯度爆炸</strong></p></li><li><p><strong>梯度消失的原因和解决办法</strong></p></li><li><p>（1）隐藏层的层数过多</p></li><li><p>反向传播求梯度时的链式求导法则，某部分梯度小于1，则多层连乘后出现梯度消失</p></li><li><p>（2）采用了不合适的激活函数</p></li><li><p>如sigmoid函数的最大梯度为1/4，这意味着隐藏层每一层的梯度均小于1（权值小于1时），出现梯度消失。</p></li><li><p>解决方法：1、relu激活函数，使导数衡为1 2、batch norm3、残差结构</p></li><li><p><strong>梯度爆炸的原因和解决办法</strong></p></li><li><p>（1）隐藏层的层数过多，某部分梯度大于1，则多层连乘后，梯度呈指数增长，产生梯度爆炸。</p></li><li><p>（2）权重初始值太大，求导时会乘上权重</p></li><li><p>解决方法：1、梯度裁剪 2、权重L1/L2正则化 3、残差结构 4、batchnorm</p></li><li></li><li></li><li><p><strong>Batch Normalization（Batch Norm）</strong>：<strong>缺点</strong>：在处理序列数据（如文本）时，BatchNorm可能不会表现得很好，因为序列数据通常长度不一，并且一次训练的Batch中的句子的长度可能会有很大的差异；此外，BatchNorm对于Batch大小也非常敏感。对于较小的Batch大小，BatchNorm可能会表现得不好，因为每个Batch的统计特性可能会有较大的波动。</p></li><li><p><strong>Layer Normalization（Layer Norm）</strong>：<strong>优点</strong>：LayerNorm是对每个样本进行归一化，因此它对Batch大小不敏感，这使得它在处理序列数据时表现得更好；另外，LayerNorm在处理不同长度的序列时也更为灵活。</p></li><li><p><strong>Instance Normalization（Instance Norm）</strong>：<strong>优点</strong>：InstanceNorm是对每个样本的每个特征进行归一化，因此它可以捕捉到更多的细节信息。InstanceNorm在某些任务，如风格迁移，中表现得很好，因为在这些任务中，细节信息很重要。<strong>缺点</strong>：InstanceNorm可能会过度强调细节信息，忽视了更宏观的信息。此外，InstanceNorm的计算成本相比Batch Norm和Layer Norm更高。</p></li><li><p><strong>Group Normalization（Group Norm）</strong>：<strong>优点</strong>：Group Norm是Batch Norm和InstanceNorm的折中方案，它在Batch的一个子集（即组）上进行归一化。这使得GroupNorm既可以捕捉到Batch的统计特性，又可以捕捉到样本的细节信息。此外，GroupNorm对Batch大小也不敏感。 <strong>缺点</strong>：GroupNorm的性能取决于组的大小，需要通过实验来确定最优的组大小。此外，GroupNorm的计算成本也比Batch Norm和Layer Norm更高。</p></li><li></li></ol><h3id="pytorch实现自注意力和多头注意力">pytorch实现自注意力和多头注意力</h3><p>自注意力</p><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">from</span> math <span class="hljs-keyword">import</span> sqrt<br><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">SelfAttention</span>(nn.Module):<br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, dim_in, dim_k, dim_v</span>):<br>    <span class="hljs-built_in">super</span>(SelfAttention, self).__init__()<br>    self.dim_in = dim_in<br>    self.dim_k = dim_k<br>    self.dim_v = dim_v<br>    self.linear_q = nn.Linear(dim_in, dim_k, bias=<span class="hljs-literal">False</span>)<br>    self.linear_k = nn.Linear(dim_in, dim_k, bias=<span class="hljs-literal">False</span>)<br>    self.linear_v = nn.Linear(dim_in, dim_v, bias=<span class="hljs-literal">False</span>)<br>    self._norm_fact = <span class="hljs-number">1</span>/sqrt(dim_k)<br>    <br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>    batch, n, dim_in = x.shape<br>    <span class="hljs-keyword">assert</span> dim_in == self.dim_in<br>    <br>    q = self.linear_q(x) <span class="hljs-comment">#batch, n, dim_k</span><br>    k = self.linear_k(x)<br>    v = self.linear_v(x)<br>    <br>    dist = torch.bmm(q, k.transpose(<span class="hljs-number">1</span>,<span class="hljs-number">2</span>))* self._norm_fact <span class="hljs-comment">#batch, n, n</span><br>    dist = torch.softmax(dist, dim=-<span class="hljs-number">1</span>)<br>    <br>    att = torch.bmm(dist, v)<br>    <span class="hljs-keyword">return</span> att<br>    <br></code></pre></td></tr></table></figure><p>多头注意力机制</p><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">from</span> math <span class="hljs-keyword">import</span> sqrt<br><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>  <span class="hljs-comment">#dim_in input dimention</span><br>  <span class="hljs-comment">#dim_k kq dimention</span><br>  <span class="hljs-comment">#dim_v value dimention</span><br>  <span class="hljs-comment">#num_heads number of heads</span><br>  <br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, dim_in, dim_k, dim_v, num_heads=<span class="hljs-number">8</span></span>):<br>    <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>    <span class="hljs-keyword">assert</span> dim_k% num_heads ==<span class="hljs-number">0</span> <span class="hljs-keyword">and</span> dim_v% num_heads ==<span class="hljs-number">0</span><br>    <br>    self.dim_in = dim_in<br>    self.dim_k = dim_k<br>    self.dim_v = dim_v<br>    self.num_heads = num_heads<br>    self.linear_q = nn.Linear(dim_in, dim_k, bias==<span class="hljs-literal">False</span>)<br>    self.linear_k = nn.Linear(dim_in, dim_k, bias==<span class="hljs-literal">False</span>)<br>    self.linear_v = nn.Linear(dim_in, dim_v, bias==<span class="hljs-literal">False</span>)<br>    self._norm_fact = <span class="hljs-number">1</span>/sqrt(dim_k//num_heads)<br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">forwards</span>(<span class="hljs-params">self, x</span>):<br>    <span class="hljs-comment"># x: tensor of shape(batch, n, dim_in)</span><br>    batch, n, dim_in = x.shape<br>    <span class="hljs-keyword">assert</span> dim_in = self.dim_in<br>    <br>    nh = self.num_heads<br>    dk = self.dim_k // nh<br>    dv = self.dim_v // nh<br>    <br>    q = self.linear_q(x).reshape(batch, n, nh, dk).transpose(<span class="hljs-number">1</span>, <span class="hljs-number">2</span>)<br>    k = self.linear_k(x).reshape(batch, n, nh, dk).transpose(<span class="hljs-number">1</span>, <span class="hljs-number">2</span>)<br>    v = self.linear_v(x).reshape(batch, n, nk, dk).transpose(<span class="hljs-number">1</span>, <span class="hljs-number">2</span>)<br>    <br>    dist = torch.matmul(q, k.transpose(<span class="hljs-number">2</span>,<span class="hljs-number">3</span>))*self._norm_fact<br>    dist = torch.softmax(dist, dim=-<span class="hljs-number">1</span>)<br>    <br>    att = torch.matmul(dist, v)<br>    att = att.transpose(<span class="hljs-number">1</span>,<span class="hljs-number">2</span>).reshape(batch, n, self.dim_v)<br></code></pre></td></tr></table></figure><h3 id="batch-normalization">Batch Normalization</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">class</span> <span class="hljs-title class_">MyBN</span>:<br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, momentum=<span class="hljs-number">0.01</span>, eps=<span class="hljs-number">1e-5</span>, feat_dim=<span class="hljs-number">2</span></span>):<br>    self._running_mean = np.zeros(shape = (feat_dim,))<br>    self._running_var = np.ones(shape = (fear_dim,))<br>    self._momentum = momentum<br>    <span class="hljs-comment">#防止分母计算为0</span><br>    self._eps = eps<br>    <br>    <span class="hljs-comment">#对应batch norm中需要更新beta 和 gamma， 采用pytorch文档中的初始化</span><br>    self._beta = np.zeros(shape=(feat_dim,))<br>    self._gamma = np.ones(shape=(feat_dim,))<br>    <br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">batch_norm</span>(<span class="hljs-params">self, x</span>):<br>    <span class="hljs-keyword">if</span> self.training:<br>      x_mean = x.mean(axis=<span class="hljs-number">0</span>)<br>      x_var = x.var(axis=<span class="hljs-number">0</span>)<br>      <span class="hljs-comment">#对应running_mean的更新公式</span><br>      self._running_mean = (<span class="hljs-number">1</span>-self._momentum)*x_mean +self._momentum*self._running_mean<br>      self._running_var = (<span class="hljs-number">1</span>-self._momentum)*x_var + self._momentum*self._running_var<br>      <span class="hljs-comment">#对应论文中计算BN公式</span><br>      x_hat = (x-x_mean)/np.sqrt(x_var+self._eps)<br>    <span class="hljs-keyword">else</span>:<br>      x_hat = (x-self._running_mean)/np.sqrt(self._running_var+self._eps)<br>    <span class="hljs-keyword">return</span> self._gamma*x_hat + self._beta<br></code></pre></td></tr></table></figure><h3 id="transformer结构">Transformer结构</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, num_heads</span>):<br>        <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>        <span class="hljs-keyword">assert</span> d_model % num_heads == <span class="hljs-number">0</span><br>        self.d_model = d_model<br>        self.num_heads = num_heads<br>        self.depth = d_model // num_heads<br>        <br>        self.wq = nn.Linear(d_model, d_model)<br>        self.wk = nn.Linear(d_model, d_model)<br>        self.wv = nn.Linear(d_model, d_model)<br>        <br>        self.dense = nn.Linear(d_model, d_model)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">split_heads</span>(<span class="hljs-params">self, x, batch_size</span>):<br>        x = x.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.depth)<br>        <span class="hljs-keyword">return</span> x.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>    <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, q, k, v, mask=<span class="hljs-literal">None</span></span>):<br>        batch_size = q.size(<span class="hljs-number">0</span>)<br>        <br>        q = self.wq(q)<br>        k = self.wk(k)<br>        v = self.wv(v)<br>        <br>        q = self.split_heads(q, batch_size)<br>        k = self.split_heads(k, batch_size)<br>        v = self.split_heads(v, batch_size)<br>        <br>        scaled_attention_logits = torch.matmul(q, k.transpose(-<span class="hljs-number">1</span>, -<span class="hljs-number">2</span>)) / torch.sqrt(torch.tensor(self.depth, dtype=torch.float32))<br>        <span class="hljs-keyword">if</span> mask <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>:<br>            scaled_attention_logits += (mask * -<span class="hljs-number">1e9</span>)<br>        <br>        attention_weights = torch.softmax(scaled_attention_logits, dim=-<span class="hljs-number">1</span>)<br>        output = torch.matmul(attention_weights, v)<br>        <br>        output = output.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>).contiguous().view(batch_size, -<span class="hljs-number">1</span>, self.d_model)<br>        output = self.dense(output)<br>        <br>        <span class="hljs-keyword">return</span> output, attention_weights<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">PositionwiseFeedForward</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, dff</span>):<br>        <span class="hljs-built_in">super</span>(PositionwiseFeedForward, self).__init__()<br>        self.fc1 = nn.Linear(d_model, dff)<br>        self.fc2 = nn.Linear(dff, d_model)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>        x = self.fc1(x)<br>        x = torch.relu(x)<br>        x = self.fc2(x)<br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">TransformerBlock</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, num_heads, dff, dropout_rate=<span class="hljs-number">0.1</span></span>):<br>        <span class="hljs-built_in">super</span>(TransformerBlock, self).__init__()<br>        <br>        self.mha = MultiHeadAttention(d_model, num_heads)<br>        self.ffn = PositionwiseFeedForward(d_model, dff)<br>        <br>        self.layernorm1 = nn.LayerNorm(d_model)<br>        self.layernorm2 = nn.LayerNorm(d_model)<br>        <br>        self.dropout1 = nn.Dropout(dropout_rate)<br>        self.dropout2 = nn.Dropout(dropout_rate)<br>        <br>        self.dropout_rate = dropout_rate<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        attn_output, _ = self.mha(x, x, x, mask)<br>        attn_output = self.dropout1(attn_output)<br>        out1 = self.layernorm1(x + attn_output)<br>        <br>        ffn_output = self.ffn(out1)<br><br></code></pre></td></tr></table></figure>]]></content>
+    <content type="html"><![CDATA[<h1 id="深度学习知识汇总">深度学习知识汇总</h1><p>深度学习八股文，这里将会收集深度学习中的基本概念和常见的问题</p><p><ahref="https://blog.csdn.net/weixin_42693876/article/details/120345924">https://blog.csdn.net/weixin_42693876/article/details/120345924</a></p><p>L2范数<ahref="https://blog.csdn.net/u010725283/article/details/79212762">https://blog.csdn.net/u010725283/article/details/79212762</a></p><p>L1L2范数 <ahref="https://blog.csdn.net/weixin_35849560/article/details/113395018">https://blog.csdn.net/weixin_35849560/article/details/113395018</a></p><p>Transformer为什么用多头 <ahref="https://www.zhihu.com/question/341222779">https://www.zhihu.com/question/341222779</a></p><p>Transformer里的LN <ahref="https://blog.csdn.net/weixin_45069761/article/details/107834049">https://blog.csdn.net/weixin_45069761/article/details/107834049</a></p><p><ahref="https://zhuanlan.zhihu.com/p/560482252">https://zhuanlan.zhihu.com/p/560482252</a></p><p>batch和minibatch <ahref="https://link.zhihu.com/?target=https%3A//blog.csdn.net/xys430381_1/article/details/80680167">https://link.zhihu.com/?target=https%3A//blog.csdn.net/xys430381_1/article/details/80680167</a></p><p>优化器 <ahref="https://zhuanlan.zhihu.com/p/78622301">https://zhuanlan.zhihu.com/p/78622301</a></p><p>BN <ahref="https://zhuanlan.zhihu.com/p/93643523">https://zhuanlan.zhihu.com/p/93643523</a></p><p>神经网络权重初始化 <ahref="https://blog.csdn.net/kebu12345678/article/details/103084851">https://blog.csdn.net/kebu12345678/article/details/103084851</a></p><p><ahref="https://zhuanlan.zhihu.com/p/667048896">https://zhuanlan.zhihu.com/p/667048896</a></p><p><ahref="https://zhuanlan.zhihu.com/p/643560888">https://zhuanlan.zhihu.com/p/643560888</a></p><p>bert模型细节 <ahref="https://www.zhihu.com/question/534763354">https://www.zhihu.com/question/534763354</a></p><p>为什么Bert三个embedding可以相加 <ahref="https://www.zhihu.com/question/374835153/answer/1080315948">https://www.zhihu.com/question/374835153/answer/1080315948</a></p><p>LLAMA2结构<ahref="https://blog.csdn.net/sikh_0529/article/details/134375318">https://blog.csdn.net/sikh_0529/article/details/134375318</a></p><p>旋转位置嵌入<ahref="https://www.zhihu.com/tardis/zm/art/647109286?source_id=1005">https://www.zhihu.com/tardis/zm/art/647109286?source_id=1005</a></p><p>Qlora <ahref="https://zhuanlan.zhihu.com/p/618894919">https://zhuanlan.zhihu.com/p/618894919</a></p><p>RLHF <ahref="https://zhuanlan.zhihu.com/p/631238431">https://zhuanlan.zhihu.com/p/631238431</a></p><pre><code class="hljs">    [https://zhuanlan.zhihu.com/p/599016986](https://zhuanlan.zhihu.com/p/599016986)</code></pre><h3 id="逻辑回归和线性回归"><strong>逻辑回归和线性回归</strong></h3><p><strong>线性回归解决的是回归问题，逻辑回归相当于是线性回归的基础上，来解决分类问题</strong>。</p>线性回归(Linear Regression) <span class="math display">\[\begin{aligned}&amp;f_{w, b}(x)=\sum_i w_i x_i+b\\\end{aligned}\]</span> 逻辑回归(Logistic Regression) $$<span class="math display">\[\begin{aligned}&amp;f_{w, b}(x)=\sigma\left(\sum_i w_i x_i+b\right)\end{aligned}\]</span><p>$$ 逻辑回归可以理解为在线性回归后加了一个 <code>sigmoid</code>函数。将线性回归变成一个<code>0~1</code>输出的分类问题。逻辑回归本质上是一个线性回归模型，因为除去<code>sigmoid</code>映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归都是以线性回归为理论支持的，只不过逻辑回归可以轻松解决<code>0/1</code> 分类问题。</p><h3 id="深度学习模型的参数都在-0-1-之间">深度学习模型的参数都在 0-1之间</h3><p>因为参数越小代表模型越简单，越是复杂的模型，越是尝试对所有样本进行拟合，包括异常点。这就会造成在较小的区间中产生较大的波动，这个较大的波动也会反映在这个区间的导数比较大。只有越大的参数才可能产生较大的导数。因此参数越小，模型就越简单。</p><h3 id="实现参数稀疏">实现参数稀疏</h3><p>参数的稀疏，在一定程度上实现了特征的选择。一般而言，大部分特征对模型是没有贡献的。这些没有用的特征虽然可以减少训练集上的误差，但是对测试集的样本，反而会产生干扰。稀疏参数的引入，可以将那些无用的特征的权重置为0</p><h3id="batch_size的大小对学习率的影响">Batch_size的大小对学习率的影响</h3><ul><li>batch-size大，学习率也可以取得大一点，而且，batch-size大通常更新次数少，所以需要更多的epoch才能让loss收敛。</li><li>batch-size小，学习率应该取得小一点，取的大会发生nan（梯度爆炸了），batch-size小通常更新次数多，较少的epoch就课可以让loss收敛，但是缺点是训练过程慢。</li></ul><p>为什么batch-size小，学习率取的大会发生nan？学习率较高的情况下，直接影响到每次更新值的程度比较大，走的步伐因此也会大起来。如下图，过大的学习率会导致无法顺利地到达最低点，稍有不慎就会跳出可控制区域，此时我们将要面对的就是损失成倍增大(跨量级)</p><p>优化器<code>optimizer</code>和损失函数<code>loss function</code>的区别：</p><ol type="1"><li>优化器定义了哪些参数是要用来更新的，并且设置了更新的方式（学习率、动量、SGD等），还有一些权重衰减的设置。</li><li>损失函数是用来计算损失的，也可以说损失函数是负责反向传播求导用的</li></ol><p>残差结构设计思想：残差网络的本质也是解决梯度消失/爆炸的问题，只不过是在网络结构层面的改变残差网络的出现解决了构建深层神经网络时网络退化即梯度消失/爆炸的问题。残差结构主要设计有两个，快捷连接（shortcutconnection）和恒等映射（identitymapping），快捷连接使得残差变得可能，而恒等映射使得网络变深，恒等映射主要有两个：跳跃连接和激活函数</p><p><strong>Adam与SGD的区别</strong></p><p>SGD缺点是其更新方向完全依赖于当前batch计算出的梯度，因而十分不稳定。</p><p>Adam的优点主要在于：</p><ul><li>考虑历史步中的梯度更新信息，能够降低梯度更新噪声。</li><li>此外经过偏差校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。</li></ul><p>但是Adam也有其自身问题：可能会对前期出现的特征过拟合，后期才出现的特征很难纠正前期的拟合效果。二者似乎都没法很好避免局部最优问题。</p><p><strong>softmax如何防止指数上溢</strong></p><p>在计算softmax函数时，指数上溢是一个常见的问题，特别是当输入的数值非常大时，指数函数的计算结果可能会溢出。为了解决这个问题，可以采取以下几种方法：</p><ol type="1"><li><p><strong>数值稳定性技巧</strong>：为了避免指数函数的溢出，可以将输入的数值减去一个常数，使得输入相对较小，从而减少指数函数的值。通常，可以通过找到输入向量中的最大值，并将所有元素减去这个最大值来实现数值稳定性。</p><p><img src="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240222173542613.png" alt="image-20240222173542613" style="zoom:67%;" /></p><p>这样做可以保持相对稳定，防止指数函数的溢出。</p></li><li><p><strong>利用性质</strong>：softmax函数的分子和分母同时除以一个相同的常数并不会改变函数的值。因此，我们可以在计算softmax时，将所有输入向量的值都减去向量中的最大值，然后进行softmax计算。</p></li></ol><p>以上两种方法都可以有效地避免指数上溢的问题，并保持softmax函数的数值稳定性。在实际应用中，通常会使用这些技巧来计算softmax函数，以确保模型的稳定性和数值精度。</p><p><strong>训练过程中发现loss快速增大应该从哪些方面考虑?</strong></p><ol type="1"><li><ol type="1"><li>学习率过大</li><li>训练样本中有坏数据</li></ol></li><li><p><strong>model.eval vs和torch.no_grad区别</strong></p></li><li><ul><li>model.eval():依然计算梯度，但是不反传；dropout层保留概率为1；batchnorm层使用全局的mean和var</li><li>with torch.no_grad: 不计算梯度</li></ul></li><li></li><li></li><li><p><strong>Dropout和Batch norm能否一起使用？</strong></p></li><li><p>可以，但是只能将Dropout放在Batchnorm之后使用。因为Dropout训练时会改变输入X的方差，从而影响Batchnorm训练过程中统计的滑动方差值；而测试时没有Dropout，输入X的方差和训练时不一致，这就导致Batchnorm测试时期望的方差和训练时统计的有偏差。</p></li><li></li><li><p><strong>梯度消失和梯度爆炸</strong></p></li><li><p><strong>梯度消失的原因和解决办法</strong></p></li><li><p>（1）隐藏层的层数过多</p></li><li><p>反向传播求梯度时的链式求导法则，某部分梯度小于1，则多层连乘后出现梯度消失</p></li><li><p>（2）采用了不合适的激活函数</p></li><li><p>如sigmoid函数的最大梯度为1/4，这意味着隐藏层每一层的梯度均小于1（权值小于1时），出现梯度消失。</p></li><li><p>解决方法：1、relu激活函数，使导数衡为1 2、batch norm3、残差结构</p></li><li><p><strong>梯度爆炸的原因和解决办法</strong></p></li><li><p>（1）隐藏层的层数过多，某部分梯度大于1，则多层连乘后，梯度呈指数增长，产生梯度爆炸。</p></li><li><p>（2）权重初始值太大，求导时会乘上权重</p></li><li><p>解决方法：1、梯度裁剪 2、权重L1/L2正则化 3、残差结构 4、batchnorm</p></li><li></li><li></li><li><p><strong>Batch Normalization（Batch Norm）</strong>：<strong>缺点</strong>：在处理序列数据（如文本）时，BatchNorm可能不会表现得很好，因为序列数据通常长度不一，并且一次训练的Batch中的句子的长度可能会有很大的差异；此外，BatchNorm对于Batch大小也非常敏感。对于较小的Batch大小，BatchNorm可能会表现得不好，因为每个Batch的统计特性可能会有较大的波动。</p></li><li><p><strong>Layer Normalization（Layer Norm）</strong>：<strong>优点</strong>：LayerNorm是对每个样本进行归一化，因此它对Batch大小不敏感，这使得它在处理序列数据时表现得更好；另外，LayerNorm在处理不同长度的序列时也更为灵活。</p></li><li><p><strong>Instance Normalization（Instance Norm）</strong>：<strong>优点</strong>：InstanceNorm是对每个样本的每个特征进行归一化，因此它可以捕捉到更多的细节信息。InstanceNorm在某些任务，如风格迁移，中表现得很好，因为在这些任务中，细节信息很重要。<strong>缺点</strong>：InstanceNorm可能会过度强调细节信息，忽视了更宏观的信息。此外，InstanceNorm的计算成本相比Batch Norm和Layer Norm更高。</p></li><li><p><strong>Group Normalization（Group Norm）</strong>：<strong>优点</strong>：Group Norm是Batch Norm和InstanceNorm的折中方案，它在Batch的一个子集（即组）上进行归一化。这使得GroupNorm既可以捕捉到Batch的统计特性，又可以捕捉到样本的细节信息。此外，GroupNorm对Batch大小也不敏感。 <strong>缺点</strong>：GroupNorm的性能取决于组的大小，需要通过实验来确定最优的组大小。此外，GroupNorm的计算成本也比Batch Norm和Layer Norm更高。</p></li><li></li></ol><h3id="pytorch实现自注意力和多头注意力">pytorch实现自注意力和多头注意力</h3><p>自注意力</p><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">from</span> math <span class="hljs-keyword">import</span> sqrt<br><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">SelfAttention</span>(nn.Module):<br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, dim_in, dim_k, dim_v</span>):<br>    <span class="hljs-built_in">super</span>(SelfAttention, self).__init__()<br>    self.dim_in = dim_in<br>    self.dim_k = dim_k<br>    self.dim_v = dim_v<br>    self.linear_q = nn.Linear(dim_in, dim_k, bias=<span class="hljs-literal">False</span>)<br>    self.linear_k = nn.Linear(dim_in, dim_k, bias=<span class="hljs-literal">False</span>)<br>    self.linear_v = nn.Linear(dim_in, dim_v, bias=<span class="hljs-literal">False</span>)<br>    self._norm_fact = <span class="hljs-number">1</span>/sqrt(dim_k)<br>    <br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>    batch, n, dim_in = x.shape<br>    <span class="hljs-keyword">assert</span> dim_in == self.dim_in<br>    <br>    q = self.linear_q(x) <span class="hljs-comment">#batch, n, dim_k</span><br>    k = self.linear_k(x)<br>    v = self.linear_v(x)<br>    <br>    dist = torch.bmm(q, k.transpose(<span class="hljs-number">1</span>,<span class="hljs-number">2</span>))* self._norm_fact <span class="hljs-comment">#batch, n, n</span><br>    dist = torch.softmax(dist, dim=-<span class="hljs-number">1</span>)<br>    <br>    att = torch.bmm(dist, v)<br>    <span class="hljs-keyword">return</span> att<br>    <br></code></pre></td></tr></table></figure><p>多头注意力机制</p><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">from</span> math <span class="hljs-keyword">import</span> sqrt<br><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>  <span class="hljs-comment">#dim_in input dimention</span><br>  <span class="hljs-comment">#dim_k kq dimention</span><br>  <span class="hljs-comment">#dim_v value dimention</span><br>  <span class="hljs-comment">#num_heads number of heads</span><br>  <br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, dim_in, dim_k, dim_v, num_heads=<span class="hljs-number">8</span></span>):<br>    <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>    <span class="hljs-keyword">assert</span> dim_k% num_heads ==<span class="hljs-number">0</span> <span class="hljs-keyword">and</span> dim_v% num_heads ==<span class="hljs-number">0</span><br>    <br>    self.dim_in = dim_in<br>    self.dim_k = dim_k<br>    self.dim_v = dim_v<br>    self.num_heads = num_heads<br>    self.linear_q = nn.Linear(dim_in, dim_k, bias==<span class="hljs-literal">False</span>)<br>    self.linear_k = nn.Linear(dim_in, dim_k, bias==<span class="hljs-literal">False</span>)<br>    self.linear_v = nn.Linear(dim_in, dim_v, bias==<span class="hljs-literal">False</span>)<br>    self._norm_fact = <span class="hljs-number">1</span>/sqrt(dim_k//num_heads)<br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">forwards</span>(<span class="hljs-params">self, x</span>):<br>    <span class="hljs-comment"># x: tensor of shape(batch, n, dim_in)</span><br>    batch, n, dim_in = x.shape<br>    <span class="hljs-keyword">assert</span> dim_in = self.dim_in<br>    <br>    nh = self.num_heads<br>    dk = self.dim_k // nh<br>    dv = self.dim_v // nh<br>    <br>    q = self.linear_q(x).reshape(batch, n, nh, dk).transpose(<span class="hljs-number">1</span>, <span class="hljs-number">2</span>)<br>    k = self.linear_k(x).reshape(batch, n, nh, dk).transpose(<span class="hljs-number">1</span>, <span class="hljs-number">2</span>)<br>    v = self.linear_v(x).reshape(batch, n, nk, dk).transpose(<span class="hljs-number">1</span>, <span class="hljs-number">2</span>)<br>    <br>    dist = torch.matmul(q, k.transpose(<span class="hljs-number">2</span>,<span class="hljs-number">3</span>))*self._norm_fact<br>    dist = torch.softmax(dist, dim=-<span class="hljs-number">1</span>)<br>    <br>    att = torch.matmul(dist, v)<br>    att = att.transpose(<span class="hljs-number">1</span>,<span class="hljs-number">2</span>).reshape(batch, n, self.dim_v)<br></code></pre></td></tr></table></figure><h3 id="batch-normalization">Batch Normalization</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">class</span> <span class="hljs-title class_">MyBN</span>:<br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, momentum=<span class="hljs-number">0.01</span>, eps=<span class="hljs-number">1e-5</span>, feat_dim=<span class="hljs-number">2</span></span>):<br>    self._running_mean = np.zeros(shape = (feat_dim,))<br>    self._running_var = np.ones(shape = (fear_dim,))<br>    self._momentum = momentum<br>    <span class="hljs-comment">#防止分母计算为0</span><br>    self._eps = eps<br>    <br>    <span class="hljs-comment">#对应batch norm中需要更新beta 和 gamma， 采用pytorch文档中的初始化</span><br>    self._beta = np.zeros(shape=(feat_dim,))<br>    self._gamma = np.ones(shape=(feat_dim,))<br>    <br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">batch_norm</span>(<span class="hljs-params">self, x</span>):<br>    <span class="hljs-keyword">if</span> self.training:<br>      x_mean = x.mean(axis=<span class="hljs-number">0</span>)<br>      x_var = x.var(axis=<span class="hljs-number">0</span>)<br>      <span class="hljs-comment">#对应running_mean的更新公式</span><br>      self._running_mean = (<span class="hljs-number">1</span>-self._momentum)*x_mean +self._momentum*self._running_mean<br>      self._running_var = (<span class="hljs-number">1</span>-self._momentum)*x_var + self._momentum*self._running_var<br>      <span class="hljs-comment">#对应论文中计算BN公式</span><br>      x_hat = (x-x_mean)/np.sqrt(x_var+self._eps)<br>    <span class="hljs-keyword">else</span>:<br>      x_hat = (x-self._running_mean)/np.sqrt(self._running_var+self._eps)<br>    <span class="hljs-keyword">return</span> self._gamma*x_hat + self._beta<br></code></pre></td></tr></table></figure><h3 id="transformer结构">Transformer结构</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br></pre></td><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><span class="hljs-keyword">import</span> torch.nn.functional <span class="hljs-keyword">as</span> F<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, num_heads</span>):<br>        <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>        self.num_heads = num_heads<br>        self.head_dim = embed_dim // num_heads<br>        <br>        self.query_fc = nn.Linear(embed_dim, embed_dim)<br>        self.key_fc = nn.Linear(embed_dim, embed_dim)<br>        self.value_fc = nn.Linear(embed_dim, embed_dim)<br>        self.fc_out = nn.Linear(embed_dim, embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, query, key, value, mask=<span class="hljs-literal">None</span></span>):<br>        batch_size = query.shape[<span class="hljs-number">0</span>]<br>        <br>        <span class="hljs-comment"># Linearly project queries, keys, and values</span><br>        Q = self.query_fc(query)<br>        K = self.key_fc(key)<br>        V = self.value_fc(value)<br>        <br>        <span class="hljs-comment"># Split the embedding into num_heads</span><br>        Q = Q.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        K = K.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        V = V.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        <br>        <span class="hljs-comment"># Calculate the attention scores</span><br>        scores = torch.matmul(Q, K.permute(<span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>, <span class="hljs-number">2</span>)) / torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float32))<br>        <br>        <span class="hljs-keyword">if</span> mask <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>:<br>            scores = scores.masked_fill(mask == <span class="hljs-number">0</span>, <span class="hljs-built_in">float</span>(<span class="hljs-string">&quot;-1e20&quot;</span>))<br>        <br>        <span class="hljs-comment"># Apply softmax to get attention probabilities</span><br>        attention_weights = F.softmax(scores, dim=-<span class="hljs-number">1</span>)<br>        <br>        <span class="hljs-comment"># Apply dropout</span><br>        attention_weights = F.dropout(attention_weights, p=<span class="hljs-number">0.1</span>, training=self.training)<br>        <br>        <span class="hljs-comment"># Multiply the attention weights with the values</span><br>        output = torch.matmul(attention_weights, V)<br>        <br>        <span class="hljs-comment"># Concatenate multi-heads and project</span><br>        output = output.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>).contiguous().view(batch_size, -<span class="hljs-number">1</span>, embed_dim)<br>        output = self.fc_out(output)<br>        <br>        <span class="hljs-keyword">return</span> output, attention_weights<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">PositionwiseFeedforward</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(PositionwiseFeedforward, self).__init__()<br>        self.fc1 = nn.Linear(embed_dim, hidden_dim)<br>        self.fc2 = nn.Linear(hidden_dim, embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>        x = F.relu(self.fc1(x))<br>        x = self.fc2(x)<br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">EncoderLayer</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, num_heads, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(EncoderLayer, self).__init__()<br>        self.multihead_attention = MultiHeadAttention(embed_dim, num_heads)<br>        self.feed_forward = PositionwiseFeedforward(embed_dim, hidden_dim)<br>        self.layer_norm1 = nn.LayerNorm(embed_dim)<br>        self.layer_norm2 = nn.LayerNorm(embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        <span class="hljs-comment"># Multi-Head Attention</span><br>        residual = x<br>        x, _ = self.multihead_attention(x, x, x, mask)<br>        x = self.layer_norm1(x + residual)<br>        <br>        <span class="hljs-comment"># Feed Forward</span><br>        residual = x<br>        x = self.feed_forward(x)<br>        x = self.layer_norm2(x + residual)<br>        <br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">TransformerEncoder</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, vocab_size, embed_dim, num_layers, num_heads, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(TransformerEncoder, self).__init__()<br>        self.embedding = nn.Embedding(vocab_size, embed_dim)<br>        self.layers = nn.ModuleList([EncoderLayer(embed_dim, num_heads, hidden_dim) <span class="hljs-keyword">for</span> _ <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(num_layers)])<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        x = self.embedding(x)<br>        <span class="hljs-keyword">for</span> layer <span class="hljs-keyword">in</span> self.layers:<br>            x = layer(x, mask)<br>        <span class="hljs-keyword">return</span> x<br><br></code></pre></td></tr></table></figure>]]></content>
     
     
     <categories>
diff --git a/search.xml b/search.xml
index f54ed9d..df9e574 100644
--- a/search.xml
+++ b/search.xml
@@ -4262,7 +4262,7 @@ id="pytorch实现自注意力和多头注意力">pytorch实现自注意力和多
 <h3 id="batch-normalization">Batch Normalization</h3>
 <figure class="highlight python"><table><tr><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">class</span> <span class="hljs-title class_">MyBN</span>:<br>  <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, momentum=<span class="hljs-number">0.01</span>, eps=<span class="hljs-number">1e-5</span>, feat_dim=<span class="hljs-number">2</span></span>):<br>    self._running_mean = np.zeros(shape = (feat_dim,))<br>    self._running_var = np.ones(shape = (fear_dim,))<br>    self._momentum = momentum<br>    <span class="hljs-comment">#防止分母计算为0</span><br>    self._eps = eps<br>    <br>    <span class="hljs-comment">#对应batch norm中需要更新beta 和 gamma， 采用pytorch文档中的初始化</span><br>    self._beta = np.zeros(shape=(feat_dim,))<br>    self._gamma = np.ones(shape=(feat_dim,))<br>    <br>    <br>   <span class="hljs-keyword">def</span> <span class="hljs-title function_">batch_norm</span>(<span class="hljs-params">self, x</span>):<br>    <span class="hljs-keyword">if</span> self.training:<br>      x_mean = x.mean(axis=<span class="hljs-number">0</span>)<br>      x_var = x.var(axis=<span class="hljs-number">0</span>)<br>      <span class="hljs-comment">#对应running_mean的更新公式</span><br>      self._running_mean = (<span class="hljs-number">1</span>-self._momentum)*x_mean +self._momentum*self._running_mean<br>      self._running_var = (<span class="hljs-number">1</span>-self._momentum)*x_var + self._momentum*self._running_var<br>      <span class="hljs-comment">#对应论文中计算BN公式</span><br>      x_hat = (x-x_mean)/np.sqrt(x_var+self._eps)<br>    <span class="hljs-keyword">else</span>:<br>      x_hat = (x-self._running_mean)/np.sqrt(self._running_var+self._eps)<br>    <span class="hljs-keyword">return</span> self._gamma*x_hat + self._beta<br></code></pre></td></tr></table></figure>
 <h3 id="transformer结构">Transformer结构</h3>
-<figure class="highlight python"><table><tr><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, num_heads</span>):<br>        <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>        <span class="hljs-keyword">assert</span> d_model % num_heads == <span class="hljs-number">0</span><br>        self.d_model = d_model<br>        self.num_heads = num_heads<br>        self.depth = d_model // num_heads<br>        <br>        self.wq = nn.Linear(d_model, d_model)<br>        self.wk = nn.Linear(d_model, d_model)<br>        self.wv = nn.Linear(d_model, d_model)<br>        <br>        self.dense = nn.Linear(d_model, d_model)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">split_heads</span>(<span class="hljs-params">self, x, batch_size</span>):<br>        x = x.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.depth)<br>        <span class="hljs-keyword">return</span> x.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>    <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, q, k, v, mask=<span class="hljs-literal">None</span></span>):<br>        batch_size = q.size(<span class="hljs-number">0</span>)<br>        <br>        q = self.wq(q)<br>        k = self.wk(k)<br>        v = self.wv(v)<br>        <br>        q = self.split_heads(q, batch_size)<br>        k = self.split_heads(k, batch_size)<br>        v = self.split_heads(v, batch_size)<br>        <br>        scaled_attention_logits = torch.matmul(q, k.transpose(-<span class="hljs-number">1</span>, -<span class="hljs-number">2</span>)) / torch.sqrt(torch.tensor(self.depth, dtype=torch.float32))<br>        <span class="hljs-keyword">if</span> mask <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>:<br>            scaled_attention_logits += (mask * -<span class="hljs-number">1e9</span>)<br>        <br>        attention_weights = torch.softmax(scaled_attention_logits, dim=-<span class="hljs-number">1</span>)<br>        output = torch.matmul(attention_weights, v)<br>        <br>        output = output.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>).contiguous().view(batch_size, -<span class="hljs-number">1</span>, self.d_model)<br>        output = self.dense(output)<br>        <br>        <span class="hljs-keyword">return</span> output, attention_weights<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">PositionwiseFeedForward</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, dff</span>):<br>        <span class="hljs-built_in">super</span>(PositionwiseFeedForward, self).__init__()<br>        self.fc1 = nn.Linear(d_model, dff)<br>        self.fc2 = nn.Linear(dff, d_model)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>        x = self.fc1(x)<br>        x = torch.relu(x)<br>        x = self.fc2(x)<br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">TransformerBlock</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, d_model, num_heads, dff, dropout_rate=<span class="hljs-number">0.1</span></span>):<br>        <span class="hljs-built_in">super</span>(TransformerBlock, self).__init__()<br>        <br>        self.mha = MultiHeadAttention(d_model, num_heads)<br>        self.ffn = PositionwiseFeedForward(d_model, dff)<br>        <br>        self.layernorm1 = nn.LayerNorm(d_model)<br>        self.layernorm2 = nn.LayerNorm(d_model)<br>        <br>        self.dropout1 = nn.Dropout(dropout_rate)<br>        self.dropout2 = nn.Dropout(dropout_rate)<br>        <br>        self.dropout_rate = dropout_rate<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        attn_output, _ = self.mha(x, x, x, mask)<br>        attn_output = self.dropout1(attn_output)<br>        out1 = self.layernorm1(x + attn_output)<br>        <br>        ffn_output = self.ffn(out1)<br><br></code></pre></td></tr></table></figure>
+<figure class="highlight python"><table><tr><td class="code"><pre><code class="hljs python"><span class="hljs-keyword">import</span> torch<br><span class="hljs-keyword">import</span> torch.nn <span class="hljs-keyword">as</span> nn<br><span class="hljs-keyword">import</span> torch.nn.functional <span class="hljs-keyword">as</span> F<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">MultiHeadAttention</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, num_heads</span>):<br>        <span class="hljs-built_in">super</span>(MultiHeadAttention, self).__init__()<br>        self.num_heads = num_heads<br>        self.head_dim = embed_dim // num_heads<br>        <br>        self.query_fc = nn.Linear(embed_dim, embed_dim)<br>        self.key_fc = nn.Linear(embed_dim, embed_dim)<br>        self.value_fc = nn.Linear(embed_dim, embed_dim)<br>        self.fc_out = nn.Linear(embed_dim, embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, query, key, value, mask=<span class="hljs-literal">None</span></span>):<br>        batch_size = query.shape[<span class="hljs-number">0</span>]<br>        <br>        <span class="hljs-comment"># Linearly project queries, keys, and values</span><br>        Q = self.query_fc(query)<br>        K = self.key_fc(key)<br>        V = self.value_fc(value)<br>        <br>        <span class="hljs-comment"># Split the embedding into num_heads</span><br>        Q = Q.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        K = K.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        V = V.view(batch_size, -<span class="hljs-number">1</span>, self.num_heads, self.head_dim).permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>)<br>        <br>        <span class="hljs-comment"># Calculate the attention scores</span><br>        scores = torch.matmul(Q, K.permute(<span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>, <span class="hljs-number">2</span>)) / torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float32))<br>        <br>        <span class="hljs-keyword">if</span> mask <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>:<br>            scores = scores.masked_fill(mask == <span class="hljs-number">0</span>, <span class="hljs-built_in">float</span>(<span class="hljs-string">&quot;-1e20&quot;</span>))<br>        <br>        <span class="hljs-comment"># Apply softmax to get attention probabilities</span><br>        attention_weights = F.softmax(scores, dim=-<span class="hljs-number">1</span>)<br>        <br>        <span class="hljs-comment"># Apply dropout</span><br>        attention_weights = F.dropout(attention_weights, p=<span class="hljs-number">0.1</span>, training=self.training)<br>        <br>        <span class="hljs-comment"># Multiply the attention weights with the values</span><br>        output = torch.matmul(attention_weights, V)<br>        <br>        <span class="hljs-comment"># Concatenate multi-heads and project</span><br>        output = output.permute(<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">3</span>).contiguous().view(batch_size, -<span class="hljs-number">1</span>, embed_dim)<br>        output = self.fc_out(output)<br>        <br>        <span class="hljs-keyword">return</span> output, attention_weights<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">PositionwiseFeedforward</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(PositionwiseFeedforward, self).__init__()<br>        self.fc1 = nn.Linear(embed_dim, hidden_dim)<br>        self.fc2 = nn.Linear(hidden_dim, embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x</span>):<br>        x = F.relu(self.fc1(x))<br>        x = self.fc2(x)<br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">EncoderLayer</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, embed_dim, num_heads, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(EncoderLayer, self).__init__()<br>        self.multihead_attention = MultiHeadAttention(embed_dim, num_heads)<br>        self.feed_forward = PositionwiseFeedforward(embed_dim, hidden_dim)<br>        self.layer_norm1 = nn.LayerNorm(embed_dim)<br>        self.layer_norm2 = nn.LayerNorm(embed_dim)<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        <span class="hljs-comment"># Multi-Head Attention</span><br>        residual = x<br>        x, _ = self.multihead_attention(x, x, x, mask)<br>        x = self.layer_norm1(x + residual)<br>        <br>        <span class="hljs-comment"># Feed Forward</span><br>        residual = x<br>        x = self.feed_forward(x)<br>        x = self.layer_norm2(x + residual)<br>        <br>        <span class="hljs-keyword">return</span> x<br><br><span class="hljs-keyword">class</span> <span class="hljs-title class_">TransformerEncoder</span>(nn.Module):<br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">__init__</span>(<span class="hljs-params">self, vocab_size, embed_dim, num_layers, num_heads, hidden_dim</span>):<br>        <span class="hljs-built_in">super</span>(TransformerEncoder, self).__init__()<br>        self.embedding = nn.Embedding(vocab_size, embed_dim)<br>        self.layers = nn.ModuleList([EncoderLayer(embed_dim, num_heads, hidden_dim) <span class="hljs-keyword">for</span> _ <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(num_layers)])<br>        <br>    <span class="hljs-keyword">def</span> <span class="hljs-title function_">forward</span>(<span class="hljs-params">self, x, mask=<span class="hljs-literal">None</span></span>):<br>        x = self.embedding(x)<br>        <span class="hljs-keyword">for</span> layer <span class="hljs-keyword">in</span> self.layers:<br>            x = layer(x, mask)<br>        <span class="hljs-keyword">return</span> x<br><br></code></pre></td></tr></table></figure>
 ]]></content>
       <categories>
         <category>深度学习</category>