日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

<style id="k3y6c"><u id="k3y6c"></u></style>

<mark id="k3y6c"></mark>

<mark id="k3y6c"></mark>

"); //-->

博客專欄

EEPW首頁 > 博客 > 手撕大模型｜KVCache 原理及代碼解析

手撕大模型｜KVCache 原理及代碼解析

發(fā)布人：地平線開發(fā)者時間：2025-09-13 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

在大型語言模型（LLM）的推理過程中，KV Cache 是一項關(guān)鍵技術(shù)，它通過緩存中間計算結(jié)果顯著提升了模型的運行效率。本文將深入解析 KV Cache 的工作原理、實現(xiàn)方式，并通過代碼示例展示其在實際應(yīng)用中的效果。

一、為什么需要 KV Cache？

在 Transformer 進(jìn)行自回歸推理（如文本生成，每次生成一個 token 的時候需要結(jié)合前面所有的 token 做 attention 操作）時，計算注意力機制時需要存儲 Key（K）和 Value（V），以便下一個時間步可以復(fù)用這些緩存，而不必重新計算整個序列。

在標(biāo)準(zhǔn) Transformer 解碼時，每次生成新 token 時：

需要重新計算所有之前 token 的 K 和 V，并與當(dāng)前 token 進(jìn)行注意力計算。
計算復(fù)雜度是 O（n2）（對于長度為 n 的序列）。

而 KV Cache 通過存儲 K 和 V 的歷史值，避免重復(fù)計算：

只需計算新 token 的 K 和 V，然后將其與緩存的值結(jié)合使用。
計算復(fù)雜度下降到 O（n）（每個 token 只與之前緩存的 token 計算注意力）。

二、KV Cache 的工作原理

KV Cache 的核心思想是緩存歷史計算中的鍵（Key）和值（Value）矩陣，避免重復(fù)計算。具體來說：

在生成第一個 token 時，模型計算并緩存所有輸入 token 的 K 和 V 矩陣
生成后續(xù) token 時，只需要計算新 token 的查詢（Query）矩陣
將新的 Q 矩陣與緩存的 K、V 矩陣進(jìn)行注意力計算，同時將新 token 的 K、V 追加到緩存中

這個過程可以用偽代碼直觀展示：

初始輸入: [t0, t1, t2]
首次計算: K=[K0,K1,K2], V=[V0,V1,V2] → 生成t3
緩存狀態(tài): K=[K0,K1,K2], V=[V0,V1,V2]
第二次計算: 新Q=Q3
注意力計算: Attention(Q3, [K0,K1,K2]) → 生成t4
更新緩存: K=[K0,K1,K2,K3], V=[V0,V1,V2,V3]
第三次計算: 新Q=Q4
注意力計算: Attention(Q4, [K0,K1,K2,K3]) → 生成t5
更新緩存: K=[K0,K1,K2,K3,K4], V=[V0,V1,V2,V3,V4]
...

通過這種方式，每次新生成 token 時，只需計算新的 Q 矩陣并與歷史 KV 矩陣進(jìn)行注意力計算，將時間復(fù)雜度從 O （n2）降低到 O （n），極大提升了長序列生成的效率。

下面，我們結(jié)合示意圖進(jìn)一步剖析一下 KV Cache 部分的邏輯。

KV Cache 核心節(jié)約的時間有三大塊：

前面 n-1 次的 Q 的計算，當(dāng)然這塊對于一次一個 token 的輸出本來也沒有用；
同理還有 Attention 計算時對角矩陣變?yōu)樽詈笠恍?，?b 是同理的，這樣 mask 矩陣也就沒有什么用了；
前面 n-1 次的 K 和 V 的計算，也就是上圖紫色部分，這部分是實打?qū)嵄?Cache 過不需要再重新計算的部分。

這里還有個 softmax 的問題，softmax 原本就是針對同一個 query 的所有 key 的計算，所以并不受影響。

2.1 KV Cache 的技術(shù)細(xì)節(jié)

緩存結(jié)構(gòu)

KV Cache 通常為每個注意力頭維護(hù)獨立的緩存，結(jié)構(gòu)如下：

Key 緩存：形狀為 [batch_size， num_heads， seq_len， head_dim]
Value 緩存：形狀為 [batch_size， num_heads， seq_len， head_dim]

其中，seq_len 會隨著生成過程動態(tài)增長，直到達(dá)到模型最大序列長度限制。

內(nèi)存與速度的權(quán)衡

KV Cache 雖然提升了速度，但需要額外的內(nèi)存存儲緩存數(shù)據(jù)。以 GPT-3 175B 模型為例，每個 token 的 KV 緩存約占用 20KB 內(nèi)存，當(dāng)生成 1000 個 token 時，單個樣本就需要約 20MB 內(nèi)存。在批量處理時，內(nèi)存消耗會線性增加。

實際應(yīng)用中需要根據(jù)硬件條件在以下方面進(jìn)行權(quán)衡：

最大緩存長度（影響能處理的序列長度）
批量大?。ㄓ绊懖l(fā)處理能力）
精度選擇（FP16 比 FP32 節(jié)省一半內(nèi)存）
滑動窗口機制

當(dāng)處理超長序列時，一些模型（如 Llama 2）采用滑動窗口機制，只保留最近的 N 個 token 的 KV 緩存，以控制內(nèi)存占用。這種機制在犧牲少量上下文信息的情況下，保證了模型能處理更長的對話。

四、代碼實現(xiàn)解析

下面以 PyTorch 為例，展示 KV Cache 在自注意力計算中的實現(xiàn)方式。

基礎(chǔ)自注意力實現(xiàn)（無緩存）

首先看一下標(biāo)準(zhǔn)的自注意力計算，沒有緩存機制：

import torch
import torch.nn as nn
import torch.nn.functional as F
class SelfAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads
        
        # 定義Q、K、V投影矩陣
        self.q_proj = nn.Linear(embed_dim, embed_dim)
        self.k_proj = nn.Linear(embed_dim, embed_dim)
        self.v_proj = nn.Linear(embed_dim, embed_dim)
        self.out_proj = nn.Linear(embed_dim, embed_dim)
    
    def forward(self, x):
        batch_size, seq_len, embed_dim = x.shape
        
        # 計算Q、K、V
        q = self.q_proj(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
        k = self.k_proj(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
        v = self.v_proj(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
        
        # 計算注意力分?jǐn)?shù)
        attn_scores = (q @ k.transpose(-2, -1)) / (self.head_dim ** 0.5)
        attn_probs = F.softmax(attn_scores, dim=-1)
        
        # 應(yīng)用注意力權(quán)重
        output = attn_probs @ v
        output = output.transpose(1, 2).contiguous().view(batch_size, seq_len, embed_dim)
        
        return self.out_proj(output)

帶 KV Cache 的自注意力實現(xiàn)

下面修改代碼，加入 KV Cache 機制：

class CachedSelfAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads
        
        # 定義投影矩陣
        self.q_proj = nn.Linear(embed_dim, embed_dim)
        self.k_proj = nn.Linear(embed_dim, embed_dim)
        self.v_proj = nn.Linear(embed_dim, embed_dim)
        self.out_proj = nn.Linear(embed_dim, embed_dim)
        
        # 初始化緩存
        self.cache_k = None
        self.cache_v = None
    
    def forward(self, x, use_cache=False):
        batch_size, seq_len, embed_dim = x.shape
        
        # 計算Q、K、V
        q = self.q_proj(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
        k = self.k_proj(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
        v = self.v_proj(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
        
        # 如果使用緩存且緩存存在，則拼接歷史KV
        if use_cache and self.cache_k is not None:
            k = torch.cat([self.cache_k, k], dim=-2)
            v = torch.cat([self.cache_v, v], dim=-2)
        
        # 如果使用緩存，更新緩存
        if use_cache:
            self.cache_k = k
            self.cache_v = v
        
        # 計算注意力分?jǐn)?shù)（注意這里的k是包含歷史緩存的）
        attn_scores = (q @ k.transpose(-2, -1)) / (self.head_dim ** 0.5)
        attn_probs = F.softmax(attn_scores, dim=-1)
        
        # 應(yīng)用注意力權(quán)重
        output = attn_probs @ v
        output = output.transpose(1, 2).contiguous().view(batch_size, seq_len, embed_dim)
        
        return self.out_proj(output)
    
    def reset_cache(self):
        """重置緩存，用于新序列的生成"""
        self.cache_k = None
        self.cache_v = None

生成過程中的緩存使用

在文本生成時，我們可以這樣使用帶緩存的注意力機制：

def generate_text(model, input_ids, max_length=50):
    # 初始化模型緩存
    model.reset_cache()
    
    # 處理初始輸入
    output = model(input_ids, use_cache=True)
    next_token = torch.argmax(output[:, -1, :], dim=-1, keepdim=True)
    generated = [next_token]
    
    # 生成后續(xù)token
    for _ in range(max_length - 1):
        # 只輸入新生成的token
        output = model(next_token, use_cache=True)
        next_token = torch.argmax(output[:, -1, :], dim=-1, keepdim=True)
        generated.append(next_token)
        
        # 如果生成結(jié)束符則停止
        if next_token.item() == 102:  # 假設(shè)102是[SEP]的id
            break
    
    return torch.cat(generated, dim=1)

五、KV Cache 的優(yōu)化策略

在實際部署中，為了進(jìn)一步提升 KV Cache 的效率，還會采用以下優(yōu)化策略：

分頁 KV Cache（Paged KV Cache）：借鑒內(nèi)存分頁機制，將連續(xù)的 KV 緩存分割成固定大小的塊，提高內(nèi)存利用率，代表實現(xiàn)有 vLLM。
動態(tài)緩存管理：根據(jù)輸入序列長度動態(tài)調(diào)整緩存大小，在批量處理時優(yōu)化內(nèi)存分配。
量化緩存：使用 INT8 或 INT4 等低精度格式存儲 KV 緩存，在犧牲少量精度的情況下大幅減少內(nèi)存占用。
選擇性緩存：對于一些不重要的層或注意力頭，選擇性地不進(jìn)行緩存，平衡速度和內(nèi)存。

六、總結(jié)

KV Cache 通過緩存中間計算結(jié)果，有效解決了 Transformer 模型在生成式任務(wù)中的效率問題，是大模型能夠?qū)崿F(xiàn)實時交互的關(guān)鍵技術(shù)之一。理解 KV Cache 的工作原理和實現(xiàn)方式，對于優(yōu)化大模型推理性能、解決實際部署中的挑戰(zhàn)具有重要意義。

七、參考鏈接

https://zhuanlan.zhihu.com/p/670515231

https://zhuanlan.zhihu.com/p/714288577

https://zhuanlan.zhihu.com/p/715921106https://zhuanlan.zhihu.com/p/19489285169

https://medium.com/@joaolages/kv-caching-explained-276520203249

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞：算法 自動駕駛 算法工具鏈 地平線 征程5

相關(guān)推薦

[轉(zhuǎn)帖]us/os就緒表的維護(hù)算法分析

amine | 2002-05-17

為什么飛行員在自動駕駛飛機時代很重要

安防與國防自動駕駛飛機 | 2025-06-20

利用元學(xué)習(xí)保持無人機飛行控制系統(tǒng)在正確的軌道上

機器人機器人算法無人機 | 2025-06-11

數(shù)字PID控制及其改進(jìn)算法的應(yīng)用

設(shè)計方案數(shù)字控制及其改進(jìn) 算法應(yīng)用 | 2011-05-11

L3級汽車有哪些充分必要條件？

汽車電子自動駕駛汽車電子 L3/L4 | 2025-08-14

數(shù)字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

采用Mean-Shift和Camshift算法相結(jié)合的火焰視頻圖像跟蹤設(shè)計

設(shè)計方案采用 Mean-Shift Camshift 算法相結(jié)合 | 2011-06-27

PID算法

資源下載 PID 算法誤差 | 2007-02-16

特斯拉自動駕駛汽車首次事故撞擊停放車輛

汽車電子特斯拉自動駕駛 | 2025-07-07

CRC算法原理及C語言實現(xiàn)

資源下載 CRC 算法 C語言 | 2007-02-16

中國機器人出租車正在瞄準(zhǔn)全球統(tǒng)治地位

汽車電子機器人出租車特斯拉自動駕駛蘿卜快跑 | 2025-07-22

簡單實用的單片機CRC 快速算法

資源下載 CRC 算法單片機 | 2007-02-16

求FSK信號的解調(diào)算法，主要是鐵路上的移頻信號!

dhlwq007 | 2004-08-04

多傳感器校準(zhǔn)在自動駕駛汽車中如何工作？

汽車電子多傳感器校準(zhǔn) 自動駕駛 | 2025-06-30

有關(guān)指紋算法

wsf999 | 2004-08-06

加快實現(xiàn)自動駕駛（完整小組討論）

視頻 ADI 自動駕駛 | 2020-06-12

攜手ADI贏得未來

視頻 ADI 自動駕駛醫(yī)療健康 | 2019-11-08

計算機科學(xué)與技術(shù)反思錄(2)

liujt_ic | 2003-06-06

無線傳感器網(wǎng)絡(luò)低功耗分簇路由算法設(shè)計

設(shè)計方案無線傳感器網(wǎng)絡(luò) 功耗路由算法設(shè)計 | 2012-09-07

ADI：傳感技術(shù)助力未來自動駕駛的發(fā)展

視頻 ADI 自動駕駛 | 2020-03-16

目標(biāo)跟蹤算法在紅外熱成像跟蹤技術(shù)上的應(yīng)用

設(shè)計方案目標(biāo) 跟蹤算法紅外成像技術(shù)上應(yīng)用 | 2009-09-03

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

vxwokrs下靜態(tài)圖像壓縮算法（上）

C-- | 2004-07-26

基于LPC2138的血壓測量算法開發(fā)平臺電路圖

設(shè)計方案基于 LPC2138 血壓測量算法開發(fā)平臺電路圖 | 2010-01-20

相較于端到端，VLA給智駕帶來了哪些改變？

汽車電子 VLA 端到端自動駕駛 | 2025-07-09

Arm Zena 計算子系統(tǒng)：為 AI 定義的時代打造可擴展自動駕駛技術(shù)之路

汽車電子 Arm Zena 自動駕駛 | 2025-08-22

76-81GHz自動駕駛CMOS RADAR

視頻 ADI 自動駕駛 CMOS RADAR | 2018-05-31

基于算法的工程助手：AI重塑零件采購

智能計算算法工程助手 AI 零件采購機器學(xué)習(xí) | 2025-07-22

自動駕駛的現(xiàn)狀與未來（節(jié)選）

視頻 ADI 自動駕駛 | 2020-03-16

鴻海劉揚偉再傳密會GoogleCEO 共商自動駕駛大計

汽車電子鴻海 Google 自動駕駛 | 2025-07-22

焦點

推薦視頻

更多>>

技術(shù)專區(qū)