llmnpc - llama.cpp/src/models/rwkv7-base.cpp

Path: llmnpc / llama.cpp / src / models / rwkv7-base.cpp (raw)
  1#include "models.h"
  2
  3llm_build_rwkv7_base::llm_build_rwkv7_base(const llama_model & model, const llm_graph_params & params) :
  4    llm_graph_context(params),
  5    model(model) {}
  6
  7ggml_tensor * llm_build_rwkv7_base::build_rwkv7_channel_mix(const llama_layer * layer,
  8                                                            ggml_tensor *       cur,
  9                                                            ggml_tensor *       x_prev,
 10                                                            llm_arch            arch) const {
 11    ggml_tensor * sx = ggml_sub(ctx0, x_prev, cur);
 12    switch (arch) {
 13        case LLM_ARCH_RWKV7:
 14            {
 15                ggml_tensor * xk = ggml_add(ctx0, ggml_mul(ctx0, sx, layer->channel_mix_lerp_k), cur);
 16
 17                ggml_tensor * k = ggml_sqr(ctx0, ggml_relu(ctx0, build_lora_mm(layer->channel_mix_key, xk)));
 18
 19                cur = build_lora_mm(layer->channel_mix_value, k);
 20            }
 21            break;
 22        default:
 23            GGML_ABORT("fatal error");
 24    }
 25    return cur;
 26}
 27
 28ggml_tensor * llm_build_rwkv7_base::build_rwkv7_time_mix(llm_graph_input_rs * inp,
 29                                                         ggml_tensor *        cur,
 30                                                         ggml_tensor *        x_prev,
 31                                                         ggml_tensor *&       first_layer_value,
 32                                                         const llama_ubatch & ubatch,
 33                                                         int                  il) const {
 34    const auto * mctx_cur = static_cast<const llama_memory_recurrent_context *>(mctx);
 35
 36    const auto n_tokens     = ubatch.n_tokens;
 37    const auto n_seqs       = ubatch.n_seqs;
 38    const auto n_embd       = hparams.n_embd;
 39    const auto head_size    = hparams.wkv_head_size;
 40    const auto head_count   = n_embd / head_size;
 41    const auto n_seq_tokens = ubatch.n_seq_tokens;
 42
 43    const auto kv_head = mctx_cur->get_head();
 44
 45    const auto & layer = model.layers[il];
 46
 47    bool has_gating = layer.time_mix_g1 && layer.time_mix_g2;
 48
 49    ggml_tensor * sx    = ggml_sub(ctx0, x_prev, cur);
 50    ggml_tensor * dummy = ggml_new_tensor_4d(ctx0, GGML_TYPE_F32, n_embd, n_seq_tokens, n_seqs, has_gating ? 6 : 5);
 51    sx                  = ggml_repeat(ctx0, sx, dummy);
 52
 53    ggml_tensor * xxx = ggml_add(ctx0, ggml_mul(ctx0, sx, layer.time_mix_lerp_fused), cur);
 54
 55    ggml_tensor * xr = ggml_view_2d(ctx0, xxx, n_embd, n_tokens, xxx->nb[1], 0);
 56    ggml_tensor * xw = ggml_view_2d(ctx0, xxx, n_embd, n_tokens, xxx->nb[1], n_embd * n_tokens * sizeof(float));
 57    ggml_tensor * xk = ggml_view_2d(ctx0, xxx, n_embd, n_tokens, xxx->nb[1], n_embd * n_tokens * 2 * sizeof(float));
 58    ggml_tensor * xv = ggml_view_2d(ctx0, xxx, n_embd, n_tokens, xxx->nb[1], n_embd * n_tokens * 3 * sizeof(float));
 59    ggml_tensor * xa = ggml_view_2d(ctx0, xxx, n_embd, n_tokens, xxx->nb[1], n_embd * n_tokens * 4 * sizeof(float));
 60    ggml_tensor * xg =
 61        has_gating ? ggml_view_2d(ctx0, xxx, n_embd, n_tokens, xxx->nb[1], n_embd * n_tokens * 5 * sizeof(float)) :
 62                     nullptr;
 63
 64    ggml_tensor * r = build_lora_mm(layer.time_mix_receptance, xr);
 65    ggml_tensor * w = ggml_add(
 66        ctx0, ggml_mul_mat(ctx0, layer.time_mix_w2, ggml_tanh(ctx0, ggml_mul_mat(ctx0, layer.time_mix_w1, xw))),
 67        layer.time_mix_w0);
 68    w = ggml_exp(ctx0, ggml_scale(ctx0, ggml_sigmoid(ctx0, w), -0.606531));
 69
 70    ggml_tensor * k = build_lora_mm(layer.time_mix_key, xk);
 71    ggml_tensor * v = build_lora_mm(layer.time_mix_value, xv);
 72    if (first_layer_value == nullptr) {
 73        first_layer_value = v;
 74    } else {
 75        // Add the first layer value as a residual connection.
 76        v = ggml_add(ctx0, v,
 77                     ggml_mul(ctx0, ggml_sub(ctx0, first_layer_value, v),
 78                              ggml_sigmoid(ctx0, ggml_add(ctx0,
 79                                                          ggml_mul_mat(ctx0, layer.time_mix_v2,
 80                                                                       ggml_mul_mat(ctx0, layer.time_mix_v1, xv)),
 81                                                          layer.time_mix_v0))));
 82    }
 83    ggml_tensor * g = nullptr;
 84    if (layer.time_mix_g1 && layer.time_mix_g2) {
 85        g = ggml_mul_mat(ctx0, layer.time_mix_g2, ggml_sigmoid(ctx0, ggml_mul_mat(ctx0, layer.time_mix_g1, xg)));
 86    }
 87    ggml_tensor * a = ggml_sigmoid(
 88        ctx0, ggml_add(ctx0, ggml_mul_mat(ctx0, layer.time_mix_a2, ggml_mul_mat(ctx0, layer.time_mix_a1, xa)),
 89                       layer.time_mix_a0));
 90
 91    ggml_tensor * kk = ggml_reshape_3d(ctx0, ggml_mul(ctx0, k, layer.time_mix_k_k), head_size, head_count, n_tokens);
 92    kk               = ggml_l2_norm(ctx0, kk, 1e-12);
 93
 94    ggml_tensor * ka = ggml_mul(ctx0, k, layer.time_mix_k_a);
 95    k                = ggml_add(ctx0, k, ggml_sub(ctx0, ggml_mul(ctx0, a, ka), ka));
 96
 97    r = ggml_reshape_3d(ctx0, r, head_size, head_count, n_tokens);
 98    w = ggml_reshape_3d(ctx0, w, head_size, head_count, n_tokens);
 99    k = ggml_reshape_3d(ctx0, k, head_size, head_count, n_tokens);
100    v = ggml_reshape_3d(ctx0, v, head_size, head_count, n_tokens);
101    a = ggml_reshape_3d(ctx0, a, head_size, head_count, n_tokens);
102
103    ggml_tensor * wkv_state = build_rs(inp, mctx_cur->get_s_l(il), hparams.n_embd_s(), n_seqs);
104
105    ggml_tensor * wkv_output = ggml_rwkv_wkv7(ctx0, r, w, k, v, ggml_neg(ctx0, kk), ggml_mul(ctx0, kk, a), wkv_state);
106    cur                      = ggml_view_1d(ctx0, wkv_output, n_embd * n_tokens, 0);
107    wkv_state = ggml_view_1d(ctx0, wkv_output, n_embd * head_size * n_seqs, n_embd * n_tokens * sizeof(float));
108
109    ggml_build_forward_expand(
110        gf, ggml_cpy(ctx0, wkv_state,
111                     ggml_view_1d(ctx0, mctx_cur->get_s_l(il), hparams.n_embd_s() * n_seqs,
112                                  hparams.n_embd_s() * kv_head * ggml_element_size(mctx_cur->get_s_l(il)))));
113
114    if (layer.time_mix_ln && layer.time_mix_ln_b) {
115        // group norm with head_count groups
116        cur = ggml_reshape_3d(ctx0, cur, n_embd / head_count, head_count, n_tokens);
117        cur = ggml_norm(ctx0, cur, 64e-5f);
118
119        // Convert back to regular vectors.
120        cur = ggml_reshape_2d(ctx0, cur, n_embd, n_tokens);
121        cur = ggml_add(ctx0, ggml_mul(ctx0, cur, layer.time_mix_ln), layer.time_mix_ln_b);
122    } else {
123        cur = ggml_reshape_2d(ctx0, cur, n_embd, n_tokens);
124    }
125    ggml_tensor * rk = ggml_sum_rows(
126        ctx0, ggml_mul(ctx0, ggml_mul(ctx0, k, r), ggml_reshape_2d(ctx0, layer.time_mix_r_k, head_size, head_count)));
127    cur = ggml_add(ctx0, cur, ggml_reshape_2d(ctx0, ggml_mul(ctx0, v, rk), n_embd, n_tokens));
128
129    if (has_gating) {
130        cur = ggml_mul(ctx0, cur, g);
131    }
132    cur = build_lora_mm(layer.time_mix_output, cur);
133
134    return ggml_reshape_3d(ctx0, cur, n_embd, n_seq_tokens, n_seqs);
135}