Statistics¶

2025年3月8日
分类于终身学习, LLM, Statistics
需要 7 分钟阅读时间

LLM Speculative Sampling

前言

今天我们将介绍并复现 Deepmind 的一篇关于 LLM Speculative Sampling 的论文：Accelerating large language model decoding with speculative sampling¹. 我们将用不到 100 行代码来复现这篇论文，并得到 2 倍以上的速度提升。

2025年2月23日
分类于终身学习, LLM, Statistics
需要 4 分钟阅读时间

Deepseek GRPO 中的 KL Divergence

起

在 Deepseek R1 发布之后，看到了论文中 RL 的算法用的是 GRPO，而 GRPO 是在之前 Deepseek Math 的论文中被提出来的。GRPO 的目标函数如下：

\[ \begin{aligned} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}_{[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O\mid q)]} \frac{1}{G}\sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \Biggl\{ \min \Biggl[ \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t} \mid q, o_{i,<t})} \hat{A}_{i,t}, \text{clip}\Biggl( \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t} \mid q, o_{i,<t})}, 1 - \epsilon, 1 + \epsilon \Biggr) \hat{A}_{i,t} \Biggr] \\ &\quad - \beta \, \mathbb{D}_{KL}\left[\pi_{\theta} \parallel \pi_{ref}\right] \Biggr\} \end{aligned} \]