LLM¶

2025年6月3日
分类于终身学习, LLM
需要 8 分钟阅读时间

LLM KV Cache: A Simple Implementation

Introduction

在看很多大语言模型的推理代码时，发现有一个非常重要的概念，就是 KV Cache。这里我们简要介绍一下 KV Cache 的核心原理并给出基于 GPT-2 的代码实现以便于本地复现。相关的实验和测试代码同样开源在toyllm.

2025年3月8日
分类于终身学习, LLM, Statistics
需要 7 分钟阅读时间

LLM Speculative Sampling

前言

今天我们将介绍并复现 Deepmind 的一篇关于 LLM Speculative Sampling 的论文：Accelerating large language model decoding with speculative sampling¹. 我们将用不到 100 行代码来复现这篇论文，并得到 2 倍以上的速度提升。

2025年2月23日
分类于终身学习, LLM, Statistics
需要 4 分钟阅读时间

Deepseek GRPO 中的 KL Divergence

起

在 Deepseek R1 发布之后，看到了论文中 RL 的算法用的是 GRPO，而 GRPO 是在之前 Deepseek Math 的论文中被提出来的。GRPO 的目标函数如下：

\[ \begin{aligned} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}_{[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O\mid q)]} \frac{1}{G}\sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \Biggl\{ \min \Biggl[ \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t} \mid q, o_{i,<t})} \hat{A}_{i,t}, \text{clip}\Biggl( \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t} \mid q, o_{i,<t})}, 1 - \epsilon, 1 + \epsilon \Biggr) \hat{A}_{i,t} \Biggr] \\ &\quad - \beta \, \mathbb{D}_{KL}\left[\pi_{\theta} \parallel \pi_{ref}\right] \Biggr\} \end{aligned} \]

2024年12月23日
分类于随笔, LLM, AI
需要 4 分钟阅读时间

LLM in 2024

Image title — 管窥精密机器内部核心组件 (GPT 模型的内部构造 Transformer 部分)
(From bbycroft.net/llm)

我个人对 AI(人工智能)/LLM(Large Language Model, 大语言模型) 是完全祛魅的。即使是在 ChatGPT 问世之后，即使是在 LLM 在各个领域掀起热潮的今天，我也仍然认为这里并没有什么所谓“智能”的东西——我个人不认为现在的 LLM 会思考，不认为它能真正地创作等等。我更倾向于将现在的 LLM 看作一个庞大而又精密的机器：庞大到包含几百亿个元件，精密到可以和人类对话并完成各种复杂的任务。尽管如此，我仍然认为我们正处于一个人工智能的黄金时代，一个 AI 可以大方异彩，可以很大程度上改变我们的未来生活方式的时代！

2024年11月28日
分类于终身学习, LLM, Paper
需要 5 分钟阅读时间

斯坦福小镇 (AI-Town) 系统解读

核心要点

本文解读了斯坦福小镇（AI-Town）项目，重点关注其在生成式代理方面的创新架构设计。主要包含以下几个关键部分：

记忆系统（Memory Stream）：长期记忆模块
反思机制（Reflection）：高层次推理能力
计划系统（Planning）：行为规划与执行
评估方法（Evaluation）：代理行为的可信度验证

启发与应用

本文的核心概念对游戏 NPC 设计具有重要的参考价值，特别是在：

NPC 记忆系统的设计
行为的真实性和可信度
动态社交关系的构建
环境互动的自然性