开源¶

2025年11月23日
分类于终身学习, 开源, NLP, AI, LLM
需要 1 分钟阅读时间

ToyNLP: 从零实现自然语言处理经典模型

终于到了介绍 ToyNLP 项目的时候，这应该是个人今年投入时间最多的项目了。上篇文章写的 BERT 论文复现其实就是这个项目开发过程中的一个记录。今天我们来简单谈谈这个项目的来龙去脉。

2025年6月25日
分类于终身学习, 开源, Engineering
需要 1 分钟阅读时间

Rust ♥️ Python: Rust 做底层实现的高效 Python 库

Rust 和 Python 结合的生态这几年发展的越来越好，很多高性能的 Python 库都是用 Rust 作为底层实现。本文推荐一些优秀的 Rust 实现的 Python 库，希望能够帮到大家。

2025年5月8日
分类于终身学习, 开源
需要 1 分钟阅读时间

ToyRL: 从零实现深度强化学习算法

简介

在看 LLM + RL 的一些论文时，发现对于一些 RL 概念 (比如 GAE) 的理解还是有所欠缺，所以就系统地学习了一遍深度强化学习（Deep Reinforcement Learning）相关的知识。选的书是 Foundations of Deep Reinforcement Learning¹.

在阅读过程中，将书中介绍的一些算法（REINFORCE、SARSA、DQN（Double DQN）、A2C、PPO）用 PyTorch 从头实现了一遍，统一整理到了开源库，也就是今天要介绍的 ToyRL。为了更好地配合书一起学习，当前实现尽量贴近书中的伪代码。另外每个算法实现都在一个 Python 文件内完成，虽然有些重复代码，但是避免了代码碎片化，更便于学习。

2025年3月23日
分类于终身学习, 开源, Engineering
需要 3 分钟阅读时间

简单聊一聊 Redis 的锁

今天我们分析一下 redis-py 一个奇怪的报错并据此简单聊一下 Redis 的锁机制。

2025年3月1日
分类于 Project, 开源
需要 2 分钟阅读时间

Presentia: 简单而优雅的 Presentation 模板

Why

我真的用不好 PowerPoint，Keynote 也不行，这些工具对我来说都太复杂了。这些基于拖拽的工具有很多小的问题让我很难受，比如两段文字到底有没有对齐…… 我想要的是一个简单的工具，让我可以专注于内容，且可以自动生成美观大方的排版。同时这些内容的源文件是文本，这样我就可以用 Git 来做版本控制了。

对于这个问题，我的第一个解法 LaTeX 的 Beamer，第二个解法是 Typst 的 Touying。

2025年1月23日
分类于 Project, 开源, 终身学习
需要 1 分钟阅读时间

Oh-Numpy & Oh-PyTorch

100 道 Numpy 练习题的 Numpy 和 PyTorch 解答：Oh-Numpy, Oh-PyTorch.

2024年12月8日
分类于 Project, 开源
需要 1 分钟阅读时间

zhplot: 让 Python 中文做图变得简单

Why

在日常工作的少数的场景，我需要用 Python 画一些包含中文的图，一般为了简单快捷都会使用 matplotlib。在半分钟写完画图代码后，发现图片的文字部分一堆方框后是真的很无奈... 是的，中文字体的支持并不在很多开源库的考虑范围内，这是事实，在社区搜一下能看到一大把的图片显示中文的 issue。

我本来只是想画个图而已，但是我现在需要去搜索怎么安装中文字体，怎么让这些开源库能够找到自己安装的字体...本来半分钟搞定的事情，现在怎么都要花个十来分钟去搜索解决方案，并做一系列字体相关的操作。这种“小而烦”的问题有时候很影响心情，更不用说这种 Context Switch 的带来的原工作节奏扰乱。解决这个“小而烦”的问题就是 zhplot 项目要达成的目标。

2024年8月21日
分类于算法, 开源, MLE, Odyssey
需要 6 分钟阅读时间

Dawid-Skene 算法

Lilian 在Thinking about High-Quality Human Data | Lil'Log 对数据标注的质量进行了一些很有远见的讨论。这里我们主要对标签聚合算法 (真值推断) Dawid-Skene 算法进行一些较为深入讨论。

所谓标签聚合算法，是指从多个标注者的标注结果中推断出最可靠的标签。

简介

Dawid-Skene 算法最早是应用于临床医学相关的领域，用于聚合多个临床专家对同一个病人的的判断结果。后来被广泛应用于数据标注领域，用于聚合多个标注结果得到最可靠的标签。

2023年11月1日
分类于随笔, 开源
需要 1 分钟阅读时间

开源体会

记录下最近逛开源社区的体会