跳转至

2025

王二下班之后

南方六月的傍晚,天气已经比较热了。终于挺到下班的王二,感觉自己像是又活过来了一样。王二住的地方离公司不远,他一般都是骑自行车回家。

新时代的 Google Scholar

介绍下 Google Scholar 最近更新的一些好用的新功能,比如 AI 导航栏,引用文献快速查看和这几天推出的 Highlight&Comment 和 Scholar Labs.

BERT 论文复现

关于我们做到了哪一步

我在网上搜到了很多 BERT 复现的项目,有博客,也有 GitHub 代码仓库等。 这些文章和代码会告诉你他们在复现 BERT,介绍 BERT 是什么,原理是什么,代码要怎么写…… 但是几乎没有人提及是否复现了论文的指标,甚至也不会放当前实现的指标出来——这就让人不得不怀疑其正确性。所以在开始之前,我们先来谈一谈正确性的问题。

AI 的黄金时代

LLM in 2024的开篇我写了这样一段话:

我个人对 AI(人工智能)/LLM(Large Language Model, 大语言模型) 是完全祛魅的。即使是在 ChatGPT 问世之后,即使是在 LLM 在各个领域掀起热潮的今天,我也仍然认为这里并没有什么所谓“智能”的东西——我个人不认为现在的 LLM 会思考,不认为它能真正地创作等等。我更倾向于将现在的 LLM 看作一个庞大而又精密的机器:庞大到包含几百亿个元件,精密到可以和人类对话并完成各种复杂的任务。尽管如此,我仍然认为我们正处于一个人工智能的黄金时代,一个 AI 可以大放异彩,可以很大程度上改变我们的未来生活方式的时代!

如今我更加确信我们正处于 AI 的黄金时代。今天我想简单谈一谈我们如何真正享受这 AI 的黄金时代。

少一些 AGI 的闲谈

AGI (Artificial General Intelligence, 通用人工智能) 是什么?我不知道。 而且我前不久也面对面听沈向洋老师讲过这个问题,沈老师也说他也没有完全搞明白。 我对沈老师坦诚的回答表示敬佩——即使在一大批人大谈特谈 AGI 的时候,世界顶级的计算机科学家仍然能对这个话题保持谨慎。

ToyRL: 从零实现深度强化学习算法

简介

在看 LLM + RL 的一些论文时,发现对于一些 RL 概念 (比如 GAE) 的理解还是有所欠缺, 所以就系统地学习了一遍深度强化学习(Deep Reinforcement Learning)相关的知识。选的书是 Foundations of Deep Reinforcement Learning1.

在阅读过程中,将书中介绍的一些算法(REINFORCE、SARSA、DQN(Double DQN)、A2C、PPO)用 PyTorch 从头实现了一遍,统一整理到了开源库, 也就是今天要介绍的 ToyRL。 为了更好地配合书一起学习,当前实现尽量贴近书中的伪代码。 另外每个算法实现都在一个 Python 文件内完成,虽然有些重复代码,但是避免了代码碎片化,更便于学习。