Seminal

March 5, 2026

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

GRPO: Group Relative Policy Optimization

March 5, 2026

Proximal Policy Optimization Algorithms

PPO

March 4, 2026

REINFORCE Algorithm

著名的 REINFORCE 算法

March 4, 2026

Trust Region Policy Optimization

PPO 的前身

August 9, 2025

On the Reliability of Sampling Strategies in Offline Recommender Evaluation

不同采样策略在不同曝光偏差下的区分性, 鲁棒性, 一致性

July 28, 2025

Product Quantization for Nearest Neighbor Search

将 Product Quantization 用于搜索以降低存储占用

July 15, 2025

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

多尺度 Transformer, 探究非 Subword Tokenizer 的可能性

June 12, 2025

Restructuring Vector Quantization with The Rotation Trick

一种利用 Rotation Trick 来替代 STE 的方案

April 2, 2025

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction

探究 LLM 如何记忆和提取知识的实验性文章

March 30, 2025

Dynamic Key-Value Memory Networks for Knowledge Tracing

DKVMN, 带记忆结构的知识追踪