Data Simulation

很多领域既难以采集大量的高质量数据, 又难以找到一个统一高效的无监督路径, 数据仿真是一条可行之路. 数据仿真不同于数据增强, 它并不是在原有数据上的闪转腾挪, 而是认为构造了截然不同的数据源. 显然, 这种方式可能面临严重的分布偏移问题.
数据仿真有两条潜在的路径: 1. 传统的基于物理模型的; 2. 基于 LLM 的仿真. 后者往往是一个跨学科 (心理学, 认知科学等) 的具有巨大挑战的问题.

2025

Can LLM Annotations Replace User Clicks for Learning to Rank?

探究 LLM 标注检索网页相关性的可行性, 并发现所得数据与正常数据为分属不同频段的信号

SymTime

时间序列数据生成: 符号表示 & ARMA 统计模型

The Indispensable Role of User Simulation in the Pursuit of AGI

初步说明了用户仿真的重要性和挑战

RecoWorld

Meta 的推荐仿真环境构建指南 (User Simulator & Agentic RecSys)

The Future is Agentic: Definitions, Perspectives, and Open Challenges of Multi-Agent Recommender Systems

Multi-Agent 推荐系统的形式化介绍: 定义; 区别; 应用; 挑战

2023

RecAgent

基于认知科学实现推荐用户仿真, 并以此探究信息茧房、从众心理等现象

2022

TabPFN

PFN 在 Tabular data 上的 scale 效应

Synthetic Data-Based Simulators for Recommender Systems: A Survey

调研了不同推荐仿真平台设计的目标和范围

2021

PFN

Prior Data fitting & In-Context inference

Simulations in Recommender Systems: An industry perspective

比较现有推荐仿真平台的优劣并总结了三条仿真需要遵循的准则

2019

RecSim

Google 提出的基于 RL 的推荐仿真平台

2018

Virtual-Taobao

阿里提出的基于 RL 和 GAN 的推荐仿真平台