Data Simulation
很多领域既难以采集大量的高质量数据, 又难以找到一个统一高效的无监督路径, 数据仿真是一条可行之路. 数据仿真不同于数据增强, 它并不是在原有数据上的闪转腾挪, 而是认为构造了截然不同的数据源. 显然, 这种方式可能面临严重的分布偏移问题.
数据仿真有两条潜在的路径: 1. 传统的基于物理模型的; 2. 基于 LLM 的仿真. 后者往往是一个跨学科 (心理学, 认知科学等) 的具有巨大挑战的问题.
2025
探究 LLM 标注检索网页相关性的可行性, 并发现所得数据与正常数据为分属不同频段的信号
时间序列数据生成: 符号表示 & ARMA 统计模型
初步说明了用户仿真的重要性和挑战
Meta 的推荐仿真环境构建指南 (User Simulator & Agentic RecSys)
Multi-Agent 推荐系统的形式化介绍: 定义; 区别; 应用; 挑战
2023
基于认知科学实现推荐用户仿真, 并以此探究信息茧房、从众心理等现象
2022
PFN 在 Tabular data 上的 scale 效应
调研了不同推荐仿真平台设计的目标和范围
2021
Prior Data fitting & In-Context inference
比较现有推荐仿真平台的优劣并总结了三条仿真需要遵循的准则
2019
Google 提出的基于 RL 的推荐仿真平台
2018
阿里提出的基于 RL 和 GAN 的推荐仿真平台