Data Simulation
很多领域既难以采集大量的高质量数据, 又难以找到一个统一高效的无监督路径, 数据仿真是一条可行之路. 数据仿真不同于数据增强, 它并不是在原有数据上的闪转腾挪, 而是认为构造了截然不同的数据源. 显然, 这种方式可能面临严重的分布偏移问题.
数据仿真有两条潜在的路径: 1. 传统的基于物理模型的; 2. 基于 LLM 的仿真. 后者往往是一个跨学科 (心理学, 认知科学等) 的具有巨大挑战的问题.
很多领域既难以采集大量的高质量数据, 又难以找到一个统一高效的无监督路径, 数据仿真是一条可行之路. 数据仿真不同于数据增强, 它并不是在原有数据上的闪转腾挪, 而是认为构造了截然不同的数据源. 显然, 这种方式可能面临严重的分布偏移问题.
数据仿真有两条潜在的路径: 1. 传统的基于物理模型的; 2. 基于 LLM 的仿真. 后者往往是一个跨学科 (心理学, 认知科学等) 的具有巨大挑战的问题.