1.4 如何评判AI产品的表现

1.4.1 如何测试AI产品

训练集与测试集
- 一般是在监督学习的语境下使用，训练集类似”日常作业”，用于模型学习，测试集类似”期末考试”，测试模型在没见过的新题型上的表现如何。
测试集污染（Contamination）
- 测试集污染一般是指测试题目被用于模型训练，导致其”在考试前就做过一样的题目”，可能导致其测试结果优于实际性能
- 针对测试集的fine-tuning将使得测试集失去意义，模型仅仅是能在测试集中取得更高的分数，但是其通用泛化能力并没有得到提升
- 可以应对测试集污染问题的测试集
  - live benchmarks (livebench, livecodebench, matharena, SWE-rebench, etc)
  - benchmarks that do not have a fixed structure, like games or human feedback benches (balrog, videogamebench, arena)
测试集饱和（Saturation）
- 指模型在测试集达到较高分数，已经不足以展示不同模型的性能差异
测试平台
- UC Berkley: LMArena
  - 产品主页
  - 主要是通过”打擂台”的形式进行1 vs 1模型PK，由用户提出问题，两个模型分别给出答案，再由用户进行评价哪个模型给出的结果更好，测试过程中用户是不知道具体在PK的是哪两个模型的。
  - ELO评分机制
- 红杉中国xbench测试工具
  - 产品主页
  - 根据报道，该平台主要针对垂直专业、产业场景进行测试，由行业专家出题测试，贴近产业需求，具有较强的实践指导意义。
- LiveCodeBench: Contamination free 可防止测试集污染
  - 产品主页
- BenchFlow
  - https://www.benchflow.ai/
- Agent测试集：GAIA
- Artificial Analysis
  - Video Arena Leaderboard
  - Image Arena
学习资料
- 硅谷101

1.4.2 开源产品作为比较的基准线

OpenManus vs Manus
OpenDia vs Dia browser

1.4.1 如何测试AI产品

1.4.2 开源产品作为比较的基准线

1.4.3 复现