1.4.1 如何测试AI产品
- 训练集与测试集
- 一般是在监督学习的语境下使用,训练集类似”日常作业”,用于模型学习,测试集类似”期末考试”,测试模型在没见过的新题型上的表现如何。
- 测试集污染(Contamination)
- 测试集污染一般是指测试题目被用于模型训练,导致其”在考试前就做过一样的题目”,可能导致其测试结果优于实际性能
- 针对测试集的fine-tuning将使得测试集失去意义,模型仅仅是能在测试集中取得更高的分数,但是其通用泛化能力并没有得到提升
- 可以应对测试集污染问题的测试集
- live benchmarks (livebench, livecodebench, matharena, SWE-rebench, etc)
- benchmarks that do not have a fixed structure, like games or human feedback benches (balrog, videogamebench, arena)
- 测试集饱和(Saturation)
- 指模型在测试集达到较高分数,已经不足以展示不同模型的性能差异
- 测试平台
- UC Berkley: LMArena
- 产品主页
- 主要是通过”打擂台”的形式进行1 vs 1模型PK,由用户提出问题,两个模型分别给出答案,再由用户进行评价哪个模型给出的结果更好,测试过程中用户是不知道具体在PK的是哪两个模型的。
- ELO评分机制
- 红杉中国xbench测试工具
- 产品主页
- 根据报道,该平台主要针对垂直专业、产业场景进行测试,由行业专家出题测试,贴近产业需求,具有较强的实践指导意义。
- LiveCodeBench: Contamination free 可防止测试集污染
- BenchFlow
- https://www.benchflow.ai/
- Agent测试集:GAIA
- Artificial Analysis
- Video Arena Leaderboard
- Image Arena
- 学习资料
1.4.2 开源产品作为比较的基准线
- OpenManus vs Manus
- OpenDia vs Dia browser
1.4.3 复现