1.4.1 如何测试AI产品

  • 训练集与测试集
    • 一般是在监督学习的语境下使用,训练集类似”日常作业”,用于模型学习,测试集类似”期末考试”,测试模型在没见过的新题型上的表现如何。
  • 测试集污染(Contamination)
    • 测试集污染一般是指测试题目被用于模型训练,导致其”在考试前就做过一样的题目”,可能导致其测试结果优于实际性能
    • 针对测试集的fine-tuning将使得测试集失去意义,模型仅仅是能在测试集中取得更高的分数,但是其通用泛化能力并没有得到提升
    • 可以应对测试集污染问题的测试集
      • live benchmarks (livebench, livecodebench, matharena, SWE-rebench, etc)
      • benchmarks that do not have a fixed structure, like games or human feedback benches (balrog, videogamebench, arena)
  • 测试集饱和(Saturation)
    • 指模型在测试集达到较高分数,已经不足以展示不同模型的性能差异
  • 测试平台
    • UC Berkley: LMArena
      • 产品主页
      • 主要是通过”打擂台”的形式进行1 vs 1模型PK,由用户提出问题,两个模型分别给出答案,再由用户进行评价哪个模型给出的结果更好,测试过程中用户是不知道具体在PK的是哪两个模型的。
      • ELO评分机制
    • 红杉中国xbench测试工具
      • 产品主页
      • 根据报道,该平台主要针对垂直专业、产业场景进行测试,由行业专家出题测试,贴近产业需求,具有较强的实践指导意义。
    • LiveCodeBench: Contamination free 可防止测试集污染
    • BenchFlow
      • https://www.benchflow.ai/
    • Agent测试集:GAIA
    • Artificial Analysis
      • Video Arena Leaderboard
      • Image Arena
  • 学习资料

1.4.2 开源产品作为比较的基准线

  • OpenManus vs Manus
  • OpenDia vs Dia browser

1.4.3 复现