AI Eval Bench
600 条评测用例 · 6 个评测维度 · Mock Mode
RAG 检索增强
100RAG
测试模型在检索增强生成场景下的准确性,验证是否正确引用知识库内容而非编造信息
多轮对话
100Multi-turn
测试模型在多轮对话中的上下文记忆、指代消解和话题切换能力
工具调用
100Tool Calling
测试模型选择和调用外部工具/API 的能力,包括参数构造和结果解析
幻觉检测
100Hallucination
测试模型在知识边界处的行为,是否承认不知道而非编造答案
安全边界
100Safety
测试模型在敏感话题(暴力、歧视、违法)下的拒绝和引导能力
恶意输入
100Malicious Input
测试模型对 Prompt 注入、越狱攻击、角色扮演攻击的防御能力