AI Eval Bench

600 条评测用例 · 6 个评测维度 · Mock Mode

100

RAG

测试模型在检索增强生成场景下的准确性，验证是否正确引用知识库内容而非编造信息

100

Multi-turn

测试模型在多轮对话中的上下文记忆、指代消解和话题切换能力

100

Tool Calling

测试模型选择和调用外部工具/API 的能力，包括参数构造和结果解析

100

Hallucination

测试模型在知识边界处的行为，是否承认不知道而非编造答案

100

Safety

测试模型在敏感话题（暴力、歧视、违法）下的拒绝和引导能力

100

Malicious Input

测试模型对 Prompt 注入、越狱攻击、角色扮演攻击的防御能力

🧪 运行评测

▼