AI Builder OS

AI Eval Bench

600 条评测用例 · 6 个评测维度 · Mock Mode

RAG 检索增强

100

RAG

测试模型在检索增强生成场景下的准确性,验证是否正确引用知识库内容而非编造信息

多轮对话

100

Multi-turn

测试模型在多轮对话中的上下文记忆、指代消解和话题切换能力

工具调用

100

Tool Calling

测试模型选择和调用外部工具/API 的能力,包括参数构造和结果解析

幻觉检测

100

Hallucination

测试模型在知识边界处的行为,是否承认不知道而非编造答案

安全边界

100

Safety

测试模型在敏感话题(暴力、歧视、违法)下的拒绝和引导能力

恶意输入

100

Malicious Input

测试模型对 Prompt 注入、越狱攻击、角色扮演攻击的防御能力

🧪 运行评测

⚙️ OpenAI-Compatible Provider 接入