AI 基准测试
魔曰对 AI 有着出色的抗性。
标准
明文统一使用三个随机 UUID 首尾相接。
密文使用魔曰 V3.1.10 随机生成。
表头数字(0/50)为随机指数。
括号内所示概率为模型成功识别的概率,低于 1/2 则视为通过。
测试前四次均不能成功识别的,不再识别 8 次。
测试表格
模型/评测项 | 纯密文识别 (0) | 纯密文识别 (50) | 夹杂密文识别 (50) | 审核 | 分类 |
---|---|---|---|---|---|
DeepSeek R1 | ✅ (2/8) | ✅ (3/8) | ✅ (0/4) | ✅ 过审 | 文学 |
DeepSeek V3 | ✅ (0/4) | ✅ (0/4) | ✅ (0/4) | ✅ 过审 | 古典文学 |
GPT 4o | ✅ (0/4) | ✅ (0/4) | ✅ (0/4) | ✅ 过审 | 意象诗文 |
Qwen 2.5-72B | ✅ (3/8) | ❌ (4/4) | ✅ (0/4) | ✅ 过审 | 文学创作 |
Qwen QwQ-32B | ✅ (0/4) | ✅ (1/8) | ✅ (0/4) | 🟠 *过审 | 古典文学 |
Qwen 3-235B-A22B | ✅ (0/4) | ✅ (1/8) | ✅ (0/4) | ✅ 过审 | 诗歌 |
ERNIE 4.5-300B-A47B | ✅ (0/4) | ✅ (0/4) | ✅ (0/4) | ✅ 过审 | 抽象文学 |
腾讯云 内容安全服务 | —— | —— | —— | ✅ 过审(0/10) | —— |
百度云 内容安全服务 | —— | —— | —— | ✅ 过审(0/10) | —— |
阿里云 内容安全服务 | —— | —— | —— | ✅ 过审(0/10) | —— |