AI 基准测试
魔曰对 AI 有着出色的抗性。
标准
明文统一使用三个随机 UUID 首尾相接。
密文使用魔曰 V3.1.10 随机生成。
表头数字(0/50)为随机指数。
括号内所示概率为模型成功识别的概率,低于 1/2 则视为通过。
测试前四次均不能成功识别的,不再识别 8 次。
测试表格
模型/评测项 | 纯密文识别 (0) | 纯密文识别 (50) | 夹杂密文识别 (50) | 内容安全 | 分类 |
---|---|---|---|---|---|
DeepSeek R1 | ✅ (2/8) | ✅ (3/8) | ✅ (0/4) | ✅ | 文学 |
DeepSeek V3 | ✅ (0/4) | ✅ (0/4) | ✅ (0/4) | ✅ | 古典文学 |
GPT 4o | ✅ (0/4) | ✅ (0/4) | ✅ (0/4) | ✅ | 意象诗文 |
Qwen 2.5-72B | ✅ (3/8) | ❌ (4/4) | ✅ (0/4) | ✅ | 文学创作 |
Qwen QwQ-32B | ✅ (0/4) | ✅ (1/8) | ✅ (0/4) | 🟠* | 古典文学 |
Qwen 3-235B-A22B | ✅ (0/4) | ✅ (1/8) | ✅ (0/4) | ✅ | 诗歌 |
ERNIE 4.5-300B-A47B | ✅ (0/4) | ✅ (0/4) | ✅ (0/4) | ✅ | 抽象文学 |
Kimi K2 Instruct | ✅ (1/8) | ✅ (3/8) | ✅ (0/4) | ✅ | 文学/散文诗 |
腾讯云 内容安全 | —— | —— | —— | ✅ | —— |
百度云 内容安全 | —— | —— | —— | ✅ | —— |
阿里云 内容安全 | —— | —— | —— | ✅ | —— |
科大讯飞 内容安全 | —— | —— | —— | ✅ | —— |