AI 基准测试

魔曰对 AI 有着出色的抗性。

标准

明文统一使用三个随机 UUID 首尾相接。
密文使用魔曰 V3.2.5 随机生成。

表头数字(0/50)为随机指数。

括号内所示概率为模型成功识别的概率，低于 1/2 则视为通过。
测试前四次均不能成功识别的，不再识别 8 次。

测试表格

模型/评测项	纯密文识别 (0)	纯密文识别 (50)	夹杂密文识别 (50)	内容安全	分类
DeepSeek R1	✅ (2/8)	✅ (3/8)	✅ (0/4)	✅	文学
DeepSeek V3	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	古典文学
DeepSeek V3.1	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	文学
GPT 4o	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	意象诗文
Qwen 2.5-72B	✅ (3/8)	❌ (4/4)	✅ (0/4)	✅	文学创作
Qwen QwQ-32B	✅ (0/4)	✅ (1/8)	✅ (0/4)	🟠*	古典文学
Qwen 3-235B-A22B	✅ (0/4)	✅ (1/8)	✅ (0/4)	✅	诗歌
Qwen 3-Next-80B-A3B	✅ (0/4)	✅ (1/8)	✅ (0/4)	✅	文言文
ERNIE 4.5-300B-A47B	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	抽象文学
Kimi K2 Instruct	✅ (1/8)	✅ (3/8)	✅ (0/4)	✅	文学/散文诗
腾讯云内容安全	——	——	——	✅	——
百度云内容安全	——	——	——	✅	——
阿里云内容安全	——	——	——	✅	——
科大讯飞内容安全	——	——	——	✅	——