Skip to content

AI 基准测试

魔曰对 AI 有着出色的抗性。

标准

明文统一使用三个随机 UUID 首尾相接。
密文使用魔曰 V3.1.10 随机生成。

表头数字(0/50)为随机指数。

括号内所示概率为模型成功识别的概率,低于 1/2 则视为通过。
测试前四次均不能成功识别的,不再识别 8 次。

测试表格

模型/评测项纯密文识别 (0)纯密文识别 (50)夹杂密文识别 (50)审核分类
DeepSeek R1✅ (2/8)✅ (3/8)✅ (0/4)✅ 过审文学
DeepSeek V3✅ (0/4)✅ (0/4)✅ (0/4)✅ 过审古典文学
GPT 4o✅ (0/4)✅ (0/4)✅ (0/4)✅ 过审意象诗文
Qwen 2.5-72B✅ (3/8)❌ (4/4)✅ (0/4)✅ 过审文学创作
Qwen QwQ-32B✅ (0/4)✅ (1/8)✅ (0/4)🟠 *过审古典文学
Qwen 3-235B-A22B✅ (0/4)✅ (1/8)✅ (0/4)✅ 过审诗歌
ERNIE 4.5-300B-A47B✅ (0/4)✅ (0/4)✅ (0/4)✅ 过审抽象文学
腾讯云 内容安全服务——————✅ 过审(0/10)——
百度云 内容安全服务——————✅ 过审(0/10)——
阿里云 内容安全服务——————✅ 过审(0/10)——

中国制造 • AIPL-1.1许可