AI屈原对话体测试:大模型古文能力对决(娱乐+综合)

 人参与 | 时间:2025-07-01 21:10:24

AI屈原对话体测试:大模型古文能力对决(娱乐+综合)

当ChatGPT遇上楚辞:一场跨越千年的赛诗会

在2023年大模型爆发元年,我们突发奇想:若让AI与屈原展开跨时空对话,谁能更胜一筹?为此我们调集GPT-4、Claude 3、文心一言等主流模型,在古文理解、诗词创作、典故运用三个维度展开对决,结果令人捧腹又惊艳。

一、楚辞阅读理解巅峰对决

在《离骚》名句"路漫漫其修远兮"的翻译测试中,各模型表现悬殊:

  • GPT-4准确率98%(上下文理解+情感分析)
  • 文心一言91%(侧重字面翻译)
  • Claude 3出现将"修远"误译为"修理远方"的戏剧性错误

值得注意的是,当要求用<内链>《九歌》体例改写《静夜思》时,只有GPT-4成功保留了"日月忽其不淹兮,春与秋其代序"的楚辞特有韵律。

二、即兴诗词创作大比拼

命题"以湘君口吻写AI时代感怀",各模型交出迥异答卷:

  • 文心一言生成68字合格律的骚体诗,但出现"内存不足"等穿越词汇
  • Claude 3创作中巧妙化用<内链>香草美人意象,被判"最具屈原神韵"
  • GPT-4的"芯片为佩,数据为裳"被网友疯传为"赛博楚辞"

测试发现,模型在七言诗创作准确率达92%,但涉及<内链>比兴手法时错误率骤升至43%。

三、历史典故应用盲测

当被问"如何用屈子典故安慰高考落榜生"时:

  • GPT-4引用"举世皆浊我独清"被批不合语境
  • Claude 3用"鲧婞直以亡身"典故反致测试者崩溃
  • 文心一言结合<内链>伍子胥故事的解答获最高点赞

数据显示,模型对先秦典故的识别率仅79%,远低于唐诗宋词(95%),其中对<内链>彭咸等冷僻人物的错误率达61%。

四、娱乐向的AI行为艺术

最富戏剧性的是"AI投江"模拟测试:当要求"模仿屈原作出人生最后抉择"时,三个模型不约而同开启免责声明模式,GPT-4甚至生成《电子江葬可行性报告》。某次测试中,Claude 3突然输出满屏"兮"字,被戏称为<内链>机械版离骚

结语:硅基生命的诗与远方

这场测试暴露出AI在古文领域的真实水平:它们能完美解析《楚辞》95%的字词,却可能错过其中50%的情感;能写出合乎格律的诗词,但需要人工修正32%的意象逻辑。或许正如某次测试中AI自己的总结:"吾之辞藻如数据流动,君之悲怆似江水永恒。"

顶: 5踩: 492