找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 138|回复: 0

AI史学和学术不端嫌疑:《开放时代》已经沦落到堂而皇之发AI文了吗?

[复制链接]
发表于 2026-1-14 22:02 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

点击蓝字,关注我们

·●

本文共约6300字,完整阅读约需10分钟。

ChatGPT当上历史学家?

今天晚上21:01分,我很喜欢的一本刊物《开放时代》在其公众号上发表了刊登于2026年第一期的一篇奇文:《公元前546年:春秋战国历史分期的机器学习新证》,作者是清华大学公共管理学院的副教授蒙克。于是,在接下来的一个半小时里,我做了这几件事。

w2.jpg

第一件事是,我花了三分钟拜读这篇大作。之所以只花三分钟,不是因为我读得快,而是因为受到了强烈的AI写作的味道的震撼,无法在AI文的防毒面具尚未被开发出来的今天继续看下去。

我们将一部伟大的古典叙事作品,转译成一幅由数千行、数十列数据点构成的,可以进行计算和模式识别的历史星图。在这幅星图上,每一个数据点都如同一颗星星,闪烁着来自遥远过去的信息。至此,一项在传统史学中无法企及的任务——对一个时代的宏观、全局性模式进行客观、系统的审视——终于拥有了坚实的基础。我们不再仅仅是历史的读者,更获得成为历史观星者的可能。

当我们向“智能历史学家”(机器学习模型)提出一个更为复杂的任务:“请你告诉我们,随着历史晴雨表的读数不断变化,规范性权威和强制性权力这两个因素,在解释国家成功与否时的相对重要性,是如何动态演变的?”模型在经过复杂的计算后,给出了一张令人震撼的动态演化图(见图2)。

——《公元前546年:春秋战国历史分期的机器学习新证》

第二件事是,我在若干个学术群里和群友们讨论了一下。大家都一致认为这篇文章是纯AI写作,从头到尾,甚至毫不掩饰,连本科生都会的AIGC降重都不愿意做。在Paperpass上简单查了一下AI率,其AIGC率高达64%。我顺便查了一下蒙克教授的其他作品,作为对比,蒙克一篇同期发表的工作《找回历史:多重时间性与国际体系转型 》的AI率只有5.48%。

w3.jpg

第三件事是,从朋友那里听到了一些最近的学术八卦。由于没有非常切实的证据,为了避免本人被某些手眼通天的学阀盯上,我不好在这里和大家分享。如果有调查记者的话,应当对某些机构好好调查一番。

第四件事是,因为实在是被今天AI文堂而皇之登上C刊的惊世骇俗之举气的不打一处来,使得我放下了正在写的其他文章和要准备投的简历,捏着鼻子重新认真拜读了文章的研究方法主体部分,认为除了该文在写作上大肆使用AI工具,研究方法也颇有学术不端之嫌。反正本人作为一个小登,光脚的不怕穿鞋的,我首先给编辑部正式发送了举报邮件,然后在这里写这篇公众号,希望与学界同仁一同讨论。本来已经乌烟瘴气的人文社科学术圈,还是不要被AI文和似是而非的计算方法搞得更乌烟瘴气为好。

随机森林分战国?

关于文章最大的问题,即近乎全篇毫不掩饰的AI写作,我已经在前面做简短的说明,任何用过一点AI的读者,自行阅读原文之后,都会得出同样的观点,此处不多赘述。而即使不讨论AI写作问题,文章的语言也极度不规范,不像是一篇正经的历史学论文,充斥着口语化、不专业、蹩脚比喻和过分的自吹自擂的文字。即使在ChatGPT发明以前,这种严肃性不如高中作文的文风,也理应被desk reject。而此文居然能通过层层审核发表,实在是令人称奇。

w4.jpg

接下来我希望简要讨论文章的研究方法,并说明该文不仅写作令人叹为观止,方法上也有人为操控的嫌疑。

文章的基本技术路线是:第一步,对大约三十万字的《左传》进行结构化的数据标注。从中进行实体识别、事件提取,生成一个国别历时的面板数据集。在原文的表述中,作者团队“经过数年的努力,这项看似不可能的任务最终得以完成。我们将一部伟大的古典叙事作品,转译成一幅由数千行、数十列数据点构成的,可以进行计算和模式识别的历史星图。在这幅星图上,每一个数据点都如同一颗星星,闪烁着来自遥远过去的信息。至此,一项在传统史学中无法企及的任务——对一个时代的宏观、全局性模式进行客观、系统的审视——终于拥有了坚实的基础。我们不再仅仅是历史的读者,更获得成为历史观星者的可能。”

第二步,构造核心变量。作者的因变量是国家的置县行为,按照原文的逻辑,置县意味着分封制向郡县制转型,标志着中央集权的时代变化。主要的自变量是规范性权威和强制性权力的指数,前者通过词袋模型加权来进行操作化,例如记录“伐”“侵”等春秋战争的常见带有道德意味的表述,用来加权评分计算“规范性权威”;后者则指代纯物理实力,用战争行军距离份额来操作化。

第三步,通过可解释性随机森林方法,观察规范性权威和强制性权力对置县行为的预测能力变化。作者将数据集中的所有可用自变量一股脑丢进随机森林模型,分滑动窗口训练模型,用来预测因变量置县行为,然后进行特征重要性分析,观察规范性权威和强制性权力的特征重要性的变化,也就是说这两个变量对于预测置县行为有多有用。然后作者突然发现,BC529是强制性权力超越规范性权力的分水岭。但是,作者经过一番论述,认为在这之前的BC546才是用来作为春秋战国分期。

这整个研究过程,没有任何一步是透明的。让我们好好赏析一番。

第一,作者没有透露任何的数据标注细节。作者在文中宣称「我们如同最严谨的航海记录员,通读了数十万字的原文,并逐年、逐国记录了国家外部的军事行为……同时也记录了其外交网络……」。《左传》作为历史文本,是非常复杂晦涩的文体,数据标注有大量的模糊和操作空间可做。作者至少应当说明如何标注、如何确保标注的信度(例如交叉检验)。我们甚至不知道作者是纯人工处理了三十万字的文言文,还是运用了机器辅助方法。

第二,作者宣称自主构建了「数千行、数十列数据点构成的,可以进行计算和模式识别的历史星图」,但甚至没有披露这些变量的具体列表,更不用说对变量的基本的描述性统计信息。虽然按照作者的逻辑,他们只需要把所有变量一股脑丢进机器学习模型,但至少应该让读者知道这些变量是什么以及描述性统计和缺失值情况。可想而知的是,战争、结盟、政治异常等事件绝不是每个国家、每年都会发生,面板数据中必然存在大量的缺失值。这些缺失值是否填补、如何填补、如何影响机器学习的性能(几乎一定会!),作者也并未报告。

第三,对于核心变量「规范性权威」的构造,作者并未披露其词表和加权方式。数据标注部分内容繁杂,不披露复杂的标注规则尚可理解;但核心变量必须给出严谨的公式定义。作者只说了正义征讨加分、非正义战争扣分、根据出兵距离加权,但并未透露完整的战争词表和加权方法。

数据标注阶段的问题,尚可以解读为作者用AI写作,学术规范性不足。那么到了机器学习阶段,这部分的披露的缺失可以说是完全不可容忍了。机器学习是一个黑盒子,相比于传统的统计模型有更多的超参数和更多的hacking方法,这对研究者的披露义务和稳健性检验水平都提出了更高要求。那么作者做得怎么样呢?

第四,作者没有透露任何的随机森林模型超参数、调参过程和模型性能指标。随机森林有大量的可能影响模型表现的超参数,例如树的数量、最大深度、叶节点数、分裂特征数、叶结点最小样本数等等,巨大的超参数空间,使得研究者完全可以通过精心设计的超参数,得到任何可能的分期结果,再进行选择性的报告最优结果。而在预测能力方面,虽然按照作者的逻辑,重在解释性的机器学习不那么关注预测能力,但作者至少应当证明预测能力过关,否则变量的特征重要性根本无从谈起。

第五,作者没有进行任何的稳健性检验。正如前面所说,通过调整模型参数,实验结果可能发生影响结论的变化。作者应当报告在不同的超参数设置组合下,其结论是否会发生改变,还应当报告使用除了随机森林之外的机器学习方法的结果。

第六,作者甚至没有报告任何模型训练细节。按照常理,对于这种面板数据训练非时序的机器学习模型,作者应该是用了滑动窗口的策略。但是,通读全文,我们甚至不知道模型是如何划分出来的,窗口是50年还是100年,总共训练了多少个模型,窗口之间是否重叠,更不用提对窗口大小的稳健性检验。

在结果的分析和呈现上,作者的考虑甚至令人感受到一种恶意。让我们看看文中最重要的两张图:

w5.jpg

第一张图,展示了作者测量的「规范秩序指数趋势」随时间的变化,横坐标是时间,纵坐标是作者将时代的「正面指标」和「负面指标」求和相减得来的(具体怎么清洗、怎么标准化使得可以加和、包含哪些变量作者又没说)。

w6.jpg

第二张图,展示了“规范性权威与强制性权力重要性动态变化”。这张图的吊诡之处在于,作者希望通过这张图说明分期时点问题,但是横坐标根本不是时间,而是图一中展示的规范秩序指数。同时,作者还将这个指数进行了归一化,并且没有报告归一化的方法,这使得读者完全无法根据这张图倒推时间和因变量的关系。

为什么不拿时间做自变量,而是拿一个根本不第一性的自定义的指数做自变量?作者这样解释:「正如图1中揭示的,随着历史的演进,这个指数的总体趋势是不断下降的。因此,要理解图2中两条曲线代表的游戏规则在历史中相对重要性的动态演变次序,必须从右向左来阅读这张图:图的右端(NOI值高)代表了规范秩序尚存的春秋前期,左端(NOI值低)则代表了规范秩序不断崩坏的春秋中后期。」

然而,虽然图一整体呈现出下降的趋势,但是中间是有多次的波动的。这意味着,图二中的横坐标,可能对应图一中的复数个时间点。另一个细节是,图二的中间有一个没有被线连起来的空心点,作者并没有解释其含义。

时间作为自变量明显是最符合直觉和读者的期待的。为什么不这样画图呢?我想是因为用时间呈现的效果并不理想,掩盖时间上的跳变,强制性地对特征重要性变量进行了非线性的平滑的呈现,而试图呈现两个抽象变量的相关关系。那些 NOI 变化不大的年份在横轴上被压缩到了同一个点附近,而 NOI 变化剧烈的年份被拉长。这样画出来的图,好像就是一个干净利落的X形交叉。

这就又引发一系列问题。第一,既然一个横坐标可能对应多个时间,作者为什么能在一个非时间轴上强行标注时间点,并且误导读者这是时间的变化呢?第二,从图中来看,只有四个时间点的有效数据,中间都是折线的连接,这意味着作者很可能只训练了四个随机森林模型,得到了四个时点的数据,中间的数据完全是线性插值的,为什么能够得到一个精确的BC529的交叉点呢?第三,作者得到了BC529的交叉点之后,突然反过来说在那之前的BC546才是原因:「但它只是结果,并非根源。要找到真正的临界点,我们必须回溯到右边那条虚线对应的公元前546年。请看代表强制性权力的曲线,在公元前546年这个历史节点的左侧,即在这次弭兵会盟之后,这条曲线一改之前相对平缓的上升趋势,其上升的斜率突然变得异常陡峭」。正如前面所说,这个图像的斜率根本不代表随时间的变化速度。而突然从BC529跳到BC546,其实亦有先开枪后画靶之嫌。

根据作者的定义,所谓规范秩序指数本身就包含了战争频率、弑君次数的部分。而强制性权力的重要性,本身也与这些变量相关。作者用“战争变多”算出“规范秩序指数下降”,又反过来用规范秩序指数作为图中的自变量,暗示这是强制性权力变得重要的原因。这其中有巨大的循环论证的内生性问题。

由于作者刻意的可视化,不想让读者倒推重要性和时间的关系,我尝试用下面的方式进行还原:

w7.jpg

由于图二的纵坐标就是图一的横坐标标准化后的结果,因此将图二半透明化、旋转、翻转再平移放缩,使得其横坐标的范围正好和图二的纵坐标的最大/最小值对齐。再对图二中的数据点作平行线,与图一中的曲线相交,就能得到其对应的时间点了。如果作者对图二的横坐标的标准化采用的是min-max标准化,并且图片的比例正常,那么我上面的图片对齐操作,数学上就等价于对标准化的还原。

可以看出,在我还原之后,图二中的一个数据点画出的平行线,与图一曲线有三个交点,根本不能确定是哪一个,这印证了我前面所说的图二的横坐标对应多个可能的时间的说法。但是这并不是最重要的问题,最重要的问题是,作者在图一中标注的BC546和BC529的时间点,在图二中并未准确对齐,而且不准确的程度已经超出了P图的精度问题所允许的上限。这意味着,作者并没有简单使用min-max标准化,有可能是z-score等其他标准化,并且没有在文章中披露,使得读者无法还原数据的原本样貌。

我对文章还有大量的疑惑想写,但是已经写到这里,我想我已经不需要提出更多的问题了,审稿专家的水平一定比我高,不知道为什么没有像ICLR审稿人那样把四十个审稿问题丢给作者?本人的意见是,这篇文章无论从AI生成、数据处理还是可能的学术不端嫌疑来看,都不应在《开放时代》这一本C刊上发表,这不仅是对相关学科、相关刊物、相关学术机构的信誉的破坏,还是对学术界读者智力和学术诚信的羞辱。笔者已经向《开放杂志》编辑部递交举报,希望专家能够早日给出专业的审查结论。

AI学者,还是另有隐情?

对文章内容的讨论暂且告一段落,另一件让我好奇的事情就是,这位作者到底是何方神圣。

w8.jpg

根据公开资料显示,本文的作者蒙克,是清华大学公共管理学院的副教授。研究兴趣颇为广泛,从政治学、经济学、国际关系、社会政策,无所不包。近年来,他对春秋战国的兴趣浓厚了许多。

从发表情况来看,这位作者的水平颇高。其他学科的相关刊物我不了解,知网显示,他在2017年和2022年,在顶刊《社会学研究》上发表文章:《“就业—生育”关系转变和双薪型家庭政策的兴起》和《天命观下中国早期家产官僚制的形成》,其中后一篇也是对春秋战国时期的定量研究。

我认真拜读了社研《家产官僚制》一文。在这篇文章中,作者把文献综述、理论演绎、模型和变量都定义得清清楚楚,结果的呈现也都是规范的,读完之后没有以我的驽钝水平能一眼看出的问题。这篇文章在学术品味上也很对我的胃口:它从一个历史社会学/组织社会学的视角出发,讨论了中国没有演变出韦伯意义上的现代官僚制,而是“家产官僚制”的细腻的实证机制。从作者的发表情况和任职情况来看,这显然是一个水平、能力和资源都到位的大学者,没有必要去做学术不端、AI写作的事情。

那么,一篇扎实严谨和一篇AI满地漏洞百出的这两篇文章,是怎么被同一个人发出来的呢?笔者只好合理猜测,《前546年》一文,至少并非完全出自蒙克教授的手笔。也许是教授交给博士生,博士生交给硕士生,硕士生交给本科生,本科生没有水平又没有学术底线,于是用AI糊弄了一篇上去。而教授也没有检查把关,直接以自己的名义投稿到了《开放时代》。《开放时代》又是如何绕过专家评审的重重法眼,把这篇文章公然发出来的呢?这同样令人浮想联翩。

当然,以上内容只是本人的猜测,笔者并不掌握任何证据,也许我的猜测完全不能代表真实情况,希望编辑部和相关机构的调查,能够辟谣这一说法。

最后的话

从读到开放时代公众号上的奇文,到写完这篇公众号,正好过去四个小时。这四个小时里,我几乎完全是被一种被学术圈当啥子耍的愤怒驱动着求证、质疑和写作的。不知从什么时候起,我再也没有听过任何关于学术界的样子的正面的消息,只有无穷无尽的丑闻和脏东西。少有的阳光都来自身边的人和身边的故事,让人觉得其实自己还是被身边的环境保护得很好,暂且是比较幸运的人。

《上海交通大学学生生存手册》里有这样一句话:「我只是看到了无数充满求知欲、激情、与年轻梦想的同学们,将要把自己的四年青春,充满希望与信任地交给大学来塑造。这使我心中非常不安。」这句话在结构上,与韦伯的《学术作为志业》中的这一段话是何其相似:

「因此,学术生涯乃是一场疯狂的冒险。当年轻学者要我对他们进大学教书做些建议时,我几乎没办法负起鼓励之责。如果他是犹太人,我们自然可以说:“放弃一切希望。”但是对其他的人,无论基于感情或良心,我们都必须问这样一个问题:你真的相信,你能够年复一年看着平庸之辈一个接一个爬到你的前面,而既不怨怼亦无创痛吗?自然,我们得到的回答总是:“当然,我活着只是为了我的‘志业’。”

然而,我发现只有少数人能够忍受这种情形,而不觉得这对他们的内在生命是一种伤害。」

大抵绝大部分人都成不了韦伯,甚至当不上这里的「平庸之辈」吧!只是,如果并非「能够忍受这种情形的少数人」,我们是否还有机会让所谓志业的能指变得有些许的不一样?

1

END

1

图文:封闭时代

排版:齐桓公
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-16 01:15 , Processed in 0.100569 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表