查看原文
其他

推进计算文学研究——对笪章难《以计算的方法反对计算文学研究》一文的讨论

霍伊特·朗 苏真等 DH数字人文 2022-07-17


  编 者 按

Editor's Notes

笪章难的《以计算的方法反对计算文学研究》一文对计算文学研究领域提出了若干质疑,在数字人文文学研究领域引发了广泛的讨论。为了继续和深入这一对话,多位数字人文研究者和批评家组织论坛对此作出回应,与笪章难论辩。讨论围绕笪章难的计算方法和理论预设展开,并就数字人文文学研究对人文学发展的意义展开积极的回应。这是一次难得的既有统计技术方法、又有历史和理论意义的关于数字人文文学研究及其与人文学关系的学术讨论,会继续推动数字人文文学研究的发展。


推进计算文学研究——对

笪章难《以计算的方法反对

计算文学研究》一文的讨论[1]

[美]霍伊特·朗 [美]苏 真 [加]安德鲁·派博 

[美]泰德·安德伍德 [美]马克·阿尔吉-休伊特 

[澳]凯瑟琳·伯德 [美] 笪章难 撰 汪 蘅 译



一、重申《以计算的方法反对计算文学研究》的基本观点——笪章难


首先,一个限定条件。由于论坛的时间限制,我只能谈及论坛参与者提出的议题中的一部分,而且仍然不够精确。我确实计划发布一份附加回复,处理更为细致的技术问题。


《以计算的方法反对计算文学研究》不是为了改进CLS而写。这篇论文不只是呼吁“更严谨”或呼吁全面的重复。不是为了解决哪种统计学研究模式最适于计算文学分析。这不是一篇方法文章;一些回复我的人也指出了,那样的文章非常多。


笪章难(Nan Z. Da)

写这篇文章是要为文学学者和编辑们赋权、让她们能够提出关于计算和定量文学批评的合乎逻辑的问题,假如她们怀疑在结果和论证中间存在概念上的不匹配或察觉到文学批评批判方法的收益特别低。


我希望这篇论文教我们意识到两种类型的CLS研究。第一,有统计上严谨的研究,但无法真正回答它要着手解决的问题,或完全不提有趣的问题。第二,看起来发布了有趣的结果,但要么没有鲁棒性,要么逻辑混乱。混乱有时来自用户错误等问题,但更经常的是不必要地使用统计学和其他机器学习工具引起。论文尝试去神秘化这些工具在文学语料库上的应用,并解释为何当你的目标是文学解释或描述时,技术错误会被放大。我的文章是长时间调研的终点,调查的是计算方法及其定量分析模式能否在文学研究中有收获。我的回答是,驱动定量结果和数据模式的事物往往和学者们宣布的文学批评或文学史论点关系甚少,他们号称正在找出如此的结果或那般的模式,——尽管有时候看起来像是这么回事。如果我们在CLS中发现的结论证实了或驳斥了现有知识,这并不标志它们是对的,而是说它们在最好情况下是同义反复,在最坏情况下只不过流于表面。


本文对文学批评应该为何持不可知立场,不对阐释习惯做诊断。指控它采取“纯粹主义”立场,这纯属推测。文章意在描述学术研究不应为何。即使在文章最后几页呼吁读书,也并不推测“实际在读”有内在的意义,而仅仅是反驳意在简单分类的工具应用,人类在这方面的抉择要精确且花费要便宜得多得多。


至于探索性数据分析vs验证数据分析的问题,我不倾向于任何一种。如果涉及数字及其解释,那么统计学不得不发挥作用;我不知道任何绕开它的方法。如果你仅仅想要描述数据,那么你就得展现一些来自非简化论测量结果的有趣内容。至于求助探索性工具:如果你的工具由于缺乏力量或对目标来说过于拟合而完全不能探讨正在考虑的问题,你的解释性工具就是不需要的。


定量方法和非定量方法也许可以协力工作,这看起来无可指摘。我的论文只是在说:理论上也许如此,但实际不足。安德鲁·派博指出归纳问题,关于如何从局部到整体、从检验性到说明性。这正是我的文章质询的那个缺口,因为这就是合作的理想开始崩坏之处。可以随便称呼这个缺口的强行弥合——一种新的解释学、认识论、或者形态——但到最后,逻辑必须清楚。


批评我的人指出了一种困境,说得没错。但这困境是他们的,不是我的。我的观点也是说,再往前走,不是由我或一小群人来决定这个工作价值为何、或应该怎么做。


首先,文学学者一直在向其他领域的学者请教意见和评价。其次,精神分析解读的收益,哪怕寻求的是文学外的意义和有效性,也不是为了心理学,而是为了文学批评的意义,其成功与否取决于自身。CLS想说:“我们的工作本身作为文学批评没有太多收益也可以的,不管是在散文的水平上还是洞察力的精微上;收益就在于用到这些方法、描述数据、产生预测性模型、或者让别人未来能够提出(也许更好的)问题上。收益在于建立实验室、资助学生、创办新期刊、为终身教职和博士后资格以及高得惊人的拨款给出理由。”如果是这些说法,那么不止一个学科需要被叫来评估这些方法、应用及其结果。由于已发表的对特定文学学术研究的批判通常不会因为指出依然蓄势待发的事情而遭反驳,我们对付的是两种不同的学术模型。这种情况下,我们应该最大程度地跨学科。



信任计算文学研究 ——霍伊特·朗和苏真


笪章难的《以计算的方法反对计算文学研究》在过去反对文学计算方法的论战中很醒目,因为它自称要严肃对待计算。它承认,严肃从事此类研究意味着要发展统计及涉及其他概念的素养。她的论文许诺要让争论超越对数字的断然拒绝、转向关于研究可否科学重复的对话,这是这种辩论朝前迈出的对于批评有益的一步。


霍伊特·朗(Hoyt Long)

但其效用终结于此。“不要相信数字,” 笪章难警告说。或者,“不要相信他们的数字,相信我的。”但你应该这么做吗?如果你相信他们的数字,她暗示道,那么计算方法的整个立场就分崩离析了。相信她的数字,你会发现这一点。但她的数字无法信任。笪章难对文化分析学领域14篇文章的批判充满技术和事实错误。这不只是关于细节的争吵。这些错误反映出基本统计概念理解的缺乏,类似于文学研究的外人把乔治·艾略特称为“著名男作家”。[2]更让人担心的是笪章难没能将统计方法理解为与语境相关的、历史的和阐释的项目。坦率地说,论文最大的错误是人文主义错误。


这里我们关注的是笪章难和预测模型有关的错误。这是她在批判的我们的两篇文章中使用的核心方法。在《湍流》中,我们用13个语言学特征建立了一个意识流(SOC)叙事模型,发现其中10个合起来能可靠地区分我们确定为SOC(和现实主义小说语料库中的篇章相对比)的篇章。类符—型符比(TTR)是词汇多样性的测量,是其中最有区分力的,尽管它本身并不提供信息。我们在论文里仔细解释过了,这个预测模型的目标在于理解多种特征如何协同辨认风格模式,而不是单独辨认。笪章难批判中没有什么内容表明她意识到了这个基本原则。


其实,笪章难只质询了我们模型中的一个特征(TTR),并认为修改它就会让我们的建模失效。具体来说,她检验了TTR和SOC之间的强关联在移除她的“标准终止词列表”中的词语后是否依然成立,而不是移除我们使用的终止词列表的词语。她发现它不成立。这里有两个问题。首先,TTR和“TTR减去终止词”是两个分开的特征。我们在模型里确实纳入了这两种,而且发现后者有最低的独特程度。第二,尽管检验特征鲁棒性的本能是恰当的,但断言存在一个应该普世使用的“标准”终止词列表就是拆台了。我们的列表是特为用于19世纪和20世纪早期小说而创建的。就算有正当理由采纳她的“标准”列表,也必须重新跑模型、检验重新测量的“TTR减去终止词”特征是否改变了整体的预测精度。笪章难没有这么做。这就像随意拨弄钢琴的一只琴键,还没弹另一个音符就宣布整个乐器走调了。


但是错误还不止于此。批判《文学模式识别》时,她试图让我们的模型分类英语俳句诗和非俳句诗的鲁棒性失效。她的办法是创造一个新的“中文对联英译文”语料库,在这个语料库上检验我们的模型。为什么这么做?她表示这是因为它们充满了和英语俳句“类似的意象”,也很“亚洲”。这个误入歧途的抉择有东方主义的气味。它完全抹去了语境和历史,提出一个实际不存在的本体论关系。这就是为什么我们花了超过12页篇幅从批评和历史的角度叙述英语俳句形式。


苏真(Richard Jean So)

这些错误代表了一种始终如一的拒绝:拒绝将某人的阐释实践置于语境和历史中考虑(确实去“好好解读”),不管是统计上还是人文上。我们不相信存在“客观上”好的文学阐释或者存在一种“正确的”做统计分析的方法:笪章难的立场是多数科学史家和多数统计学家本人都会拒绝的。文学和科学的惯例都是持续争论和重新阐释的,而非从高处传下来。和文学研究一样,统计学这种知识体系形成于乱糟糟的学科史和不同的实践群体。笪章难的论文坚持一种非常固执的、“客观的”、黑白分明的知识版本,这种倾向同统计学和文学研究全都完全相反。这种版本的故事不怎么让人信任。



所研究案例的选择不能代表计算文学研究——安德鲁·派博


笪章难发表于《批评探索》的研究文章加入了横跨几个学科的新潮流,可以归在“重复”的主题下。[3] 这方面,她的文章遵循了其他领域的主要做法,例如开放科学合作联盟(OSC)的“重复性项目”,该项目寻求重复心理学领域过去的研究。[4] OSC作者写道,如果做得好,重复的价值在于它能“在发现结果被复制时增加确定性,在不能复制时促进创新。”


但是,尽管她的研究做出了关于整个领域的影响广泛的结论,却未能遵循任何由OSC等项目创立的程序和实践。虽然提到了重复的认知论框架——也就是证明或驳斥单个文章和整个领域的有效性——她的实际做法却遵照了文学批评领域的古老的选择性阅读传统。笪章难的研究归根结底有价值,但不是因为它提出的以计算的方法反对计算文学研究(这项工作还待做),而是它突出了传统文学批评模型被拿来做大规模证据性结论时伴随而来的诸多问题。好消息是这篇文章让归纳问题、也就是如何同选择性阅读作斗争的问题,进入了本领域面对的中心议题。


以所选的证据开始说。OSC在做重复项目时,生成的样本有100个研究,取自出版1年内3个不同期刊,以接近合理的本领域抽样。笪章难却选择了“少量”文章(我数了下是14篇),来自不同年份、不同期刊,没有清晰的理由说明为何这些文章能代表整个领域。问题不是所选的数量,而是我们无法知道为什么选择这些文章而非其他文章,因此无法知道她的发现结果是否可延伸至她样本之外的其他研究。唯一的联系似乎是这些研究按她的标准都“不成立”。想一下如果OSC发现百分之百的样本文章都不能重复。我们会不会认为他们的结果可信?而笪章难则相反,永远正确,令人惊讶。


笪章难对这些文章的关注表现出更深程度的无代表性。OSC在重复项目中建立了清晰可辨的标准,可以宣布一项研究无法重复,也能承认做出这一结论的困难。相反,笪章难则每篇文章用不同标准,做出有争议的选择,并犯下彻底的错误,明显是特意设计的,为了突出差异。


安德鲁·派博(Andrew Piper)  

她把文章作者名字弄错、引用版本弄错、论证所引用的书弄错、还在一些基本数学问题上出错。[5] 但是每一个论断加起来总是得到同一个肯定的结论:不能重复。在笪章难的手里,部分总是整体的完美代表。也许笪章难的文章最大的局限在于她对统计推论和计算模型极为狭窄的(也就是无代表性)的定义。在她看来,使用数据唯一恰当的方式是做显著性检验,也就是用统计模型去检验给定的假设是否“成立”。[6] 解释性数据分析、理论建构或预测性建模在她对本领域的理解中没有位置。[7]考虑到笪章难自己就没有做此类检验,这特别讽刺。她要别人按标准来,自己却不用据此负责。她也没有引用那些明确做了检验的文章[8]、或者引用质疑此类检验的价值的研究,[9] 或引用那些探讨词频和人类判断之间关系的研究,她是认为这一关系很成问题的。[10] 笪章难 的研究工作的选择性和更广阔的研究景观深深脱节。这些实践突出了一个更普遍的问题,文学研究领域中太长时间以来都未审查这个问题。对于世上万物,要如何可靠地从个体观察转移到普遍信念?涉及归纳个体研究或整体领域时,笪章难的文章是选择性阅读问题的杰作。处理负责的、可信的归纳问题,将是未来本领域面临的最大挑战之一。数据和计算建模会和宇宙中其他学科一样,在此过程中扮演不可或缺的角色。



需要更有成效地讨论计算文学研究——泰德·安德伍德


人文学科和其他地方一样,和数字打交道的研究者们时常会重复并检验彼此的结论。[11] 笪章难对这个成长中的流派的贡献与先例不同,区别主要在于移动得更快。例如,我和我的共同作者用5800个词描述、重复并部分地评论一篇关于流行乐的文章。[12] 相反,笪章难用38页就打发了14篇运用不同方法的文章。文章的能量令人印象深刻,其长期影响应是正面的。


但这节奏有代价。如果读者尚未了解她总结的那些作品,当她匆忙解释、开始谴责时,其论证也许让人头晕。了解这些作品的读者会意识到笪章难的总结充满重大的忽略和错误。对文学研究领域的计算开展理论争论的时机已成熟。但很不幸这篇文章非常误导人——即使在释义的层次上——无法作为这一争论的起点。


泰德·安德伍德(Ted Underwood)


例如,笪章难提出,我的文章《体裁的生命周期》让体裁看起来稳定,只是因为它忘了比较苹果和苹果:“安德伍德应该在1941年前的侦探小说(A)上训练他的模型,和1941年前的随机混杂的作品相比较,再在1941年后的侦探小说(B)上训练,和1941年后的随机混杂的作品相比较,而不是在两组作品上用同一批随机混杂的作品”(p.608)。


这让人迷惑不已的批判要我去做的事,我在文章里明白说过我已经做了:根据出版日期比较不同组的作品。[13] 文章里也没有“随机混杂的作品”。笪章难的可笑措辞将随机对比集和令人不快的“体裁混杂”混为一谈,它在论证中起到了不同的作用。


更重要的是,笪章难的批判压制了我的文章的比较主题——主题确定侦探小说比其他几个体裁更稳定——以便树起一个声称所有体裁“从19世纪20年代直到如今都多少保持一致”(p.609)的稻草人。这个稻草人主题缺乏任何可用于测量一致性的比较准绳,因此变得无法证明。在其他情况中,笪章难忽略了一篇文章的显著性结果,就为了嘲笑一个显著性有限的结果,而作者已经承认了这一点——但她完全没有提及作者承认了有限。这就是她对待乔科斯和基里洛夫的方式(p.610)。


简单说,这篇文章没有在整体批判上下功夫。笪章难没有描述组织起一篇文章的各种目标,而经常假设研究者试图(或未能)做一些她认为他们应该做的事。比如,主题模型能识别语料库中的模式,而不用假装发现了独特而正确的描述。人文学者用这个方法多半是为了解释性分析。但笪章难一开始就假设主题模型肯定是混乱的尝试、要证明某种假设。于是,当她发现(并花了一页内容去证明)这个方法跑了好几次能出现不同的主题,感到震惊。这是真的。这也是这个方法的基本预设,笪章难提及的所有作者都承认这一点——他们彼此之间用了好几页来讨论变化的结果如何仍能用来做解释研究。笪章难没有承认这一讨论。


最后,《以计算的方法反对计算文学研究》一文起始就有一些关键性误导,暗示说文化分析学纯粹基于语言学证据、主要是词语。确实,词语能揭示许多事情,但这种对当代趋势的说法很误导人。定量方法正掀起浪潮,部分因为研究者们已经学会从文学中提取社会关系,部分因为他们将语言和外部社会证据配对——例如评论家的判断。[14]有些文章,就像我自己关于叙事速度的文章一样,使用数字完全为了描述人类读者的阐释。[15] 笪章难的论战战略再一次要将整体中的细节孤立出来,然后当作整体来批判。


对文化分析学更盘根究底的研究方法也许已经发现,它不是单块巨石,而是几个彼此频繁互相批判的项目之间持续展开的辩论。例如凯瑟琳·伯德就在一个范例性的论证中批评其他研究者的数据(包括我的),论证开头精确描述了历史表现的不同研究方法。[16] 笪章难本可以做出类似有成效的干预——比如解释研究者应该如何在解释性分析中报告不确定性。她的论文没能做到这一点,因为要急匆匆谴责尽量多的例子,这阻止了该文花时间描述并真正地理解其批判对象。



文化分析学是增强版的人文学科,不是要成为没有阐释技巧的虚拟人文学科——马克·阿尔吉—休伊特


笪章难的文章《以计算的方法反对计算文学研究》中充满了一系列二元对立:计算或阅读;数字或词语;统计或批判性思考。从这些错误的对立出发,文章魔术般变出了计算和批评之间的冲突。但文化分析学领域却是依赖于发现这些二元项目间的可兼容性的:计算要有和文学批评手牵手一起工作的能力、从业者用批评性阐释去理解自己的统计。


笪章难假设的这些对立导致她把注意力完全集中在对验证数据分析(CDA)的零假设检验上:选择图表、提出假设、寻找显著性中的错误。[17] 但是,在探索性数据分析(EDA)的创始人、数学家约翰·图基看来,让数据自己说话、不带潜在假设地将之视觉化,能让研究者避开确认偏见的陷阱。[18] 这就是心理学家威廉·麦奎尔(1989)说的“假设检验神话”:如果研究人员一开始就相信一个假设(例如文学太复杂、无法用计算分析),那么,她或他就能通过对数据的简单操纵证明自己是对的(挑拣支持她的论点的例证)。[19] 拘束于本领域正统的从业者往往会在统计学整合到新研究领域时错过被揭示出来的新模式。


马克·阿尔吉-休伊特(Mark Algee—Hewitt)

文学研究中,EDA产生的视觉化并不取代阅读,相反,它将阅读重新导向新的目的。统计显著性的每个场所都揭示出新的阅读中心:定量行为和任何解释一样并不特别简化。统计的严谨依然关键,但这些数据目标嵌入理论装备中的方式同样不可或缺,这一装备依赖文学阐释。[20] 然而在笪章难的文章中,她从平均长度10250个词的13篇文章中摘取简单的统计数字。她只有忽视这些万字文章、拒绝解读图表语境及论证、调整、异议,才能控制其论断。


由于笪章难坚持验证数据分析,她的批判就需要一个假设:如果缺席语境之外没有假设,她就被迫发明一个。就算粗略读一遍《维特拓扑学》就能发现,我们对于“《维特》对其他文本的影响”的问题不感兴趣:相反,我们感兴趣的是当语料库围绕《维特》的语言重新组织时对语料库的影响。[21]这种拓扑学创造出新的邻接性、激发了新的解读:它并不证明或反驳、它不存在对或错——如果提出其他理解,那就是范畴错误。


文化分析学不是要用数学严谨性取代学者们数百年来发展出的阐释技巧的虚拟人文学科。它是增强的人文学科,在最好的情况下,能展现最仔细的细读读者往往也看不见的新类型的证据和仔细考虑过的理论观点,二者联手产生新的批评研究。



需要对机械方法研究文学数据、统计学和机器学习进行更多的批判——凯瑟琳·伯德[22]


笪章难对CLS的统计学评论所驳斥的一种研究方法我本人也很关注,但她对这个领域和统计研究的框架有误解。她对CLS的定义——用统计学、主要是占压倒性地位的机器学习去研究词语模式——排除了大多数我会归到计算文学研究范畴的内容,包括以下研究方式:运用数据建设和数字信息综合处理作为批评分析的形式;分析文献学和其他元数据、探讨文学趋势;采用机器学习方法界定文学现象、做非计算解释;或者为了文学研究的目的,将数据视觉化和机器学习等方法的涵义理论化。


除了笪章难对CLS独具一格的限制性定义外,我最吃惊的是她对统计研究的构想过于拘束且前后不一。笪章难提到的研究者中,大多数都明确认为机器学习的支点排斥以实证主义观点对待文学数据和计算,而更倾向于将建模看作主观实践。笪章难似乎认为,首先,这个支点出现得还不够(CLS采取机械方法处理文学解释),第二,走得太远了(CLS对数据推论太随心所欲,例如“隐喻化……编码和统计学”[[p.606 n.9])。一方面,笪章难一再表明,如果CLS选择一条略微不同的路——也就是用更恰当的样本训练、准备文本数据时更严谨、避免主题模型等不可复制的方法、以语料库语言学家的成熟运用自然语言处理——就能抵达转折点:采用的数据、应用的方法、提出的问题就能变得适于统计分析。另一方面,她又将“好好读文学”确定为“界限点所在”,从而排除了这个可能性,在这个点,计算文本分析就不再有“效用”(p.639)。这种对统计研究的有限的看法也在笪章难关于文本挖掘的统计工具的两个说法中浮现:它们“在伦理上是中性的”;必须“根据其实际功能”使用(p.620),笪章难界定的实际功能是简化信息以便快速做出判断。但是任何知识上的探索,任何测量结果——更不用说有此特定目标的测量——都是和这个有伦理维度的世界的互动。


凯瑟琳·伯德(Catherine Bode)


统计论证的统计检验至关重要。我同意笪章难的看法:用机器学习去界定文学中的词语模式往往简化了复杂的历史和评论议题。她提出,这种简单化包括将模型看作“有意识的解释”(p.621)、认为词语模式表示文学因果关系和影响。但是,认出这些问题和坚持认为统计工具有对文学研究有害的“实际功能”,这中间相距甚远。我们的学科历来从其他领域(历史、哲学、心理学、社会学等)吸收不同方法。也许正是假设中的文学研究缺乏功能效用(而笪章难声称要为之辩护)才让这些吸收采纳如此富有成效;也许这些采纳卓有成效是因为文学的意义不是单一的、而是由社会构成性地锻造而成,在这个社会里,特定时刻中特定范式(历史的、哲学的、心理学的、社会学的,现在是统计学)的突出地位塑造了我们所知的一切和了解这一切的方式。任何情况下,学科的纯洁性都无法保护贫乏的方法论;跨学科性能增加方法论意识。


笪章难对统计学“实际功能”的僵化看法阻碍了她就文学研究和统计方法间可能的遭遇提出更有“论证意义”(p.639)的问题。这样的问题可能包括:如果不是有意的或解释性的,那么机器学习辨识出的模式在认识论上——以及本体论和伦理上——地位为何?有没有将词语计数和其他文学或非文学因素相联的方式,可以促进类似模型的“解释力”(p.640)和/或批评潜力,如果没有,为什么?就像哲学、社会学和科学技术研究领域中发生的一样,文学研究能否应用理论视角(如女性主义经验主义或新唯物主义)重新想象文学数据和统计研究?没有这些方法论和认识论上的反思,笪章难用统计方式对统计模型的暴露就落入她归到这些论点头上的同一陷阱中:将“机械发生的事混淆为深刻的见识”(p.639)。我们非常需要机械的——实证的、简化论的和非历史的——方法处理文学数据、统计学和机器学习。不幸的是,笪章难的批判却显示出它强烈批评的问题。



我文章中的一些错误——笪章难


1. “毕竟,统计学自动假设”(p.608)这个说法是不对的。更正确的说法应为:在标准假设检验中,95%置信度意味着,当零假设成立时,95%的情况下无法拒绝。


2. 将不同的文本挖掘/机器学习应用描述(p.620)为“伦理上是中性的”,措辞不够小心。我显然并不认为其中有些应用在伦理上是中性的,例如用算法追踪恐怖分子。论文中的意思是,这些工具有无数种应用:为了好的、坏的、或其他的目的。总的来说很难给它们分配一个意识形态的位置。


3. 泰德·安德伍德说我在讨论他的文章《体裁的生命周期》时,将“令人不快的乱炖”和他用于预测性模型中的随机控制集混淆了,他是对的。安德伍德也没有犯我在文章中提到的他犯下的基本统计错误(“安德伍德应该在1941年前的侦探小说上训练”)[p.608])。


有关错误陈述的指控:一篇论文“仅有的中心思想……是说我们称为‘体裁’的东西也许是不同种类的实体,有不同的生命周期和文本连贯度”,要释义这篇论文是困难的。此处安德伍德的论点涉及侦探小说、哥特小说和科幻小说随时间过去的相对连贯性,以1930年为截断点。


我关于这篇文章的其他说法依然成立。该文引用了不同文学学者关于体裁变化的定义,但它隐含的体裁定义是“10000个常用词随时间过去的一致性”。它无法“拒绝弗朗哥·莫雷蒂关于体裁有代际循环的推测”(多数人应已发现这个推测太过于简化论),因为它所用的不是同样的可检验的体裁定义或变化定义。


4. 主题模型:我的观点不是说主题模型不能重复(non-replicable),而是说,在这个特定应用中,它们不鲁棒(robust)。各种证据中的一个:如果我从一百个文档中移除一个文档,主题就变了。这就是问题。


5. 关于霍伊特·朗和苏真的论文《湍流》,我需要比这个格式容许的更多一点时间,负责地重新跑一下其他方案。霍伊特·朗和苏真建立的工具有13个特征,用于预测两个体裁间的差异——意识流和现实主义。他们说:大多数特征单独不怎么有预测性,但合起来就非常有预测性,而那种能力被集中在单独一个特征中。我表明那一个特征不鲁棒(robust)。修正一下他们令人困惑的隐喻:就好像如果有人声称一架钢琴弹奏起来很优美而大半声音来自一个键。我按了那个键;没用。


6. 苏真和霍伊特·朗辩称,因为我证明他们的分类器错误地分类了非俳句——如他们指出的,我不仅使用了中文诗歌的英译,还用了俳句之前久已存在的日文诗歌——我就犯了“误入歧途的抉择,有东方主义的气味……它完全抹去了语境和历史,提出一个实际不存在的本体论关系。”这一点值得搞清楚。他们的分类器缺乏力量,因为它仅能以非常不同于俳句的诗歌为参照分类俳句;说白了,它会把包含和俳句很接近的重叠关键词的同样短小的文本分类为俳句。重叠的关键词是他们的预测特征,不是我的。我不确定为什么指出这一点就东方主义了。至于他们的模型,如果不得不说,我会说,它只是轻微东方主义,如果不是决定性的东方主义的话。


7. 霍伊特·朗和苏真提出,我的“数字无法信任”,我的“批判充满技术和事实错误”;结尾也同样断定我的论文不“怎么鼓励信任”。我承认在这篇文章中犯了一些错误,但不是在我对霍伊特·朗和苏真论文的分析中(错误基本在第3部分)。我希望用印刷出版或在线附录这种更正式的回复中列出所有这些错误。说了这些,一个错误不等于似是而非含沙射影地说证明了某人模型无效就是东方主义、冥顽不化,诸如此类。



我最后的回应:呼吁有效、公平的批评——笪章难


我想表明,这个《批评探索》杂志设立的论坛没有不平衡或不公正之处。是我写的这篇文章。不同意这篇文章(部分或全部)的人有权在学术论坛批判它。


论坛上,我的批评者和中立方想从《以计算的方法反对计算文学研究》中得到的不外是:(1)全面的重复性检查(如派博建议的,由OSC来做),以及(2)对CLS工作的仔细分析,其中就算对细枝末节的“抑制”都算作误导,以及(3)计算文学研究和相关数字人文领域的研究现状,过去的和正在出现的。在他们看来,此种脑力劳动会让我的研究变得有效。


泰德·安德伍德提出,我的文章和这个论坛其实是设计好用来吸引关注的噱头,这个说法损害了我们可以简单称为批评研究的学术工作模式。他认为这可能是时代的功能,他是对的。社交媒体和别处都提出,由于我以非恭贺的方式批判CLS,要求我必须立刻为此负责,这是一种征象,体现出计算研究和数字人文为自己积累的社会和体制权力。


确实,“杀死领域”这个说法不属于学术界,它是又一个迹象,表明特定类型的学术话语只应发生在特定语境中。说了这些,关于团结和“更多”的无根修辞——我们全都在一起在其中——是拙劣的辩解方式。如我所言,现在是时候提出一些问题了。


安德伍德谴责社交媒体和其他公众回应。他遗漏了社交媒体和其他圈子里同样有害的要让我的文章无效的尝试,其方法是私下议论——或不如说,公开质疑——《批评探索》的同行评审程序。安德伍德和这篇文章的许多其他批评者提出,文章没有领域外人士恰当地进行过同行评审。这不是事实,而且造成了破坏,——我的论文由一位定量分析和数学建模专家评审过。它表明,任何敢于核查CLS领军人物研究工作的人将会被流言折磨。


我的文章是否犯了实证错误?是的,有几个,大多在第3部分。我会及时列出,但它们对该部分的宏观论点并无影响。除了讨论安德伍德论文时的一处误解,在这个论坛上发表的以实证为基础的反驳当中,没有一个有任何根据。派博说我“基本数学不及格”的证据涉及的是一处简单的修辞,我出于易读性考虑将数字四舍五入到千位。


任何从事严肃定量分析的人都能看出,我肯定不是评估这一工作的理想人选。但我仍然认为,此处争议的根本利益冲突对所有人都显而易见。能够高水平做这个工作的人往往不太在意,不去批判它,或者他们倾向于不去质疑定量方法如何以各种形式和论证模式同文学批评的独特性相交。为了充分表露情况:我的领域外评审人在评估了我的实证观点的有效性后,最终并不赞成我认为计算方法对文学目标效果不佳的看法。这就是问题的症结。统计学家或计算科学家能够核查执行中的实证错误和误差;他们不理解什么构成了文学学术研究中的弱论证或概念混淆的论证。这就是为何我在附录中列出的指南——有很多人参与了同行评审——应该得到考虑。



要鼓励文化分析学新学术与新生代学者——马克·阿尔吉—休伊特


2010年,我作为新的博士后研究员,向一些资深学者讲解一篇论文,主题是詹姆斯·汤姆逊1730年的诗《四季》。论点适中:我用细读表明,汤姆逊在这首诗的每部分都为读者模仿了一种审美体验,然后教他们如何解释它。听众反应温和,多数正面。六个月后,我已经获得略多一些的信心,又讲了同一个题目,但有个逆转:我加入了一张图表,显示我的解读是基于诗歌贯穿始终的一个重复语篇模式。反应迅速且两极分化:屋里有些人认为定量方法深化了论辩,其他人强烈认为我正在破坏整个领域。对我来说,这次经验对我的发展是形成性的:在数字人文还远未获得任何声望、资金或制度支持之前,仅仅拿出数字就足以惹怒年长我许多的学者们。


我的经验表明,这个项目通过了笪章难说的“气味测试”:评论结果依然有效,甚至不用定量分析的设备支持。同时,尽管笪章难也许说过这证明了项目的定量方面原本并无必要,我表示尊重,但还是对此提出反对。我发现的模式是我的解读的基础,假如我讲解时表现得好像完全是通过细读得到的结论,再怎么也是不真诚。我的论点的定量部分也让我能够将这首诗和18世纪更大规模的诗学模式相联。而且我进一步认为,定量进入一个领域改变了这个领域,那么同样,这个领域也改变了这个方法、让它适应自己的目的;根据统计学结果和文学史方法得到的结论的一致性而肯定这一结果,这和零假设检验一样有力。换句话说,笪章难的“气味测试”提示了综合这些方法的向前的潜在方式。


但我学到的教训依然强大:不管计算方法如何嵌入研究、不管谁使用,它总能激发许多人文学者即刻的、往往是负面的反应。值得问一句为什么。审查各种方法的体制、政治和性别史总是值得的,如新历史、形式主义、甚至细读,那么就像凯瑟琳·伯德建议的,在数字人文中作为整体仔细考虑同样这些议题,也是重要的。关键是从事这些工作时,我们不要抹除本领域新出现的、往往结构上脆弱的成员的工作。这些方法在新的学生和年轻学者群体中有很强的吸引力。想要断言方法和目标之间存在完全的不兼容并借此压制学术,这是损害新生代学者令人惊叹的工作,这些工作正在重新塑造我们的批判实践和我们对文学的理解。

(原载于《山东社会科学》2019年第8期)

责任编辑  |  陆晓芳

向上滑动 查看注释:

[1] 本文选译了讨论的重点内容,题目为编者所加。[2] 乔治·艾略特(George Eliot),英国十九世纪著名女作家玛丽·安·伊文思(Mary Ann Evans, 1819-1880)的笔名。译者注。[3] Nan Z. Da, “The Computational Case Against Computational Literary Studies,” Critical Inquiry 45 (Spring 2019) 601-639.[4] Open Science Collaboration, “Estimating the Reproducibility of Psychological Science,” Science 28 Aug 2015:Vol. 349, Issue 6251, aac4716.DOI: 10.1126/science.aac4716.[5] 她把Mark Algee-Hewitt 写作Mark Hewitt, 把G. Casella当作 Introduction to Statistical Learning 的作者,实际上作者是Gareth James, 在附录中把我和Andrew Goldstone当作共同作者,实际上不是。[6] 像下面这种说法也表明,就算统计学的这个方面,她也远远不够做可信的向导:“毕竟,统计学假定95%的时间里都没有差异,只有5%的时间里存在差异。寻找低于0.05的P值就是这个意思。”这不是寻找低于0.05的p值的意思。p值是零假设成立时得到观测数据的估计概率。原假设成立的情况下,p值越小,就越应该拒绝原假设。前面提到的5%门槛对于出现“差异”的频率(或者说,零假设不成立的频率)并无影响。相反,它的意义是:“如果我们从数据得出结论认为存在差异,我们估计我们在5%的时间内是错的。”“统计学”也不会“自动”假设0.05是合适的临界点。这取决于领域、问题和建模的目标。这些都是很严重的过分简化。[7] 关于对文学模型的反思,见Andrew Piper, “Think Small: On Literary Modeling.” PMLA132.3 (2017): 651-658; Richard Jean So, “All Models Are Wrong,” PMLA132.3 (2017); Ted Underwood, “Algorithmic Modeling: Or, Modeling Data We Do Not Yet Understand,” The Shape of Data in Digital Humanities: Modeling Texts and Text-based Resources, eds. J. Flanders and F. Jannidis (New York: Routledge, 2018).[8] 参见Andrew Piper and Eva Portelance, “How Cultural Capital Works: Prizewinning Novels, Bestsellers, and the Time of Reading,” Post-45(2016); Eve Kraicer and Andrew Piper, “Social Characters: The Hierarchy of Gender in Contemporary English-Language Fiction,” Journal of Cultural Analytics, January 30, 2019. DOI: 10.31235/osf.io/4kwrg; and Andrew Piper, “Fictionality,” Journal of Cultural Analytics, Dec. 20, 2016. DOI: 10.31235/osf.io/93mdj.[9] 讨论显著性检验的价值的文献非常多。见Simmons, Joseph P., Leif D. Nelson, and Uri Simonsohn. “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.” Psychological Science 22, no. 11 (November 2011): 1359–66. doi:10.1177/0956797611417632.[10] 参见Rens Bod, Jennifer Hay, and Stefanie Jannedy, Probabilistic Linguistics (Cambridge, MA: MIT Press, 2003); Dan Jurafsky and James Martin, “Vector Semantics,” Speech and Language Processing, 3rd Edition (2018): https://web.stanford.edu/~jurafsky/slp3/6.pdf; 关于交流和信息理论的关系,参见M.W. Crocker, Demberg, V. & Teich, E. “Information Density and Linguistic Encoding,” Künstliche Intelligenz 30.1 (2016) 77-81. https://doi.org/10.1007/s13218-015-0391-y; 关于与语言习得和学习的关系,见Erickson LC, Thiessen  ED, “Statistical learning of language: theory, validity, and predictions of a statistical learning account of language acquisition,” Dev. Rev. 37 (2015): 66–108.doi:10.1016/j.dr.2015.05.002.[11] Andrew Goldstone, “Of Literary Standards and Logistic Regression: A Reproduction,” January 4, 2016, https://andrewgoldstone.com/blog/2016/01/04/standards/. Jonathan Goodwin, “Darko Suvin’s Genres of Victorian SF Revisited,” Oct 17, 2016, https://jgoodwin.net/blog/more-suvin/.[12] Ted Underwood, “Can We Date Revolutions in the History of Literature and Music?”, The Stone and the Shell, October 3, 2015, https://tedunderwood.com/2015/10/03/can-we-date-revolutions-in-the-history-of-literature-and-music/ Ted Underwood, Hoyt Long, Richard Jean So, and Yuancheng Zhu, “You Say You Found a Revolution,” The Stone and the Shell, February 7, 2016, https://tedunderwood.com/2016/02/07/you-say-you-found-a-revolution/.[13] Ted Underwood, “The Life Cycles of Genres,” Journal of Cultural Analytics, May 23, 2016, http://culturalanalytics.org/2016/05/the-life-cycles-of-genres/.[14] Eve Kraicer and Andrew Piper, “Social Characters: The Hierarchy of Gender in Contemporary English-Language Fiction,” Journal of Cultural Analytics, January 30, 2019, http://culturalanalytics.org/2019/01/social-characters-the-hierarchy-of-gender-in-contemporary-english-language-fiction/[15] Ted Underwood, “Why Literary Time is Measured in Minutes,” ELH 25.2 (2018): 341-65.[16] Katherine Bode, “The Equivalence of ‘Close’ and ‘Distant’ Reading; or, Toward a New Object for Data-Rich Literary History,” MLQ 78.1 (2017): 77-106.[17] 笪章难提到的许多文章都结合了CDA and EDA.[18] Tukey, John. Exploratory Data Analysis, New York, Pearson, 1977.[19] McGuire, William J. “A perspectivist approach to the strategic planning of programmatic scientific research.” In Psychology of Science: Contributions to Metascience ed. B. Gholson et al. Cambridge: Cambridge UP, 1989. 214-245.[20] 例如我们关于“批评的模块化”的论证,见Algee-Hewitt, Mark, Fredner, Erik, and Walser, Hannah. “The Novel As Data.” Cambridge Companion to the Novel ed. Eric Bulson. Cambridge: Cambridge UP, 2018. 189-215.[21] Da (2019), 634; Piper and Algee-Hewitt, (“The Werther Effect I” Distant Readings: Topologies of German Culture in the Long Nineteenth Century, Ed Matt Erlin and Lynn Tatlock. Rochester: Camden House, 2014), 156-157.[22] 凯瑟琳·伯德(Catherine Bode),澳大利亚国立大学文学和文本研究副教授。她的最新著作《虚构的世界:数字合集和文学史的未来》(A World of Fiction: Digital Collections and the Future of Literary History)(2018),提出以学术编辑理论及技术为基础、用大型数字化文集做文学研究的新方法。

作 者 简 介


霍伊特


霍伊特·朗(Hoyt Long),美国芝加哥大学东亚语言与文化系副教授,研究领域包括日语文学研究、媒体史和文化分析学。



苏  真


苏真(Richard Jean So),加拿大麦吉尔大学英语和文化分析学助理教授,研究领域包括用计算方法研究文学和文化、当代美国写作和种族问题。



安德鲁


安德鲁·派博(Andrew Piper),加拿大麦吉尔大学语言、文学和文化系教授,研究领域包括18世纪以来的欧美文学及阅读技术等。



泰  德


泰德·安德伍德(Ted Underwood),美国伊利诺伊大学厄巴纳-香槟分校信息科学和英语教授。



马  克


马克·阿尔吉-休伊特(Mark Algee—Hewitt),美国斯坦福大学英语和数字人文助理教授,管理斯坦福文学实验室。



凯瑟琳


凯瑟琳·伯德(Catherine Bode),澳大利亚国立大学文学和文本研究副教授。



笪章难


笪章难(Nan Z. Da),美国圣母大学(University of Notre Dame)英语系助理教授,研究方向为批评理论、19世纪美国文学和文学史、中国文学和文学史、书籍和阅读理论。


译 者 简 介


汪  蘅


汪 蘅,毕业于北京大学英文系,现为自由译者。





以计算的方法反对计算文学研究
《数字人文》2020年第2期目录

古文字学界“数字人文”研究的最新探索—评刘志基《古文字研究论稿》

通往思辨的基础设施研究

比较文学研究与数字基础设施建设:以“民国时期期刊语料库(1918-1949),基于PhiloLogic4”为例的探索

钱锺书与中国社科院古代典籍数字化工程



校对  |  肖爽

美编  |  李倩






转载请联系授权

    投稿邮箱:

dh2020@tsinghua.edu.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存