查看原文
其他

当下数字人文研究的核心问题与最新进展:泰德·安德伍德访谈录

冯丽蕙 安德伍德 外国文学研究 2022-06-09

点击上方“外国文学研究”可以订阅哦

内容摘要


泰德·安德伍德是伊利诺伊大学厄巴纳—香槟分校英文系和信息科学学院的教授。近十年来,在应对“数字”与“人文”之间日趋激烈的对话方面,他一直扮演着一个引领者的角色。安德伍德长期致力于跨学科文学研究,著述丰硕,涵盖机器学习、数字图书馆、文本挖掘、数字人文等。他在专著《远距离的视野:数字证据与文学变化》(2019)中探讨了数字方法如何能帮助我们描述并理解时间跨度更长、弧度更大的文学变化。冯丽蕙在华盛顿大学访学期间(2019-2020),就数字人文、机器学习、统计模型等前沿话题对安德伍德进行了专访。安德伍德评述数字分析的意义时指出,数字分析能以一种鸟瞰式视野,揭示更宏阔的文学史图景,从而彻底改变我们对文学史的看法。他不仅特别强调了数据是一种建构这一事实,又结合当下数字人文研究最新进展,详细阐述了定量分析也可以具有批判性的观点。针对数字人文研究的未来发展趋势,他表明,目前我们需要思考和解决的问题就是如何改变现有的数据科学实践,让其为批评服务。

关键词

数字人文;统计模型;机器学习;数字分析

作者简介

冯丽蕙,上海交通大学外国语学院博士生,主要从事世界文学、数字人文和弗兰寇·莫瑞提研究。

泰德·安德伍德,伊利诺伊大学厄巴纳—香槟分校信息科学学院和英文系教授,主要从事机器学习、书籍史、数字图书馆、计算社会科学、文本挖掘、文学社会学以及数字人文等领域的研究。

Title

The Core Issues and Latest Progress of Current Digital Humanities Research: An Interview with Ted Underwood

Abstract

Ted Underwood, a professor both at the Department of English and the School of Information Sciences, University of Illinois, Urbana-Champaign, has always played a leading role in tackling the intensified conversation between the digital and the humanities over the past decade. Writing in large quantities on the issues of machine learning, digital library, text mining, and digital humanities, Underwood has long been committed to the interdisciplinary studies of literature. In his monograph Distant Horizons: Digital Evidence and Literary Change (2019), Underwood makes an exploration of how digital methods can help us describe and comprehend the larger arcs of literary change across longer time spans. During her visit to the University of Washington (2019-2020), Feng Lihui carried out an interview with Underwood on a wide spectrum of cutting-edge topics, including digital humanities, machine learning, and statistical models. When commenting on the significance of digital analysis, Underwood points out that digital analysis, with a bird’s-eye view, can bring to light a broader landscape of literary history, thus drastically revolutionizing how we perceive literary history. Not only does he lay particular emphasis on the fact that data is a construction, but also he elaborates on the idea that quantitative analysis can also be critical in light of the latest progress of current digital humanities research. With regard to the future trends of digital humanities research, he declares that the problem that we need to reflect on and wrestle with at present is how to change the existing practice of data science to make it work for critique. 

key words

digital humanities; statistical model; machine learning; digital analysis

Authors

Feng Lihui is a doctoral student at the School of Foreign Languages, Shanghai Jiao Tong University (Shanghai 200240, China). Her research is mainly focused on the studies of world literature, digital humanities and Franco Moretti.

Email: evelynfeng@sjtu.edu.cn

Ted Underwood is a professor both at the School of Information Sciences and the Department of English, University of Illinois, Urbana-Champaign. He works on machine learning, book history, digital libraries, computational social science, text mining, sociology of literature, and digital humanities. 

Email: tunder@illinois.edu

冯丽蕙(以下简称“冯”):泰德伍德教授,非常感谢您能接受我的此次访谈。首先,能否请您谈一谈您为什么会对数字研究感兴趣?

泰德·安德伍德(以下简称“安德伍德”):早在20世纪90年代就已经十分明朗,计算机和大型文本收集最终会给文学史和思想史提供新的认识,但这一点在当时还没有广为人知。许多人都在探索这方面的可能性,芝加哥大学的马克·奥尔森(Mark Olsen)和他领导下的ARTFL项目(研究法语文本)就是其中的典型代表。我作为一名研究生,有幸参与其中。我最早有篇文章发表于《浪漫主义研究》,就是借助绘制英语和法语的词频图表来阐释思想史。但当时可供使用的文本资源极其有限,因而我没继续深入地探究这个课题。直到15年后,也就是2009年左右,约翰·昂斯沃斯(John Unsworth)邀请我加入了一个数码项目,那时候我才发现大型数字图书馆和谷歌图书(Google Books)早已极大地拓展了英语文本的语料库。对我来说,这简直就是大开绿灯了,我随即决定花时间学习如何从事定量研究,研究内容从简单计算单个词语的出现频率扩展到探究长时段的文学变化规律。坦白说,幸亏当时我已获得了终身教职,因此不必过于担忧我的研究是否能立即被人接受。

:您能谈谈自己目前从事的与“数字人文”领域相关的研究项目吗?

安德伍德:简单来说,我刚刚所提到的故事里那些人物和项目(奥尔森、昂斯沃斯、ARTFL)都被公认为是“数字人文”领域历史的一部分。因此,从历史意义上讲,我自己的职业生涯可能也是“数字人文”的产物。但我不得不承认,我对一味地将“数字人文”标签化,还是持谨慎的态度,因为其他人也想占有并界定这一概念。围绕这一问题的争论颇为激烈,但我对定义之争毫无兴趣。为了避免引发这类争论,我发现将我的研究工作简单而精确地表述为“我使用定量方法来阐释文学和思想史”显然更有效。除了定量方法之外,人文学科还可以运用其他数字技术。对此,我表示尊重,并且觉得非常有价值。我不认为不同技术之间非得相互竞争,这是一个广阔的空间。

:能否请您给还不甚了解“数字人文”学科的读者具体介绍一下人文学科可用的“其他数字技术”?

安德伍德:当然。目前,许多学者正在使用互联网来共享原始文档的集合,比如那些可以展示本地历史特色的照片。通过互联网,这些文档集合可以接触到更广泛的受众群体,而互联网又开辟了资料互动的新途径。例如,交互式地图可以把照片的拍摄位置精确地绘制出来。由于这项工作依托于数字媒体,因此它既属于“数字人文”也属于“公共人文”(“public humanities”)。但组织这类数字展览所需要的技术与定量分析截然不同。很少看到同时从事这两项研究的学者。

:这让我想起一个叫“自拍城市”(“Selfiecity”)的有趣项目。该项目由数字媒体和文化分析的先驱人物勒夫·马诺维奇(Lev Manovich)发起。“自拍城市”试图获取世界各地的人们上传到Instagram上的自拍照片,并将每张快照的地理定位和时间标签聚集到一起,构建出一个庞大的图像语料数据库,生动展现各个城市的人口面貌。在人文学科使用这类数字技术不仅有助于我们获得海量的数据,还可以呈现出一个宏大叙事,同时涉及到数百万人、场所及物体,让我们从一个宏观的视角来把握海量数据之间的内在联系和隐含模式。这主要是数字人文在媒体研究领域的成就。您能否给我们简单介绍一下数字分析工具为人文研究带来的一些便利?数字人文如何能帮助我们更有效地进行文本研究?

安德伍德:你刚才举的例子很好。许多数字分析的益处来自于它提供的更为宏阔的历史背景画面,进而彻底改变我们对文学史的看法。我曾经和两个研究生做过一个项目,考察小说节奏的问题。研究发现,在英语小说中,时间的流逝逐渐放缓。在18世纪,小说的一页篇幅可以描述一天或一周之内发生的事件。在19世纪,小说的一页篇幅平均只能描述几小时内发生的事件,而到了20世纪,小说的一页篇幅也许只能描述几分钟内发生的事件。(参考Underwood, “Why Literary Time Is Measured in Minutes,” 2018)在使用数字方法之前,我们不太理解这种趋势。如今,我们对这种变化模式有所了解,就将个别小说置于变化曲线上,观察它是领先还是落后于该变化曲线。掌握这样的模式有助于避免误解那些塑造文学史的力量。有时人们凭想象认为,小说节奏是被现代主义突然改变的,或是受到了电影与电视的影响。然而,事实上(至少在英语传统里)这是一个相当漫长的渐进过程。我研究生刚毕业时,我也认为像“浪漫主义”和“现代主义”这样的术语能清晰简洁地描述某一时期或派别的文学,其实不然。很多人对这种大规模数字分析很感兴趣,但他们仍在观望中。他们目前还未跳出诸如“远读”与“细读”之类的肤浅争议。

:这些都是相对比较宏大的历史问题。数字分析是否可以直接改变我们对单个作品的解释?

安德伍德:当然。有些实例表明,数字分析可以通过揭示隐藏于作品内部的规律,显著改变我们对单个作品的理解。这种情况相对少见,但马丁·伊夫(Martin Eve)的著作《计算机辅助下的细读》(Close Reading with Computers, 2019)提供了一个很有趣的案例。伊夫指出,大卫·米切尔(David Mitchell)的《云图》(Cloud Atlas)结构复杂,只能靠计算机来揭示一些读者可能很容易忽视的内部结构。

:除了可以借由远距离的视野来改变我们对文学史的看法,数字人文还给文学研究带来了哪些变化?

安德伍德:迄今为止,数字人文很重要的一个成就是将团队协作精神引入了人文学科。我很喜欢斯坦福大学文学实验室那样的模式,可以创造一个良好的学习和实践空间,一个研究人员共同解决学术问题的空间。显然,这与人文学科的研究模式截然不同。此外,由于这些学生来自不同学科,他们可以在实验室里互相协作,因此不只是个别学者把不同学科之间的一切粘连在一起。

:数字化的人文研究不仅试图将知识整合到跨学科和协作框架之内,而且开辟了全新的知识生成、流通、分析和共享途径。在数字化环境下,“8页的文章和25页的研究论文必须给游戏设计、多人叙事、视频混搭、在线展览等全新的教学实践形式腾出空间。”(Burdick 2012:24)而“有趣的、富于想象力的、参与式的活动”不该被认作教育的敌对因素,相反,应该被视为不断推动教育发展的“生机盎然和至关重要的引擎”(24)。您如何看待数字人文对文学研究或文学教学的影响?

安德伍德:我认为,它的潜在影响是巨大的。我觉得,新方法具有揭示人类文化复杂性的潜力,从而使学生对其产生更强烈的好奇心。但老实说,我认为现如今我们在文学课堂上还没有很好地发挥这种潜力。跟生物学或生物信息学等其他学科相比,我们的学科一直相当稳定,但发展也相对更缓慢。我们并没有像他们那样发生翻天覆地的变化。虽然很多人对数字人文感兴趣,但是我们还没有迅速创建全新的课程和专业设置,因为文学系的大多数人都还没接受过必需的培训。这就是为什么我同时也在信息科学领域执教的原因之一,我认为该领域的专业课程发展得更快。

:您刚才提到了定量方法在人文学科中的应用。我们知道,弗兰寇·莫瑞提(Franco Moretti)的“远读”主张也涉及大规模的数据分析,而最近愈来愈流行的做法是把文学研究中采用的所有定量或实证方法都定义为“目前在‘数字人文’这一广泛名义下的激增之物”(Schultz 2011)。但您在《远读的谱系》(“A Genealogy of Distant Reading,” 2017)一文中,强烈反对将“远读”与“数字人文”等同起来,因为 “远读”方法可以追溯到互联网出现之前的好几十年。这二者之间具体有何不同?

安德伍德:针对我过去在这个主题上的阐述,我如今有点想打上质疑的括号。2017年我发表《远读的谱系》一文时,人们还没有意识到定量文学史和后互联网公共人文有可能隶属于不同传统。相反,学界通常将它们视为同一现象的不同分支,视作数字人文的不同“版本”之争。为了推翻这种假设,我写了这篇文章。坦白说,此文可能夸大了“数字人文”和“远读”之间由来已久的分离。不得不说,我的观点可能有点夸大其词,因此在文章结尾处,我默默地承认我只是借题发挥了一下。不过,这样的申辩也许很有必要,它能激励人们更灵活地思考这个问题。到2017年,“数字人文”这一概念已风靡学界,颇有一副要将一切都纳入其轨道的气势。因此,我觉得有必要说明,在还没有被互联网或数字技术特别界定之前,文学史的“远距离”方法就已经被雷蒙·威廉斯(Raymond Williams)和珍妮斯·拉德威(Janice Radway)等学者使用了。如果我今天重写这篇文章,我会提及费尔南·布罗代尔(Fernand Braudel)。他1959年发表的《历史与社会科学》(“History and the Social Sciences”)一文可谓极具远见。我认为,布罗代尔是否对数字人文、远读或其它作出了贡献并不重要,重要的是,他的想法更多地是由社会科学而非互联网所形成的。

:的确如此。正如您所说,在人文学科中运用统计数据其实可以追溯到早期的一批文学历史学家和批评家,例如社会经济史年鉴学派(the Annales School of socioeconomic history)、约瑟芬·迈尔斯(Josephine Miles)、珍妮斯·拉德威和约翰·伯罗斯(John F. Burrows)。随着莫瑞提“远读”概念的问世,学界借助计算机进行数据驱动型文学分析的热情又一次被点燃。从那以来,坦妮娅·克莱门特(Tanya E. Clement, 2008)、娜塔莉·休斯顿(Natalie Houston, 2014)等众多学者都陆续将这种方法拓展到文学研究的其他领域。但不少人倾向于简单地将“数字”作为“数字人文”的核心主题,遂将其推至非理性的“唯技术论”。数字时代似乎正见证了这样一种对数字技术的热情而不加任何批判色彩的崇拜,伴随而来的还有这样一种信念,即任何与数字和计算机相关的事物都是客观的、科学的。这是一种误解吗?模型或算法是否也带有主观性和不稳定性?

安德伍德:你说的“对数字技术的  热情而不加任何批判色彩的崇拜”用来形容十年前的境况可能更恰当。现在, 关于模型有可能主观或具有偏见这一点已经完全公示于众,广为人们接受。当然,这并不是说我们在该观点的具体内涵上达成了共识。在公共政策方面,还有不少棘手的问题。由于一些显而易见的原因,该领域可能不愿接受主观偏见。但在人文学科中,尤其是在历史研究中,如果模型能有效地捕获并再现某个特定的主观观点,这显然并不见得是一件坏事。相反,这恰恰才是人文研究的意义所在。因此我会敦促人们仔细地、准确地思考“偏见”这样的词。

:用模型来捕获不同文化语境下的人所固有的偏见,或者衡量过去不同观察视角之间的偏差,似乎都是您最近“机器学习”研究中的焦点。在《远读的谱系》一文里,您提到,一些学者似乎曲解了计算在思想史中的作用,他们认为,计算仅仅提供了便捷有效的数字工具,要么有效地扩大文学研究规模,要么加快研究进度。恰恰相反,计算机科学不仅可以“挑战”文学研究的“基本标准或步骤”(Golumbia 2014: 164),而且向文学研究者提出了一些“全新的问题”(Jones 2014: 31-32),鼓励他们以一种更理论化的方式去界定现有的学术问题(Piper 2016)。为了阐明这一点,您以“机器学习”(machine learning)为例来进行了说明。什么是“机器学习”?能否请您简单举一些例子?

安德伍德:简单来说,我们过去称之为“统计模型”(statistical models)的东西(比如用三四个变量来预测流行病的蔓延)与其全新的灵活变体——“机器学习”之间的界限很模糊。原则上讲,构建统计模型一直以来既是一种归纳实践,也是一种学习过程。现在我们可以更形象地掌握这样的推理,因为计算机允许我们构建出复杂的模型,其归纳实践都快明显地类似于人类学习的方式。例如,最新的神经语言模型,如GPT-3,可以快速地从一两个语言示例中领悟某个语言游戏。如果你给GPT-3任意一个假想词的定义,它可以弄清楚如何在句子中使用该词。这很不可思议。但从技术上讲,GPT-3只是一个语言使用模型,当获得更多语言示例时,它可以迅速自我调整。

:是的。机器学习主要是考察计算机如何模拟人类的学习、判断和推理行为。您2018年发表的文章《为什么机器学习时代需要人文学科》(“Why an Age of Machine Learning Needs the Humanities”)就已经阐明了如何让计算机从人类行为模式中学习并编写出自己的指令,以过滤掉电子邮件中的垃圾邮件。能否请您简要谈谈机器学习该如何作用于文化和文学史研究?历史相对主义又该如何为全新的计算机世界做出贡献?

安德伍德:刚才你已经谈到了机器学习的视角化用途,我完全赞成你的总结。我只想补充一点,我们现在才刚刚开始,未来之路还未可知。例如,我们即将能够做成一些语言模型,用它们做出不错的故事梗概。我们又该如何应用它们呢?我也不确定,但我认为,在这个层面上的语言理解会远超一个研究助理;它会给我们提供巧妙的、间接的方式来提出新问题。

同时,人文传统只会变得越来越重要。你对历史相对主义的强调正是切中要害。历史学家很清楚,像“个人主义”或“情绪”这样的词实际上可能并不具备一个稳定的含义。在不同的文化语境或历史时期,同一概念可能有不同的指代。从事机器学习研究的人员在这同一认识上痛苦地屡次受挫:无论我们自以为在做什么模型,我们构建的这些模型其实都要从“训练数据”(training data,即“语境”,context)中去获得其意义。这些研究人员正在发掘“历史相对主义”,尽管他们还没有这一术语去作定义。遗憾的是,定量研究人员更倾向于表示该模型是“带有偏见的”(“biased”),仿佛只要他们坚持寻找,总有一天会找到一个不带偏见的模型一样。

:是的。四十多年前,达科·苏恩文(Darko Suvin)将科幻小说定义为一种“认知疏离的文学”(“the literature of cognitive estrangement,” 1979)。对此,您好像并不赞同。为什么?

安德伍德:正如我刚才所说,我们不能为任何概念提供一个清晰的稳定含义。如果要以科幻小说为对象来进行数据建模,我会侧重于考察和衡量不同历史文化语境下不同群体主观视角之间存在的差异。我在《机器学习和人类视角》(2020)一文中详细阐述了这一研究过程。我想强调的是,数据模型也可以有效捕捉到文学概念的模糊性和歧义性,而通过比较模型间存在的差异,我们可以确定体裁发展史上由体裁概念的模糊性而导致的主观视差。

:虽然数字方法正在传统文学阐释最擅长的领域——语言、比喻、社会和历史多方面-- 充分展现它的价值,但我们不能忽视人文学科在批判与反思数字模型中的关键作用。事实上,数字本身并不能保证客观性,它只是人类发明的、用于表示差异程度的符号。同样,数据也不是价值中立的。相反,数据是一种建构,一种技术的、社会的、伦理的建构。在《为什么机器学习需要人文学科》一文中,您特别强调了“对塑造我们世界的数学模型的文化批评”(“cultural criticism of the mathematical models shaping our world”)。2019年,在莱顿大学发表题为《人文学科在信息时代的作用》(“The Role of the Humanities in an Information Age”)的演讲时,您也提到了“一种将机器学习的规模和人文传统的历史自我意识结合起来的公众反思形式”(“a form of public reflection that fuses the scale of machine learning with the historical self-consciousness of humanistic tradition”)。能否请您指出一些当我们在反思数字工具、方法和来源是如何塑造我们对特定研究问题的理解的时候,可能遇到的问题和困难?

安德伍德:你刚才提到了“数据是一种建构,”这恰好凸显了关键的问题。如果我们的测量能力导致我们自以为已测量到某一真实的、有意义的实体,那定量分析就会误导我们。以“情感分析”(“sentiment analysis”)的实践为例。我们可以训练模型,将文本的每一页解释为积极或消极情绪的表证。在某些情况下,这是一种非常有意义的描绘:例如,电影评论通常表达对某部电影的积极或消极态度。因此,我们可以将每篇电影评论看作文本。但是,如果我们将情感分析用于历史书中每一段文字,这些数字的含义可能就不再那么清楚了。当然,我们仍然可以理出数字,称作是情感表达,但这本身无法表明这始终是一种描述一段历史信息的有效方法。例如,如果我想证明“历史学家表达出越来越多的负面情绪”,那我对于“情绪”的大规模数字测量就得辅以对特定段落的细致考察,以确保我检测到的变化来自于读者能认出的文本段落。

:说到“情感分析”这个话题,斯坦福大学的文学实验室在2016年发表了一篇名为《伦敦的情感》(Ryan Heuser, et al., “Emotions of London”)的手册,记录了一项文本分析的“众包”(“crowd-sourcing”)实验,探究伦敦各处地名能否揭示该市的情感地理。该实验依托一个囊括了1700年至1900年间出版的约5000部英语小说的语料库,运用“命名实体识别”(“Named Entity Recognition”)工具从语料库中提取出与伦敦有关的地名,值得注意的是,在对15000个文章段落进行情感分类的过程中,贴标签者需要识别出最能代表含有伦敦相关地名的200字段落里流落的情绪。由于知识储备、文学素养等方面的差异,对同一个段落,不同贴标签者会给出不同的情绪词,这也是为什么最终他们将识别出的情绪缩小到仅包含“恐惧”(“fear”)和“快乐”(“happiness”)的两极情绪区间。

安德伍德:你提供了又一个很好的例子。虽然他们看似在用所谓客观的主题模型(topic modeling)等技术手段对文集的隐含语义结构进行无监督式的聚类分析,但文本选择和贴标签者的选择都是一个主观的运作:选择哪些文本、选择哪个时期的文本、选择谁来贴标签等。这一选择过程清楚地表明,数据本身就是一种建构,而所谓的客观性只是一个幻想。

:的确。统计模型的构建以及算法的设计从始至终都受到了意识形态、社会历史背景、以及设计者个人的偏见、习惯和设计目的等方面的制约和影响。这有点类似于新闻报道中的“实况直播”。观众普遍以为电视直播内容是绝对客观的,但事实上,采访对象、内容和方式的确定就是一个主观的选择过程:采访谁、报导哪些内容、哪些画面需要特写、哪些画面需要模糊掉甚至完全删除等等。能否请您简要介绍一些塑造当前数字人文实践的关键人物和思潮?

安德伍德:目前,任何有关数字事宜的会话都受到了重新思考互联网和社交媒体威力的强烈影响。例如,在《压迫算法》(Algorithms of Oppression, 2018)一书中,萨菲亚·诺布尔(Safiya U. Noble)质疑搜索引擎能公正客观地反映这个世界,反响极大。同样,劳伦·克莱因(Lauren F. Klein)和凯瑟琳·迪格纳齐奥(Catherine D’Ignazio)合著的《数据女权主义》(Data Feminism, 2020)也对数据科学本身提出了质疑,询问谁来定义类别、谁来计数。在美国和欧洲,关于机器学习的公开讨论,总体上的基调倾向于怀疑和谨慎。但迄今为止,这些疑虑重重的重新思考并没有减缓新方法的融合。我刚才提到了GPT-3,这是一种来自OpenAI的神经语言模型,可以有效生成与人类文字难以区分的虚构性故事。虽然数字人文学者才刚刚开始使用这种神经模型,但显而易见,他们会做下去。也许,大众的疑虑不仅没有减缓数据科学的应用,反而还鼓励了研究人员去强调他们正在创造的知识所带来的社会效益。

:大数据环境下的算法歧视确实是一个很严重的社会问题。谷歌为类的互联网搜索引擎通过设计出一系列带有偏见的搜索算法,以一种看不见的方式强化了种族歧视和性别歧视。在数字资本主义时代,搜索引擎难免受到特定意识形态的制约和影响,导致一系列身份歧视现象。设计算法的编程人员受到其个人的主观选择和判断的影响,进而不能完全保证算法的公正性与透明性。随着搜索引擎在日常生活中扮演着越来越重要的角色,我们有必要去了解和反思,在大数据环境下,搜索引擎如何受人为因素的影响而生成、传播、加剧和固化对某些特定社会群体的歧视或偏见。当代艺术家扎克·布拉斯(Zach Blas)的艺术实践已展示了计算和生物识别系统中隐含的各种对特定种族、性别、阶层群体的排斥。为了对生物面部识别软件表示抗议,他在《面部武器化套装》(Facial Weaponization Suite,2011-2014)艺术作坊中推出了一系列生物技术无法识别的“集体面具”(“collective masks”)。这很不可思议。能否请您举例说明数据科学在文学研究中的应用能带来的社会效益?

安德伍德:当然可以。理查德·让·索(Richard Jean So)在新作《红线文化》(Redlining Culture, 2020)一书中声称,我们需要定量方法去了解美国战后文学文化中存在的种族偏见。他利用从成千上万本书籍和评论中搜集到的证据,揭示了二十世纪末的美国文学实际上并不像评论家所希望和认定的那么“多元文化型”(“multicultural”)。这本书及时地提醒了我们,定量分析也可以具有批判性。我认为,目前悬而未决的问题是,我们需要在多大程度上来改变现有的数据科学实践,才能让其为批评服务。对此,不同学者会给出不同的答案。

:是的。数字人文研究者应该更注重培养一种批判意识,将数字批评拓展到社会、经济、政治和文化等领域,去揭露和质疑社会与文化中的不平等现象。换言之,数字人文需要从单纯的量化实践过渡到对数据科学的批判性反思。数字分析和人文阐释并无优劣之分,也并无表面上看来那么壁垒分明。相反,它们应该各司其职,相资为用,这既是跨学科研究的大势所趋,也反映了数字人文学者在传统文学研究每况愈下的边缘化趋势下,充分发挥其批判性、反思性思维的宏阔视野。这是否说明我们不能简单地从“数字”和“人文”的二元对立来对“数字人文”进行审视、阐述和把握?

安德伍德:是的。从事数字人文研究,我们不仅要用数字的手段去拓展人文研究的视野,也要用人文的眼光来审视数字。二者之间不存在所谓的对立。例如,统计学家清楚地意识到,我们构建的世界模型是由我们在建模过程中携带的主观看法所塑造;在“贝叶斯”(“Bayesian”)统计传统里,这些主观看法被称为“先验”(“priors”)。更笼统地说,我认为,统计学学科以一种暂时的探索性精神来走近世界,这种精神与我们称之为“人文主义的”知识和情感倾向非常一致。当然,我在这里有点过于笼统了。人文学科与科学之间的冲突反而来自于具体的社会机构——老实说,我怀疑我能告诉这些机构,原则上“数字”与“人文”没必要相互角力。事实上,我认为,随着机器学习对白领工作产生越来越大的社会影响,这一紧张局势还将日益加剧。

:过去我们似乎都热衷于关注数字技术对人文研究的影响,而忽视了对数字文化本身的批判性反思和纠偏。您最新发表的文章《机器学习与人类视角》(“Machine Learning and Human Perspective,” 2020)再次强调,定量方法不仅适用于大规模数据分析,同时也“适用于比较的、相对的、阐释性的问题”,前提是它们能够捕获一系列证据中所隐含的特定的、时效性的观点(Underwood 106)。这是否意味着机器学习可以在数量和质量之间达到一个令人满意的平衡?

安德伍德:我不确定该如何去定义这样“一个令人满意的平衡”。这是未来我们需要去共同回答的问题。我坚信,要回答这个问题,我们必须借鉴人文传统的许多方面:感性化描写、内省、伦理反思等,这些可能比数字更为重要。但我目前的确不知道该如何在数量和质量之间寻求一个平衡。我唯一可以确信的是,数字必将在未来的研究图景中“发挥一些作用”(“some role to play”),特别是在机器学习方面,因为机器学习可以帮助我们识别、测量和对比“非结构化数据”(“unstructured data”)中隐含的细微模式,包括历史人物在特定情境下的视角。“发挥一些作用”似乎还是一种委婉的说法,等于没说什么。要记住,机器学习目前在人文学科中没发挥任何作用。坦白说,大多数人文学者只是将其作为一个批评对象而对这些方法发生兴趣。至于我们是否应该教会研究生理解和使用这些方法,目前尚未达成共识。因此,说统计模型将会“发挥一些作用”其实有点言过其实。虽然除了数字之外,人文学科还需要许多东西,但我认为,在我们尚未处于过度强调数字的危险之前,我们还有多多了解数字的余地。使用数字方法不会破坏人文学科的文化根基,更不会危及文学研究的学科自主性,或使文学从属于另一门学科。相反,数字方法使文学研究迎来了全新的巨大契机,一个我们应该准备好迎接新挑战和解决新问题的时刻。当然,数字方法给人文学科带来了新的挑战和机遇,同时,传统的人文技能在审视统计模型中隐含的社会、文化和伦理特征等方面也发挥着越来越重要的作用。

:确实。统计建模,或机器学习,对人文研究产生的影响远没有我们预想的那么深远。相反,正如您在《机器学习与人类视角》一文中写道,反对在人文学科中使用数字和定量方法的声音可以追溯到一个多世纪之前。1910年,德国哲学家威廉·狄尔泰(Wilhelm Dilthey)指出,由于人类经验视角的多样性,自然科学与人文学科之间应有一道明确的分界线 (Dilthey 154-164)。约翰娜·杜拉克(Johanna Drucker)在《人文理论与数字研究》(“Humanistic Theory and Digital Scholarship,” 2012)一文中也指明了数字科学和人文学科之间的基本认识论界限,警示那些热衷于在社会科学中挪用计算方法的人文学者盲目推崇那些“统一性的、不证自明的、非历史的、自主的”“知识对象”(Drucker 86, 91)。在这样的学术氛围下,许多对数字人文感兴趣的人,特别是有人文学科学术背景的学生,一提到“数字”这个概念,就畏首畏尾。对于那些想要尝试涉足“数字人文”的人来说,掌握编程和统计学知识是不是一项必备技能?能否请您跟我们分享一些关于如何快速入门统计建模实践的经验?

安德伍德:这个话题很重要,但我不确定我是不是能给出建议的最佳人选,因为我的经历可能不具代表性。我只想说,“先从一个你迫切想知道的问题入手,一旦遇阻,及时向搜索引擎求助。”这对我来说特别管用。我主要是通过自学获得编程和统计学知识,但这对研究生来说可能是个很糟糕的建议。自学花了我整整四十年,在这过程中,我也屡屡犯错。研究生可没那么多时间!

因此,我认为,聪明一点是从选修一些编程和统计学的介绍性课程开始。一个捷径是修完 “数据科学”这门课程,因为这类课程通常将Python(或R语言)的入门介绍与实用统计学结合起来。但先提出一个你很感兴趣的问题依然是个上策。当你拥有构建统计模型的真正动机时,你才会发现其中的乐趣!

:我发现您经常在推特上分享一些学术观点和研究成果,这是否说明推特也是研究过程的重要媒介呢?

安德伍德:是的,你观察得很仔细。老实说,我非常依赖推特,因为我可以通过它了解到很多我不熟悉的学科,比如统计学、语言学和计算机科学。我会特别关注其他领域的学者在推特上谈论的内容,进而了解到他们最近都在从事什么研究工作。另外,我甚至可以直接在推特上找到他们的研究论文。通过这种方式,我学到了很多知识。

:再次感谢您做这次充满启发和激励的访谈!

安德伍德:不客气,谢谢你提出的问题。


责任编辑:张爱平


此文原载于《外国文学研究》2021年第6期

由于公众号篇幅所限,原文注解和引用文献省略


往期精彩访谈回顾:

《外国文学研究》2021年第6期主要论文摘要

《外国文学研究》2021年总目录

目录 | 《外国文学研究》2021年第6期

陈后亮 | 理论缘何衰退?——对理论发生的物质条件及制度因素的考察

赵 淳 | 拉康的精神分析伦理学:一种批判的姿态


END

关注《外国文学研究》官方微信平台



《外国文学研究》

官方微信平台

投稿网址:http://fls.ccnu.edu.cn

联系电话:027-67866042

联系邮箱:wwyj@mail.ccnu.edu.cn

版权所有。欢迎个人转发,媒体转载请联系授权



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存