查看原文
其他

科研中的碳排放

梁晓健 黄思卓 千篇一绿 2023-12-31
记得加小千为星标  ★  不遗失彼此。 ◆ ◆

用特定类型的“神经架构搜索”(NAS)方法训练一种语言模型将产生284吨二氧化碳,进行一次基因组组装就可能产生15千克的碳排放,一座天文台在使用期限内将产生2000万吨二氧化碳。

在GRAND为期五年的原型阶段期间,数据传输将排放470吨二氧化碳,大约相当于270次从巴黎到敦煌航班的碳排放,每年通过飞机运输四次硬件的碳排放量比在线传输数据要少几个数量级。

“技术进步依赖于科学,我们不能因噎废食。如果因为科研要减排而减少科研方面的能源投入,那肯定是不行的。我们不减少能源投入,但可以减少碳排放。”

(本文首发于2022年12月1日《南方周末》)

 ◆ ◆

 南方周末特约撰稿 梁晓健

南方周末记者 黄思卓


大数据时代,科研人员需要频繁处理海量数据,而这离不开具有强大算力的计算机和大型数据中心。 (视觉中国/图)


科学研究是“昂贵”的。

这不仅说的是科学研究耗费高昂,而且也指向科学研究对地球生态潜在的负面影响——科研本身就会产生大量碳排放。

南方周末记者检索相关论文发现,自然语言处理、生物科学研究、天文学研究等领域的碳排放问题正在引起科研人员的注意。最直观的例子是大型计算机,天体物理、人工智能等研究领域都依赖大型计算机对海量的数据进行加工处理,而大型计算机的运行过程将产生大量的碳排放。

与工业生产、交通物流、房地产建筑等碳排放“大户”相比,科学研究不是高耗能的领域,不过,有学者呼吁,科学界应当采取措施,尽可能地减少研究过程中的温室气体排放。

碳中和领域专家、《碳中和时代》一书作者汪军向南方周末记者表示,减碳并非科学家的首要工作,但可以通过逐渐提升电力的绿色化等方式来减排,“不过这属于能源等其他部门的工作,不应该因此而占据科学家的精力”。


 ◆ ◆

研究设施碳排放


大数据时代,科研人员需要频繁处理海量数据,而这离不开具有强大算力的计算机和大型数据中心。

例如在计算机研究的自然语言处理领域,2019年发表的一项研究发现,自2017年以来,大型语言模型的能源消耗和碳排放一直呈爆炸式增长。语言模型是自然语言处理研究中重要的一环,机器翻译、聊天机器人等技术都与语言模型有关。

研究显示,使用特定类型的“神经架构搜索”(NAS)方法训练一种语言模型将产生284吨二氧化碳,大约相当于五辆普通美国汽车在使用寿命内的全部碳排放(美国汽车使用寿命平均约为12.1年)。

上述研究发布于第五十七届国际计算语言学年会,南方周末记者检索发现,这篇文章已经引起了许多研究人员的重视,截至2022年11月11日,谷歌学术显示,该论文已被引用大约1700次。

香港中文大学(深圳)理工学院副教授赵俊华多年来从事电力系统和能源经济方面的研究,他以人工智能研究为例向南方周末记者指出,研究者需要大量地应用显卡和GPU(关于图像和图形相关运算工作的微处理器)进行数据训练,从而产生能耗。

这些数据任务通过云计算的方式在大型数据中心中进行。数据中心的主要功能是进行数据信息的传输、整合以及分析,由于数据中心需要承担高强度的任务,强大的算力和功率导致大量电能被转换成热能,因此数据中心需要时刻降温。“数据中心有相当比例的能耗都花在空调上了,以解决整个数据中心的降温散热问题。”赵俊华说。

但赵俊华强调,科学研究总体而言不是高耗能的领域,相关设备的使用率也不低。例如,有时候学校没有相应设备,老师和学生会租用一些商业公司的数据中心来“跑数据”,而这些数据中心也面向社会上的其他计算需求。

生物科学研究领域,碳排放问题也引起了研究人员的注意。2022年2月,生物学著名期刊《分子生物与进化》(Molecular Biology and Evolution)发布的一篇研究论文认为,尽管生物科学在研究重大疾病方面能够增加人类福祉,但研究中的能源使用产生的大量温室气体“将对人体造成危害”。

据估算,进行一次基因组组装就可能产生15千克的碳排放,一个7至10人规模的生命科学实验室的设备供电每年可能产生超过20吨的碳排放。

天文学研究也是碳排放较多的科研领域之一。2022年3月,《自然》杂志子刊《自然-天文学》发布了一项关于天文研究设施碳排放的研究。该论文论证一座天文台在使用期限内将产生2000万吨二氧化碳,这相当于爱沙尼亚、克罗地亚或保加利亚等欧洲小国的年碳排放量。全球每年的天文研究设施的碳排放总和大约为120万吨。

这篇论文的研究团队表示,为了实现碳中和目标,天文学家不得不将其研究设施的碳排放减少至二十分之一,这意味着在未来可能将建造更少的大型天文台。

2020年,《自然-天文学》发布过一篇估算天文学家碳排放的研究。根据这项研究,每位澳大利亚天文学家的碳排放量超过25000吨,这比澳大利亚的人均碳排放量高出40%以上,相当于全球平均水平的五倍左右。具体而言,25000吨碳排放中有15000吨直接来自超级计算机,其余的来自天文台的运行、办公楼供电以及研究人员参加学术会议的航空出行等。

南京大学天文与空间科学学院副教授周平对南方周末记者介绍,目前她的团队使用的天文数据还用不上超级计算机,但未来数据量越来越大的时候就会有这个需求,将耗费很多的电力。

周平曾去西班牙内华达山上的海拔2850米的IRAM 30m射电望远镜进行观测。“为了让这个射电望远镜工作起来,他们有机械设备需要供电,另外他们还需要去操控这个望远镜,这样就要用到专门(需要供电的)房间。”周平说。


 ◆ ◆

数据存储和传输产生大量碳排放

科研中的碳排放不仅仅来自计算机等设备本身,数据存储和传输中的能源消耗和温室气体排放也不容忽视。

法国索邦大学的Kumiko Kotera是巨型中微子探测阵列(Giant Radio Array for Neutrino Detection,简称GRAND)的联合创始人,该项目旨在利用低频射电方法探测来自宇宙深处的高能中微子和高能宇宙射线,是由全球十余个国家五十多位科学家共同发起的国际合作科学实验。

GRAND项目可以分为三个阶段,分别是原型阶段、中规模阶段和全规模实验阶段(the prototype, the mid-scale stage and the full-scale experiment)。Kotera和她的同事针对GRAND项目的一项研究发现,在该项目的原型阶段,数据存储和传输将大约占该项目全年总碳排放量的一半,在中规模阶段则占四分之一,在全规模实验阶段中占三分之一以上,可见数据储存和传输过程的耗能并不低。相比之下,数据分析和模拟将分别在三个阶段产生约16%、13%和7%的碳排放量。

在具体的碳排放量数值方面,Kotera的团队计算出,在GRAND为期五年的原型阶段期间,数据传输将排放470吨二氧化碳,大约相当于270次从巴黎到敦煌航班的碳排放,每年通过飞机运输四次硬件的碳排放量比在线传输数据要少几个数量级(所谓数量级指的是数量大小的级别,通常以10为底数,例如10000和100之间差了两个数量级)。

周平也表示,如今天文学研究中处理的数据量很大,几百个G的数据体量都是很正常的,“如果用国内最大的射电望远镜,几个小时的数据就会超过几十个T,而且在天文观测中,研究人员不会仅仅下载传输一次数据,还需要到数据库获取不同波段的数据进行比对,计算过程很耗资源。”

数据量变得越来越大,数据传输成了一项常见的工作。之前的研究经历中,周平就面临过传输几十个T的数据体量的需求,她最终选择了邮寄硬盘的方式来传输数据,称这样更加方便。

南方周末记者检索发现,由于不同类型不同规模的数据中心散布在全球各地,准确计算数据存储和传输导致的碳排放并不容易,很少有研究者统计具体的相关数值。

值得注意的是,赵俊华的工作经历表明,与计算机等设备运行相比,数据传输的能耗相对来说较低。“我们最近正好有做一个研究,根据我们所收集的数据,国内的数据中心的碳排放大概只占到国内总碳排放的1到2个百分点。通信的碳排放大概比这个还要再低一个数量级,所以站在全国的碳排放的角度来看,通信领域碳排放的体量很小。”


 ◆ ◆ 

科研是否应该减碳?

到底科学家有多大的必要去减排?如何才能减排?

“技术进步依赖于科学,我们不能因噎废食。如果因为科研要减排而减少科研方面的能源投入,那肯定是不行的。我们不减少能源投入,但可以减少碳排放。”汪军向南方周末记者这样表示。

实际上有科学家也提出过类似的观点,认为使用清洁能源对减少科学研究中的碳排放尤为重要。Knud Jahnke是德国马克斯·普朗克天文研究所的一名天文学家,他和研究团队在2020年《自然-天文学》发表的一篇论文中表示,德国和澳大利亚的能源结构相差较大,2018年,德国约有一半的电力来自太阳能和风能,而在澳大利亚,绝大多数电力来自以煤炭为主的化石燃料,这直接导致在澳大利亚用电每千瓦时产生0.905千克碳排放,而德国这一数值可以达到0.23千克。总体而言,马克斯·普朗克天文研究所的每位天文学家的碳排放量约为澳大利亚天文学家的一半。

赵俊华介绍,中国正在推进的“东数西算”工程就有望大幅减少碳排放。中国的新能源主要集中在西部和北部,把一部分计算需求转移到西部的话,就等于用新能源替代一部分火电,从而产生很明显的减排效应。

此外,也有科研人员发现运行效率更高的模型可以减少计算机产生的碳排放。谷歌的研究人员在2022年9月于《机器学习研究杂志》(Transactions of Machine Learning Research)上介绍了一种被命名为“ActorQ”的新模型。他们指出,深度学习通常训练时间长,需要耗费大量的硬件资源。而他们的模型能够在保持计算机性能的同时,将深度学习的训练速度提高1.5-5.4倍,与全精度(full precision)训练相比,其碳排放也减少至1/1.9-1/3.8。

周平认为,物理研究等多个学科的设备耗电量都不少,有意识地去控制碳排放很重要。她发现,由于疫情的影响,近几年很多学术会议转移到线上举行,未来在非必要的情况下,可以减少线下会议,从而减少交通出行带来的碳排放,“我们可以尽己所能地去控制碳排放,并且同时照顾到研究的需要”。

参考文献:

[1] Energy and policy considerations for deep learning in NLP. In the 57th Annual Meeting of the Association for Computational Linguistics (ACL). 2019.

[2] The carbon footprint of bioinformatics. Molecular biology and evolution. 2022.

[3] Estimate of the carbon footprint of astronomical research infrastructures. Nature Astronomy. 2022

[4] The imperative to reduce carbon emissions in astronomy. Nature Astronomy. 2020.

[5] Estimating the carbon footprint of the GRAND project, a multi-decade astrophysics experiment. Astroparticle Physics. 2021.

[6] An astronomical institute’s perspective on meeting the challenges of the climate crisis. Nature Astronomy. 2020.

编辑|曹海东 视觉|刘万鸿

记得加小千为星标,不遗失彼此。本文首发于2022年12月1日《南方周末》,原创作品欢迎转载,转载请与后台联系。更多阅读↓↓↓

专访广东省发展改革委副主任、省能源局局长吴道闻:“稳步有序推进碳达峰碳中和各项工作”

生态环境部答南周:如何建立电池等行业碳足迹评价标准?

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存