10文聚焦：值得关注的菌群生信分析新方法+新工具 | 热心肠日报

Original 热心肠小伙伴们热心肠研究院 2023-03-02

今天是第2394期日报。

香港大学：纳米孔宏基因组学助力恢复高质量基因组

Microbiome[IF:16.837]

① 借助纳米孔测序开发出NanoPhase，可从宏基因组中重建完整和高质量MAGs，探索其代谢潜力；② 使用ZymoBIOMICS肠道微生物标品（含21个菌株）评估NanoPhase可行性，并对活性污泥测序获得275个MAGs（中值完整度约90%）；③ NanoPhase可提高MAGs连续性和准确度（N50中位数为735Kb），为短读长的44-86倍；④ 111个MAGs中鉴定出165个原噬菌体，表明原噬菌体可能是探究微生物遗传多样性被忽视的部分，且是活性污泥微生物组中影响菌群的组成因素。

Nanopore long-read-only metagenomics enables complete and high-quality genome reconstruction from mock and complex metagenomes
12-02, doi: 10.1186/s40168-022-01415-8

【主编评语】随着测序技术和生物信息学的快速发展，研究人员可借助宏基因组测序从环境、人类肠道、土壤等样本中快速组装出高质量基因组。相比二代短读长，利用三代长度长测序可能有利于组装出高度保守和可移动区域，有效提高基因组的质量。近日，香港大学张彤团队在Microbiome上发表最新研究，借助纳米孔测序开发出NanoPhase工具，可从宏基因组测序模拟和真实数据（污泥样本）中恢复完整和高质量MAGs。总之，该研究为利用下一代测序组装高质量MAGs提供了新支撑，当然，未来也需要针对真实的人类肠道菌群样本进一步测试其准确性。（@九卿臣）

Nature子刊：使用KBase可从微生物组中提取和分析MAGs

Nature Protocols[IF:17.021]

① 基于美国能源系统生物学知识库（KBase）更新的宏基因组分析工具，可从微生物组中快速提取高质量MAGs；② KBase提供了一个可扩展平台，允许用户添加新方法以及比较不同方法间差异（如IMG/M、Galaxy和MGnify等）；③ KBase平台还可提供MAGs分类、系统发育和功能分类，可将其与NCBI的RefSeq结合；④ KBase平台计算、数据存储及分析均可免费提供给用户；⑤ KBase平台目前质控和分箱只针对细菌和古菌，且不支持长度长序列，还需注意控制组装样本数。

Metagenome-assembled genome extraction and analysis from microbiomes using KBase
11-14, doi: 10.1038/s41596-022-00747-x

【主编评语】随着测序技术和生物信息学的快速发展，研究人员利用分箱技术从各种复杂样本中恢复了大量的微生物基因组。但受限制于大部分分箱工具依赖于生信基础和计算资源，因此，开发出共享、便捷的在线平台迫在眉睫。近日，美国劳伦斯伯克利国家实验室研究人员在Nature Protocols发表最新研究，在美国能源系统生物学知识库（KBase）上更新了可共享的数据质控和分箱工具，针对短reads序列能快速质控和组装出MAGs，还可提供MAGs分类、系统发育、功能分类等信息，值得关注和尝试。（@九卿臣）

不依赖参考基因组的宏基因组物种水平分析工具mOTUs3

Microbiome[IF:16.837]

① 开发了mOTUs3工具可分析超过3.3万个物种水平OTU的宏基因组序列，比mOTUs2增加了4.3倍；② mOTUs3可在人类及小鼠等样本中注释到新物种，不同环境中mOTU相对丰度差异较大；③ 利用CAMI和OPAL工具发现mOTUs3优于其他分析工具，与基于16S rRNA基因分类法更一致；④ 对海洋异养菌Pelagibacterales进行多样性分析，发现mOTUs3可提供比基于16S序列更细致的分类单元；⑤ mOTUs3在高/低甲烷排放绵羊瘤胃微生物群落中共鉴定出131个差异物种和6种新古菌；

Cultivation-independent genomes greatly expand taxonomic-profiling capabilities of mOTUs across various environments
12-05, doi: 10.1186/s40168-022-01410-z

【主编评语】近年来，随着测序技术和生信工具的发展，极大促进了研究人员对微生物进行分类，检测和量化生物样品中微生物的相对丰度，但仍有一部分微生物群落没有得到很好分类，尤其是未被充分探索的环境样本中。近日，瑞士研究人员在Microbiome发表最新研究，开发了mOTUs3（https://github.com/motu-tool/mOTUs）以实现对宏基因组的精确物种水平分析。相比其他方法，它提供了一个更全面的原核生物群落多样性视图，特别是针对目前尚未开发的微生物群落，值得试用。（@九卿臣）

用于微生物组序列组装、分析和存档的MGnify平台更新

Nucleic Acids Research[IF:19.16]

① MGnify平台可用于微生物组序列组装、分析和存档，目前含475390项分析，涉及343695个样本，分为4601项研究，还支持长度长和二三代混合数据集组装和分析；② 重新设计了MGnify蛋白质数据库，含超24亿条非冗余蛋白质序列，借助深度机器学习方法扩展了功能注释；③ 更新了MGnify应用程序编程接口（API，如分页、排序和查询优化）和web客户端（浏览、过滤数据集）；④ 通过耦合Jupyter Lab环境引入MGnify，可远程控制服务器对数据进行下游分析。

MGnify: the microbiome sequence data analysis resource in 2023
12-07, doi: 10.1093/nar/gkac1080

【主编评语】MGnify平台（https://www.ebi.ac.uk/metagenomics）可用于微生物组序列组装、分析和存档。近日，欧洲分子生物学实验室在Nucleic Acids Research上发表最新研究，进一步扩展更新了MGnify平台。3年来，MGnify不仅在包含的数据集数量方面有所增长，而且还增加了分析的广度（如对长读长序列的分析），并且在蛋白数据库、API以及web网页端都做了较大的更新，并且用户还直接远程控制服务器分析微生物组数据，便于微生物组分析惠及大众，值得关注。（@九卿臣）

Nature子刊：使用CRISPRi技术从复杂文库中高通量检索所需序列

Nature Biotechnology[IF:68.164]

① 利用核酸酶缺陷型Cas9开发了一种CRISPR反筛选中断电路 (CCIC)，用于从复杂文库中访问高通量检索目标克隆；② 启动子与sacB基因间的序列作为“条形码”区分不同质粒；③ 从宏基因组和白化链霉菌基因组DNA中构建CCIC条形码文库，目标克隆（超过60个新基因组BGC和10个以前未鉴定的白化链霉菌BGC）可被高通量回收；④ 相较于以前使用的克隆检索，CCIC检索效率至少快十倍；⑤ 将CCIC克隆与现代测序结合，可快速获取自然生态系统中存在的遗传多样性。

High-throughput retrieval of target sequences from complex clone libraries using CRISPRi
11-21, doi: 10.1038/s41587-022-01531-8

【主编评语】随着测序技术的快速发展，从宏基因组文库中捕获DNA为探究微生物多样性提供了新机遇，目前构建大型宏基因组文库中靶向检索克隆仍需要多步稀释和PCR筛选，严重阻碍了进程。CRISPR-Cas已被用于精确克隆目标基因组序列，但还未能从复杂的宏基因组库中访问序列。近日，美国洛克菲勒大学在Nature Biotechnology发表最新研究，利用核酸酶活性缺失的Cas9建立了一个CRISPR反筛选中断线路，可高效的从复杂文库中检索目标克隆。总之，该研究为科研人员挖掘以前无法接触到的微生物群落多样性提供了新工具，值得关注和尝试。（@九卿臣）

IMG/VR v4：用于查询未培养病毒基因组多样性和进化史的数据库更新

Nucleic Acids Research[IF:19.16]

① IMG/VR v4提供了从宏基因组获得的最大病毒基因组集合，共有1500万个病毒基因组，相比上一个版本，增加了约6倍；② 这些病毒可聚类成870万个病毒操作分类单位，使用更新版CheckV对基因组质量评估，现包含了27%的完整病毒基因组；③ IMG/VR v4现使用一种新的检测方法（geNomad）从基因组、宏基因组和宏转录组中系统地鉴定病毒序列；④ IMG/VR v4进一步更新了搜索、浏览界面及在线分析工具（GVClass可针对MAGs或contig识别巨型病毒分类）。

IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata
11-18, doi: 10.1093/nar/gkac1037

【主编评语】自2020年11月发布IMG/VR v3后（由18,373个培养的病毒基因组和2,314,329个未培养的病毒基因组组成），最近美国能源部联合基因组研究所研究人员在Nucleic Acids Research发布了新版本的更新，IMG/VR v4提供了从宏基因组获得的最大病毒基因组集合，共包含有1500万个病毒基因组，相比上一个版本，增加了约6倍。同时，IMG/VR v4还更新了病毒序列识别方法，以及相关界面的优化。总之，该数据库拥有迄今为止最大的病毒组集合，有利于研究人员进一步探究病毒进化历史和病毒编码的功能多样性，值得关注。（@九卿臣）

用于评估菌群CAZyme基因簇和底物的dbCAN-seq数据库更新

Nucleic Acids Research[IF:19.16]

① dbCAN-seq数据库提供了来自四个生态环境（人类肠道、口腔、牛瘤胃和海洋）9421个MAGs的498000个CAZyme和169000个CAZyme基因簇（CGCs）；② 通过dbCAN-PUL同源性搜索和eCAMI亚家族多数投票两种新方法预测微生物组CGCs的底物；③ 重新设计了CGC基因组成图形显示、dbCAN-PUL查询CGC、PUL主题（多糖利用位点）比对以及支持预测底物的eCAMI亚家族表等界面；④ 添加了批量下载页面和统计页面，用于根据底物和分类门组织所有数据，以便CGC访问。

dbCAN-seq update: CAZyme gene clusters and substrates in microbiomes
11-18, doi: 10.1093/nar/gkac1068/6833251

【主编评语】碳水化合物活性酶（CAZymes）对人类健康、营养、肠道微生物组、生物能源、植物疾病和全球碳循环的研究极为重要。随着组装技术的更新，来自各种生态环境的数十万个宏基因组组装基因组 (MAGs) 现在可以在公共数据库中获得。近日，美国内布拉斯加大学团队在Nucleic Acids Research发表最新研究更新了dbCAN-seq数据库 ( https://bcb.unl.edu/dbCAN_seq），这次更新主要体现在两个方面：首先，dbCAN-seq提供了来自四个生态环境（人类肠道、口腔、牛瘤胃和海洋）9421个MAGs的498000个CAZyme和169000个CAZyme基因簇（CGCs）；另外，使用了两种新方法来预测微生物组CGCs的底物，并提供了底物查阅功能，允许搜索针对不同微生物组中预测特定底物的CGCs，值得关注和使用。（@九卿臣）

基于测序结果预测丁酸和丙酸产生菌

Gut Microbes[IF:9.434]

① 应用测序数据预测体内外短链脂肪酸(SCFAs)的产生，丁酸和丙酸产生菌分离明显，极少数类群具有两种SCFAs的产生途径；② 丙酸相关性较弱，丙酸产生菌比丁酸产生菌更少地印迹到核心代谢中；③ 较低细菌细胞浓度和较高粪便湿度促进细菌整体活性，导致SCFA浓度和丁酸比例升高；④ 通过列举ACoA途径的菌群，在体外可能计算出丁酸的绝对产量及其在总SCFA中的比例；⑤ 对丙酸绝对浓度的预测准确性较低，且不能从体外途径计算其在总SCFAs中的比例。

Predicting butyrate- and propionate-forming bacteria of gut microbiota from sequencing data
11-23, doi: 10.1080/19490976.2022.2149019

【主编评语】肠道菌群代谢物短链脂肪酸，尤其是丁酸和丙酸，对人体健康或疾病具有重要作用。因此，基于群体水平研究两类菌群的生物学特性具有重要意义。本文基于肠道菌群的测序结果，预测体内外产生两种短链脂肪酸的菌群。研究结果显示，丁酸和丙酸产生菌分离明显，但丙酸的相关性较弱。文章启示，刺激这两类菌群可以促进相应丁酸和丙酸的产生，这可能成为未来精准干预的靶点。（@Bingbing）

Nature子刊：如何恰当地再利用代谢组学数据（评论）

Nature Cell Biology[IF:28.213]

① 代谢组学数据库中实验设计、方法、数据形式多样化，使得再利用这些数据变得复杂，本评论为如何再利用代谢组学数据提供建议；② 要侧重比较不同研究的代谢物浓度（而非相对信号强度），以及不同研究间的差异倍数；③ 分析前做好数据质控（可通过降维工具识别异常值样本），优先分析被赋予化学名称并具有高可信度的信号数据；④ 目前代谢物还无标准命名法，要注意同一代谢物可能有多种名称；⑤ 可利用多种生信工具和计算软件，重新处理原始文件。

Quick tips for re-using metabolomics data
10-24, doi: 10.1038/s41556-022-01019-2

【主编评语】过去20年里，随着代谢组学实验数量呈现指数级增长，数据共享库对扩大该领域的影响变得至关重要。但是由于该领域仍缺乏标准化的实验和计算方法，使数据重用变得更复杂。近日，研究人员在Nature Cell Biology发表最新评论，围绕代谢数据从代谢数据质控、优先分析、代谢物注释、以及借助新的生信工具和计算软件重新处理原始数据等角度给出系统的建议，值得关注。（@九卿臣）

iMeta：余光创团队开发ggtree最新文章-系统发育树存储与可视化的数据结构

iMeta[IF:N/A]

① 系统发育树与形式多样的相关数据可以存储在同一个ggtree图形对象中，从而提高了系统发育数据的可重复性与可重用性；② 系统发育树与相关数据可以从ggtree对象中提取出来，并重新分析以辅助各个学科进行系统发育信息的综合比较研究；③ ggtree图形对象可以被渲染成静态图像，并且保存在该对象中的可视化指令可以类似于Microsoft Word 格式刷操作，从而对不同的树对象进行可视化。

Ggtree: A serialized data object for visualization of a phylogenetic tree and annotation data
09-28, doi: 10.1002/imt2.56

【主编评语】为了提高系统发育数据的可重复性与可重用性，在本研究中，作者设计了ggtree对象用于存储系统发育树，相关数据以及可视化指令，提高了系统发育数据的可重复性与可重用性。Ggtree软件包可以在https://www.bioconductor.org/packages/ggtree/免费获得，在线书籍https://yulab-smu.top/treedata-book/也提供了ggtree的完整参考，其详细说明（文本、图、表、中文翻译版本或视频）也可从线上获取http://www.imeta.science/。（@刘永鑫-农科院-宏基因组）

感谢本期日报的创作者：accepted，拍了花宝贝，XLyasby，九卿臣，Zzz，一只豆豆菌，刘永鑫-农科院-宏基因组

点击阅读过去10天的日报：

1220 | 战肠炎：Science子刊讲透靶向细胞因子的治疗策略

1219 | Lancet子刊：转移性大肠癌一线用药或有新选择！

1218 | 88万人数据揭示：哪些微量营养素可有益心血管健康？

1217 | 临床新证：间歇性禁食辅助改善糖尿病，安全有效

1216 | 喝水都胖？易胖体质或与肠型有关

1215 | 今日Nature领衔，多篇好文聚焦肠脑轴研究前沿

1214 | 警惕：超加工食品和人工甜味剂可能损害脑健康

1213 | 20万人数据揭示：预防IBD，健康生活方式能有多大作用？

1212 | 肠菌如何促进IBS？卞兆祥等高分Cell子刊再发新成果

1211 | 膳食糖与糖代谢知多少？12文再添营养新知