文章快速检索     高级检索
   复旦学报(医学版)  2021, Vol. 48 Issue (5): 624-629      DOI: 10.3969/j.issn.1672-8467.2021.05.009
0
Contents            PDF            Abstract             Full text             Fig/Tab
感染性疾病的微生物宏基因组测序结果判读的比较
李曼诗1 , 黄巍峰2 , 陆一涵1     
1. 复旦大学公共卫生学院流行病学教研室-公共卫生安全教育部重点实验室 上海 200032;
2. 上海交通大学附属第六人民医院重症医学科 上海 200233
摘要目的 分析感染性疾病的微生物宏基因组测序结果,比较两个数据库注释结果的一致性。方法 收集感染性疾病患者的不同类型临床标本,进行宏基因组二代测序,分别采用NCBI NR数据库和MetaPhlAn2数据库注释测序结果,并进行一致性检验。结果 2019年6月-2020年10月,在上海市4家医院内收集疑似感染性疾病患者174份标本的宏基因组测序数据进行分析。NCBI数据库阳性检出率为67.2%,MetaPhlAn2数据库阳性检出率为93.1%。不同类型标本的微生物检出率存在差异,外周血和脑脊液的检出率相对较低,其他标本的检出率较高。基于原始注释结果,按照检出微生物种类(细菌、病毒、真菌、未检出),两个数据库的注释结果一致性仅为36.8%,Kappa值为0.1779(Z=5.278 1,P < 0.000 1)。分别调整两个数据库的判读标准之后,一致性提升为73.0%,Kappa值为0.5712(Z=11.736 2,P < 0.000 1);其中,脑脊液标本中微生物种类的检出一致性最高,为74.0%,Kappa值为0.512 0(Z=5.139 2,P < 0.000 1)。结论 两个数据库均能注释识别存在的主要病原体。针对无菌部位标本的宏基因组测序结果注释,MetaPhlAn2数据库与传统的NCBI数据库一致性较好,可以作为后者的补充。
关键词宏基因组测序(mNGS)    感染性疾病    NCBI NR数据库    MetaPhlAn2数据库    
Comparison of the interpretation of metagenomic next-generation sequencing for infectious diseases
LI Man-shi1 , HUANG Wei-feng2 , LU Yi-han1     
1. Ministry of Education Key Laboratory of Public Health Safety-Department of Epidemiology, School of Public Health, Fudan University, Shanghai 200032, China;
2. Department of Intensive Care Medicine, the Sixth People's Hospital, Shanghai Jiao Tong University, Shanghai 200233, China
Abstract: Objective To determine the metagenomic next-generation sequencing (mNGS) for infectious diseases, and to compare the consistency of taxonomic profiling between two databases. Methods Different clinical specimens from patients with infectious diseases were collected and sequenced using mNGS. The NCBI NR database and MetaPhlAn2 were employed for taxonomic profiling, in which the consistency between the two databases was evaluated. Results From Jun 2019 to Oct 2020, in four hospitals of Shanghai, metagenomic sequencing data of 174 specimens collected from patients with suspected infectious diseases were analyzed. The detection proportion based on the NCBI database was 67.2% and on MetaPhlAn2 was 93.1%.The taxonomic profile among different types of specimens varied.The detection proportion in blood and cerebrospinal fluid specimens was relatively low, compared to other types of specimens.Based on the preliminary annotation and classified by the type of microorganism (bacteria, virus, fungi, or undetected), the consistency between the two databases was only 36.8% (κ=0.177 9, Z=5.2781, P < 0.000 1).After adjusting the interpretation criteria on both databases, the consistency was improved to be 73.0% (κ=0.571 2, Z=11.7362, P < 0.000 1).Among them, the highest consistency of 74.0% of microbial species was observed in cerebrospinal fluid specimens (κ=0.512 0, Z=5.139 2, P < 0.000 1). Conclusion Both databases could identify and profile the major pathogens existed in all specimens.For those collected from aseptic sites, MetaPhlAn2 has good consistency with traditional NCBI in taxonomic profiling, which could be used as a supplement.
Key words: metagenomic next-generation sequencing(mNGS)    infectious disease    NCBI NR database    MetaPhlAn2 database    

感染性疾病一直是全球范围内的重要公共卫生问题。在其诊疗中,快速、准确地识别病原体至关重要。传统检测方法主要包括形态学检测、培养分离、生化检测、免疫学和核酸检测等,操作简单、检测成本相对较低,同时具有较好的灵敏度和特异度,目前临床仍然广泛应用。然而,传统检测方法耗时较长,例如培养试验平均反馈时间为:细菌3天、真菌7天、分枝杆菌45天[1]。此外,感染性疾病的病原体种类繁多,传统检测方法仅能针对几种常见病原体,且检测项目很大程度上依赖临床医师的判断,因此难以识别未知或罕见的病原体。临床上超过2/3的感染性疾病可能无法鉴定病原体,导致治疗措施缺乏针对性[2]

基于第二代测序技术的宏基因组测序(metagenomic next-generation sequencing,mNGS)可以直接对临床标本中的所有核酸进行高通量测序,无需特异性扩增,更不需要微生物培养,因此可在较短时间(平均48 h)内获得标本中的核酸序列,然后通过生物信息学判读分析病原体种类及丰度等信息[3]。目前主要有两种方法进行mNGS物种注释:(1)有参/基于读长(reads-based/assembly-free)方法,不进行序列组装,直接将序列与参考数据库进行比对,其结果的准确性与参考数据库密切相关,且比对速度取决于比对方法和硬件、软件配置;(2)无参/基于组装或拼接(assembly-based/de novo)方法,对质控后的序列进行组装/拼接,得到重叠群后进行基因注释和预测,需要更深的测序深度、更高的时间成本和硬件、软件要求,且容易遗失相对丰度较低的物种。考虑到人体相关微生物的参考基因组和参考数据库相对丰富,以及时间和设备问题,临床应用mNGS分析主要采用有参/基于读长方法注释微生物。

目前,对于mNGS下游生物信息学分析,各个实验室均建立了个性化的分析方法,尚无统一的标准。由于有参方法进行物种注释时高度依赖所选择的参考数据库,因此不同实验室的判读结果可能存在较大差异。根据《中国宏基因组学第二代测序技术检测感染病原体的临床应用专家共识》推荐,物种注释时采用的数据库应达到临床应用级别,且要求其能较好地区分临床常见病原体种别[4]。因此,本研究收集感染性疾病患者不同类型标本的mNGS测序数据,分别采用两个参考数据库进行微生物注释,然后调整判读标准,分析注释结果的一致性,从而为建立更适用的临床mNGS结果判读标准提供科学依据。

资料和方法

研究对象  2019年6月—2020年10月,在上海市第六人民医院城市医联体下属上海市第六人民医院、上海市第六人民医院东院、上海市普陀区中心医院、上海市金山区中心医院等4家医院收集感染性病例。纳入标准:(1)18周岁以上;(2)具有发热(体温 > 38 ℃)、头痛、畏寒、寒战、脑膜刺激征、呕吐、抽搐、局灶性神经功能障碍、意识改变或嗜睡等感染性疾病症状患者。排除标准:(1)病史资料不全;(2)拒绝进行mNGS。本研究已获上海市第六人民医院伦理委员会批准(审批编号:2019-087)。纳入的患者及其家属均签署知情同意书。

标本采集  采集的标本类型主要包括外周血、脑脊液、痰液、肺泡灌洗液等多种类型。临床医师根据患者感染部位采集标本,并尽可能在急性期进行采集,无菌封装后统一送至探因医学科技(浙江)有限公司,-20 ℃保存并及时送检,避免反复冻融[5-6]

DNA提取与测序  采用Tiangen Magnetic DNA Kit [中国天根生化科技(北京)有限公司]试剂盒提取DNA,使用Bioruptor非接触式超声波破碎仪(比利时Diagenode公司)将其片段化为150~300 bp长度。使用KAPA Library Preparation kit(美国KAPA Biosystem公司)试剂盒构建文库。使用Illumina NextSeq 550Dx(美国Illumina公司)基因测序仪进行高通量测序。去除接头、低质量碱基、重复和 < 36 bp的短读长后,使用Bowtie2软件(2.3.5版本)[7]与人类参考基因组(hs37d5)进行比对并去除人源序列。

微生物注释  本研究采用2个常用的数据库注释质控后的核酸序列:(1)使用Bowtie2软件(2.3.5版本)与NCBI(National Center for Biotechnology Information)的NR数据库(Non-Redundant Protein Sequence Database)进行比对,该数据库覆盖临床常见细菌7 982种、真菌917种、病毒7 811种、寄生虫124种,共16 834种病原微生物。该数据库为NCBI BLAST功能依托的重要数据库,为避免蛋白质序列冗余而在RefSeq等多个参考数据库基础上设计而成。截至2021年1月,NR数据库包含87 GB的Fasta格式文件(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/),基本包含所有人类及非人类宿主和自然环境中的已知微生物序列。(2)使用MetaPhlAn2(Metagenomic Phylogenetic Analysis)软件(2.7.5版本)与其参考数据库进行比对,该数据库整理超过17 000种参考基因组,包括13 500种细菌和古菌、3 500种病毒和110种真核生物,汇编超过100万类群特异的标记基因[8]。MetaPhlAn2软件可实现精确地分类群识别,能够准确估计物种的相对丰度,并可达到种水平的精度,分析速度快于NCBI BLAST。以上两个数据库均对公众免费开放。

统计学分析  使用SAS 9.4软件计算两个数据库结果的一致性和Kappa值,并对Kappa值进行Z检验,检验水准α=0.05。

结果

微生物注释结果  本研究共收集感染性疾病患者标本174份,包括外周血、脑脊液、痰液、肺泡灌洗液、尿液、胸水、肛拭子、引流液(表 1)。通过与NCBI数据库比对,共有117份标本检出微生物(67.2%),包括185种细菌、11种病毒、12种真菌;通过与MetaPhlAn2数据库比对,共有162份标本检出微生物(93.1%),注释出307种细菌、31种病毒、5种真菌。不同标本的微生物检出率存在差异,外周血和脑脊液的检出率相对较低,其他标本的检出率较高。

表 1 微生物注释结果(NCBI数据库与MetaPhlAn2数据库) Tab 1 Taxonomic profile result (NCBI database and MetaPhlAn2 database)  
[n(%)]
Taxonomic profile All specimens(n=174) Blood(n=83) CSF(n=50) BALF(n=17) Sputum(n=18) Urine(n=3) PE(n=1) Anal swab(n=1) Drainage(n=1)
NCBI database
  Pathogen detection 117(67.2) 46(55.4) 30(60.0) 17(100) 18(100) 3(100) 1(100) 1(100) 1(100)
  Kingdom
    Bacteria 185 29 39 78 88 20 1 31 4
    Virus 11 10 3 5 6 2 0 0 0
    Fungi 12 4 6 5 7 2 0 0 0
MetaPhlAn2 database
  Pathogen detection 162(93.1) 75(90.4) 48(96.0) 17(100) 16(88.9) 3(100) 1(100) 1(100) 1(100)
  Kingdom
    Bacteria 307 3 45 188 154 12 0 58 2
    Virus 31 20 8 9 12 4 2 1 0
    Fungi 5 0 0 1 4 0 0 0 0
  CSF:Cerebrospinal fluid;BALF:Bronchoalveolar lavage fluid;PE:Pleural effusion.

NCBI数据库的注释结果中,细菌多为肺炎克雷伯菌、屎肠球菌、鲍曼不动杆菌等,病毒多为人类疱疹病毒(1型、4型EB病毒、5型巨细胞病毒、7型)和人类细小病毒B19,真菌则多为白假丝酵母菌、耶氏肺孢子菌等。MetaPhlAn2数据库注释结果中,则包含多种较为罕见的病原体,包括红串红球菌、樊庆生红球菌等细菌,细环病毒、EB病毒和多种植物病毒,以及杜氏假丝酵母菌等真菌。

微生物注释结果的比较  本研究首先基于数据库的原始注释结果,按照“是否检出微生物”,计算两个数据库注释结果的一致性仅为67.2%,Kappa值为0.067 7(Z=1.3189,P=0.093 6);按照检出微生物种类(细菌、病毒、真菌、未检出),则一致性仅为36.8%,Kappa值为0.1779(Z=5.278 1,P < 0.001)。

然后调整两个数据库注释结果的判读标准,比较一致性。将MetaPhlAn2数据库注释结果中的多种细菌(红串红球菌、樊庆生红球菌)、病毒(细环病毒、植物病毒)、真菌(杜氏假丝酵母菌)均判为背景微生物(即不计入检出微生物),重新计算两个数据库注释结果的一致性为67.9%,Kappa值为0.371 3(Z=5.354 3,P < 0.001)。进一步将NCBI数据库注释的疑似背景微生物也全部判为背景微生物,则不同类型标本的检出微生物种类趋于一致(表 2);此时计算一致性为73.0%,Kappa值为0.571 2(Z=11.736 2,P < 0.001,表 3)。

表 2 注释结果判读调整后的检出的排序前三位的微生物(NCBI数据库与MetaPhlAn2数据库) Tab 2 Top three detected species after adjusting interpretation criteria (NCBI database and MetaPhlAn2 database)
Database Rank Bacteria Virus Fungi
Species Detection No. Species DetectionNo. Species DetectionNo.
All specimens
  NCBI 1 Klebsiella pneumoniae 28 Human alpha herpesvirus 1 18 Candida albicans 17
  NCBI 2 Enterococcus faecium 14 Human gamma herpesvirus 4 15 Pneumocystis jirovecii 6
  NCBI 3 Acinetobacter baumannii 13 Human beta herpesvirus 5 14 Candida tropicalis 4
  MetaPhlAn2 1 Klebsiella pneumoniae 13 Human gamma herpesvirus 4 9 Candida tropicalis 2
  MetaPhlAn2 2 Acinetobacter baumannii 10 Human beta herpesvirus 5 6 Candida albicans 1
  MetaPhlAn2 3 Stenotrophomonas maltophilia 10 Human alpha herpesvirus 1 1 -
Blood
  NCBI 1 Klebsiella pneumoniae 12 Human gamma herpesvirus 4 9 Malassezia restricta 2
  NCBI 2 Enterococcus faecium 5 Human beta herpesvirus 5 8 Pneumocystis jirovecii 2
  NCBI 3 Acinetobacter baumannii 3 Human alpha herpesvirus 1 4 Candida parapsilosis 1
  MetaPhlAn2 1 Klebsiella pneumoniae 2 Human gamma herpesvirus 4 3 -
  MetaPhlAn2 2 Escherichia coli 1 Human beta herpesvirus 5 1 -
  MetaPhlAn2 3 - Human alpha herpesvirus 1 1 -
Cerebrospinal fluid
  NCBI 1 Klebsiella pneumoniae 5 Human alpha herpesvirus 1 1 Candida albicans 3
  NCBI 2 Staphylococcus epidermidis 5 Human gamma herpesvirus 4 1 Malassezia furfur 3
  NCBI 3 Staphylococcus haemolyticus 4 Human erythro parvovirus B19 1 Malassezia restricta 2
  MetaPhlAn2 1 Propionibacterium acnes 6 Human alpha herpesvirus 1 1 -
  MetaPhlAn2 2 Klebsiella pneumoniae 2 Human erythro parvovirus B19 1 -
  MetaPhlAn2 3 Acinetobacter baumannii 2 Human mast adenovirus B 1 -
表 3 注释结果判读调整后的检出微生物种类比较 Tab 3 Taxonomic profile after adjusting interpretation criteria
NCBI database
Bacteria Virus Fungi Undetected
MetaPhlAn2 database
  Bacteria 37 0 0 0
  Virus 3 16 0 0
  Fungi 0 0 3 0
  Undetected 29 8 7 71

本研究也区分不同类型标本,比较两个数据库注释结果的一致性。结果发现,脑脊液标本中检出一致性最高,为76.0%,Kappa值为0.509 8(Z=4.135 9,P < 0.001),且检出微生物种类(具体到“种”)的一致性为74.0%,Kappa值为0.512 0(Z=5.139 2,P < 0.001);外周血标本次之,为69.9%,Kappa值为0.360 6(Z=4.272 4,P < 0.001),检出微生物种类的一致性也为69.9%,Kappa值为0.408 3(Z=6.412 2,P < 0.001)。其他类型标本一致性较低。

讨论

目前,mNGS在临床和科研中的应用愈加广泛。2019年在武汉不明原因肺炎患者肺泡灌洗液标本中利用mNGS发现新型冠状病毒并进行了全基因组测序[9-10]。在mNGS技术的运用过程中,由于检测的灵敏性和无偏向性,即使是采集自无菌部位的标本,也可能注释出多种微生物,因此如何更准确地识别标本中包含的物种信息至关重要[11]。早期研究一般利用NCBI BLAST功能将所有测序结果与参考数据库中收录的微生物基因组全长序列进行比对;然而,该方法十分耗费时间和计算资源,对应的软硬件需求较高,随着测序数量和深度增加,这种方法难以满足分析需求。为了解决这一问题,已陆续建立多种生物信息学分析方法,其中之一就是MetaPhlAn2所代表的标记基因方法。该方法从现有数据库的所有微生物参考序列中,整理出物种特异的标记基因,降低了比对序列的数量和长度,从而减少分析时间、降低计算资源的需求,该方法已被用于人类微生物组计划[12]。本研究发现,不同部位临床标本中MetaPhlAn2注释获得更多微生物种类,提示该数据库灵敏度更高。然而,该方法也识别了很多可能属于背景的微生物,其在脑脊液、外周血等无菌部位标本的物种注释率相对较低,而其他部位标本则相对较高,这表明开放部位标本可能包含定植菌或易于受外界微生物污染,导致物种检出率升高。之前有研究报道,mNGS发现健康人外周血亦存在微生物核酸序列[13]。因此,在临床应用mNGS时,需要根据检测的微生物种类和检出序列数等不同情况调整判读标准,注意剔除试剂、环境、测序和生物信息分析流程中引入的假阳性病原体信息[11]

本研究在分别调整NCBI和MetaPhlAn2的判读标准后,两者检出微生物种类(细菌、病毒、真菌、未检出)和检出微生物种别(具体到“种”)的一致性均大幅度提高。既往研究在确定感染病原体时,与阴性对照比较后,一般先排除临床常见的背景微生物,然后排除测序前后批次中50%以上标本出现的物种,结合临床信息和传统实验室检测,最后对潜在病原体进行验证[14]。确认是否为条件致病菌感染时,建议综合考虑患者的免疫状态、是否合并基础疾病、标本采集部位等临床信息[15]。本研究发现,在脑脊液、外周血等无菌部位标本中,MetaPhlAn2方法与传统的NCBI数据库方法一致性较好,鉴于MetaPhlAn2较快的分析速度和较低的计算资源要求,可考虑推荐在无菌部位标本中采用该物种注释方法,从而快速指导临床诊疗。

由于采集样本量较小,本研究代表性受一定限制,同时仅考虑测序结果与两个数据库注释情况,且未与患者临床信息和传统实验室检测指标相结合分析,对临床治疗指导价值有限。

本研究发现在无菌标本中,MetaPhlAn2的准确度不逊于传统的NCBI。考虑到MetaPhlAn2对计算机计算能力要求较低,便于临床使用,因此该数据库可以作为NCBI的补充:首先根据MetaPhlAn2判读结果快速识别病原体、先行指导治疗;然后根据NCBI判读结果进行修正,从而实现更快速的诊疗。

作者贡献声明  李曼诗   数据整理、统计分析,论文撰写。黄巍峰  研究设计,数据采集,论文修改。陆一涵  研究设计,论文构思和修改。

利益冲突声明   所有作者均声明不存在利益冲突。

参考文献
[1]
MIAO Q, MA Y, WANG Q, et al. Microbiological diagnostic performance of metagenomic next-generation sequencing when applied to clinical practice[J]. Clin Infect Dis, 2018, 67(suppl 2): S231-S240. [URI]
[2]
宏基因组学测序技术在中重症感染中的临床应用共识专家组, 中国研究型医院学会脓毒症与休克专业委员会, 中国微生物学会微生物毒素专业委员会, 等. 宏基因组学测序技术在中重症感染中的临床应用专家共识(第一版)[J]. 中华危重病急救医学, 2020, 32(5): 531-536. [DOI]
[3]
SIMNER PJ, MILLER S, CARROLL KC. Understanding the promises and hurdles of metagenomic next-generation sequencing as a diagnostic tool for infectious diseases[J]. Clin Infect Dis, 2018, 66(5): 778-788. [DOI]
[4]
《中华传染病杂志》编辑委员会. 中国宏基因组学第二代测序技术检测感染病原体的临床应用专家共识[J]. 中华传染病杂志, 2020, 38(11): 681-689. [DOI]
[5]
宏基因组分析和诊断技术在急危重症感染应用专家共识组. 宏基因组分析和诊断技术在急危重症感染应用的专家共识[J]. 中华急诊医学杂志, 2019, 28(2): 151-155.
[6]
赵建玉, 周倩倩, 鲁辛辛, 等. 高通量测序技术在确认病原微生物中存在的问题与挑战[J]. 临床检验杂志, 2021, 39(1): 6-11. [CNKI]
[7]
LANGMEAD B, SALZBERG SL. Fast gapped-read alignment with Bowtie 2[J]. Nature Methods, 2012, 9(4): 357-359. [DOI]
[8]
TRUONG DT, FRANZOSA EA, TICKLE TL, et al. MetaPhlAn2 for enhanced metagenomic taxonomic profiling[J]. Nat Methods, 2015, 12(10): 902-903. [DOI]
[9]
WU F, ZHAO S, YU B, et al. A new coronavirus associated with human respiratory disease in China[J]. Nature, 2020, 579(7798): 1-8. [URI]
[10]
ZHOU P, YANG XL, WANG XG, et al. A pneumonia outbreak associated with a new coronavirus of probable bat origin[J]. Nature, 2020, 579(7798): 270-273. [DOI]
[11]
戴媛媛, 马筱玲. 宏基因组二代测序技术在临床病原学诊断中的应用[J]. 临床检验杂志, 2021, 39(1): 1-5. [CNKI]
[12]
HUMAN MICROBIOME PROJECT CONSORTIUM. Structure, function and diversity of the healthy human microbiome[J]. Nature, 2012, 486(7402): 207-214. [DOI]
[13]
LI N, CAI Q, MIAO Q, et al. High-throughput metagenomics for identification of pathogens in the clinical settings[J]. Small Methods, 2020, 5(1): 2000792. [URI]
[14]
WILSON MR, O'DONOVAN BD, GELFAND JM, et al. Chronic meningitis investigated via metagenomic next-generation sequencing[J]. JAMA Neurol, 2018, 75(8): 947-955. [URI]
[15]
中华医学会检验医学分会. 高通量宏基因组测序技术检测病原微生物的临床应用规范化专家共识[J]. 中华检验医学杂志, 2020, 43(12): 1181-1195.

文章信息

李曼诗, 黄巍峰, 陆一涵
LI Man-shi, HUANG Wei-feng, LU Yi-han
感染性疾病的微生物宏基因组测序结果判读的比较
Comparison of the interpretation of metagenomic next-generation sequencing for infectious diseases
复旦学报医学版, 2021, 48(5): 624-629.
Fudan University Journal of Medical Sciences, 2021, 48(5): 624-629.
Corresponding author
LU Yi-han, E-mail:luyihan@fudan.edu.cn.
基金项目
国家科技重大专项课题(2017ZX10103009-005)
Foundation item
This work was supported by the National Science and Technology Major Project of China (2017ZX10103009-005)

工作空间