遗传病注释数据库中基因与变异名称的校验及更正

复旦学报(医学版)

2022, Vol. 49

Issue (4): 514-521 DOI: 10.3969/j.issn.1672-8467.2022.04.006

Contents PDF Abstract Full text Fig/Tab

引用本文

王潇, 王雅琼, 董欣然, 吴冰冰, 王慧君, 卢宇蓝, 周文浩. 遗传病注释数据库中基因与变异名称的校验及更正[J]. 复旦学报医学版, 2022, 49(4): 514-521.

WANG Xiao, WANG Ya-qiong, DONG Xin-ran, WU Bing-bing, WANG Hui-jun, LU Yu-lan, ZHOU Wen-hao. Nomenclature curation of genes and variants in the genetic disease annotation databases[J]. Fudan University Journal of Medical Sciences, 2022, 49(4): 514-521.

遗传病注释数据库中基因与变异名称的校验及更正

王潇 ^▲, 王雅琼 ^▲, 董欣然 , 吴冰冰 , 王慧君 , 卢宇蓝 , 周文浩

国家儿童医学中心/复旦大学附属儿科医院儿科研究院分子医学中心上海 201102

收稿日期：2021-08-06；网络首发时间: 2022-07-11 15:27:30

基金项目：上海市科委科技基金（20Z11900601）

摘要：目的评估常用疾病注释数据库中基因名及变异表示的匹配程度和更新情况，对遗传疾病数据库（OMIM）中的基因名和疾病变异注释数据库（HGMD，ClinVar）中的变异所属转录本按照GENCODE v34参考标准进行校验并对不匹配当前版本的名称进行更正。方法对于OMIM基因，我们以其提供的查询号为媒介，检查OMIM基因名是否与人类基因命名委员会（HGNC）和GENCODE的标准基因名匹配；对于HGMD及ClinVar中的变异所属的转录本，我们评估其在转录本查询号（RefSeq，ENSEMBL）中是否真实存在，以及其版本号是否滞后。结果校验结果显示，OMIM中86.7%的基因名符合参考标准，ClinVar中有83.47%的变异通过校验，而HGMD中仅有18.78%的变异，其转录本与参考版本匹配，另有78.33%的变异所属转录本存在版本滞后的情况。我们对缺失部分信息的基因和变异进行缺失类型的标注；对校验后有出入的变异提供更新后的标准基因名称，转录本查询号和突变表示方式。结论常用的遗传病注释数据库中基因和变异的表示存在一定程度的缺失、滞后及弃用情况。通过对基因名及变异所属转录本的校验及更正，可以有效提高遗传变异数据分析、解读、验证和交流的效率，辅助遗传病诊断和相关科研工作的顺利进行。

关键词：高通量测序注释数据库核准基因名变异命名

Nomenclature curation of genes and variants in the genetic disease annotation databases

WANG Xiao ^▲, WANG Ya-qiong ^▲, DONG Xin-ran , WU Bing-bing , WANG Hui-jun , LU Yu-lan , ZHOU Wen-hao

Center of Molecular Medicine, Pediatrics Research Institute, National Children's Medical Center /Children's Hospital, Fudan University, Shanghai 201102, China

Foundation item: This work was supported by the Scinece and Technology Foundation of Science and Technology Commission of Shanghai Municipality (20Z11900601)

Corresponding author: ZHOU Wen-hao, E-mail: zhouwenhao@fudan.edu.cn.

^▲ WANG Xiao and WANG Ya-qiong contributed equally to this work

Abstract: Objective To evaluate the consistency and updating state of gene and variant nomenclatures in the widely used disease databases, we curated gene names in the genetic disease database (OMIM) and variant nomenclatures in the disease variant annotation databases (HGMD, ClinVar), and corrected mismatched names to the current version based on the GENCODE v34 reference. Methods For OMIM genes, we examined if the disease gene symbols were the same as the standard gene symbols in HGNC and GENCODE through their accession numbers.For the variant transcripts in HGMD and ClinVar, we evaluated if the transcripts existed in the RefSeq and Ensembl references, and whether their versions were up to date. Results Curation results showed that 86.7% of genes in OMIM were correct. In ClinVar, 83.47% of variants passed the curation. Only 18.78% of variants in HGMD whose transcripts matched the reference, and another 78.33% of variants whose transcripts were not up to date.We labeled information for mismatched genes and variants according to their missing type; provided standard gene names, corrected transcript accession numbers for variants that were inconsistent in our curation. Conclusion We found that there are still some problems such as information missing, version inconsistency or abandonment in the commonly used disease annotation databases. By examining and correcting the nomenclatures of genes and variants, we can facilitate the analysis, interpretation, verification, and communication of genetic data in molecular clinical diagnosis and related scientific work.

Key words: high-throughput sequencing annotation database approved gene symbol variants nomenclature

近年来，高通量测序技术（全基因组测序、临床外显子组测序以及基因检测包）在遗传病诊断中扮演着重要角色。从测序数据中识别致病遗传变异，能帮助临床医师明确疾病病因，优化疾病管理方案。高通量测序数据分析的主要流程包括对测序数据的预处理及变异检测、变异注释、变异筛选和变异分类等^[1]。其中，变异的注释是测序数据分析的基础。简单来说，注释的内容主要包括：数据质量、变异的基因组位置、所属基因及转录本、基因型、人群频率、对mRNA及蛋白质的影响、致病性预测，以及疾病相关性；在基因层面，还包括基因名、基因功能、表达模式、参与的通路以及相关的疾病或表型等^[2]。目前已开发出许多成熟的注释工具如ANNOVAR^[3]、VEP等^[4]，可以对变异进行自动注释。这些工具依赖的数据库包括公共疾病数据库，如人类孟德尔遗传疾病在线数据库（Online Mendelian Inheritance in Man，OMIM）^[5]、人类基因突变数据库（the Human Gene Mutation Database，HGMD）^[6]和ClinVar^[7]等。OMIM目前已收集了超过1.6万个基因和8 600个表型信息。HGMD通过人工收集和审核出版文献中的遗传变异信息，截至2020年6月收录超过1万个基因的28万个与疾病相关的遗传变异。ClinVar是一个面向公众免费的数据库，一千三百多个机构向其提供了超过80万条条目，包含超过50万个与疾病相关的遗传变异及相关注释信息。

在人类基因组学迅猛发展的历程中，多种基因名和基因注释版本并行，同一个遗传变异在基因层面和转录本层面有不一致表示方式，这给临床应用和科研交流造成极大的困扰，甚至会导致疾病诊断失败^[8]。目前行业内对于变异的命名主要依据人类基因组变异协会（Human Genome Variation Society，HGVS）标准^[9]，基因名主要依据人类基因命名委员会（HUGO Gene Nomenclature Committee，HGNC）提供的核准基因名^[10-11]。然而由于疾病数据库中收集的信息来源广、时间长，有的甚至在人类基因组计划开展之前，导致基因及变异的命名方式不符合最新标准。此外，注释所参考的数据库版本也在不断更新。美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）提供了全面且权威的基因组检索数据库，包含可供检索的基因查询号（Entrez Gene ID）^[12]和参考序列查询号（RefSeq ID）^[13]。欧洲生物信息所（EMBL-EBI）维护的Ensembl数据库同样记录了所有基因及参考序列的查询号^[14]。GENCODE是基因组功能注释中最常用的数据库，整合ENSEMBL的人工和自动基因注释信息，提供对应RefSeq和ENSEMBL查询号信息^[15]。GENCODE从2009年3月发布的v2b开始，平均每2~3个月更新一版（https://www.gencodegenes.org/human/releases.html）。最近一次的更新主要完善新的蛋白质编码基因、lncRNA以及假基因的注释等^[16]。如此高的更新频率也会导致注释数据库中存在一些尚未更新或被弃用的信息。随着大部分注释数据库中的信息数量增长减缓，总体数量已趋于稳定，可以对数据库中的基因及变异名称的准确性进行校验并提供符合指定参考标准版本的正确表示方式。

我们以GENCODE 2020年4月发布的版本v34作为参考标准，对OMIM（2020年7月版本）中的所有疾病相关基因名及HGMD（2020年7月版本）、ClinVar（2020年7月版本）中的变异逐一进行比对校验。对校验后有出入的变异提供依据指定注释参考更新后的HGNC基因名称，转录本查询号（RefSeq，ENSEMBL）和突变表示方式（HGVS）。该工作可以有效提高遗传变异数据分析、解读、验证和交流的效率，辅助遗传病诊断和相关科研工作的顺利进行。

资料和方法

数据来源 OMIM基因注释信息下载自OMIM网站（https://omim.org/downloads，2020年7月）；HGMD变异注释文件下载自HGMD网站（http://www.hgmd.cf.ac.uk/ac/index.php，2020年7月）；ClinVar变异注释文件下载自NCBI ClinVar网站（https://www.ncbi.nlm.nih.gov/clinvar/，2020年7月）；人基因组转录本注释信息（ENSEMBL转录本）以及ENSEMBL转录本查询号与NCBI RefSeq转录本查询号对应列表均下载自GENCODE网站（https://www.gencodegenes.org/human/release_34lift37.html，版本34，2020年4月）。基因注释信息（包含Entrez及ENSEMBL基因查询号）同样下载自GENCODE官网（版本19和34，2020年4月）。HGNC的核准基因名及对应到其他数据库的查询号信息下载自HGNC数据库（https://www.genenames.org/download/custom/，2020年7月）。所用人基因组版本均为GRCh37。

OMIM基因名校验 由于OMIM对每个基因提供了OMIM查询号及其对应的NCBI Entrez及ENSEMBL查询号，我们对OMIM的所有基因分别给出校验后的HGNC和GENCODE两种标准基因名，校验结果以参考列表的形式展示（表 1）。具体做法如下：（1）以HGNC为标准的校验。从HGNC网站下载到HGNC核准基因名与OMIM查询号、Entrez基因查询号的对应关系列表。对OMIM中的所有基因首先按照OMIM查询号在HGNC中进行检索，给出其对应的HGNC核准基因名；若该基因在HGNC中未匹配到OMIM查询号，则进一步用OMIM提供的Entrez基因查询号在HGNC中检索并给出对应的HGNC核准基因名；若仍未匹配到，则认为其没有HGNC核准基因名，标记为noOMIM2HGNC；若OMIM未提供某个基因的Entrez基因查询号，则直接标记为noEntrez。（2）以GENCODE为标准的校验。在GENCODE v19和v34两个版本的数据库中用ENSEBML查询号进行检索，给出其对应的GENCODE标准基因名；若该基因在GENCODE v19或v34的版本中未匹配到ENSEMBL查询号，则认为其没有GENCODE标准基因名，标记为noOMIM2ENSG；若OMIM未提供某个基因的ENSEMBL查询号，则直接标记为noENSG。

表 1 OMIM基因校验情况示例 Tab 1 Examples of gene validation in OMIM

OMIM ID	OMIM gene	HGNC	GENCODE（v34）	GENCODE（v19）
616765	SAMD11，MRS	SAMD11	SAMD11	SAMD11
606799	STRK1	noEntrez	noENSG	noENSG
607671	DYT13	noOMIM2HGNC	noENSG	noENSG
616848	MEIR1，KIAA1610	MIER1	MIER1	MIER1
601749	GLML，GVM，VMGLOM	GLMN	GLMN	GLMN
604008	PTPRZ2	PTPRZ2	noENSG	noENSG
611172	MIR34A，MIRN34A	MIR34A	noOMIM2ENSG	noOMIM2ENSG
614515	GPR179，GPR158L，GPR158L1，CSNB1E	GPR179	GPR179	noOMIM2ENSG
616125	PRMT9，PRMT10	PRMT9	PRMT9	PRMT10
The column names are OMIM accession number（OMIM ID），OMIM gene name（OMIM gene），HGNC official gene symbol（HGNV），gene symbols in GENECODE v34（GENECODE v34）and an earlier version v19（GENCODE v19）.

表选项

HGMD及ClinVar的变异匹配校验 由于HGMD和ClinVar中的变异以HGVS规则展示，我们以GENECODE数据库版本v34中记录的NCBI RefSeq和ENSEMBL参考序列查询号为标准，对所有变异以HGVS规则表示时所使用的参考序列查询号做校验，校验结果以参考列表的形式展示。具体做法如下：（1）查看数据库是否提供变异的HGVS名称，若未提供相应的HGVS，则在HGVS DNA，HGVS protein，RefSeq及ENSEMBL列各标记为无转录本编号（noNM）、无蛋白质编号（noNP）、无RefSeq查询号（noRefSeq）和无ENSEMBL查询号（noENST）。（2）若数据库提供了变异的HGVS，则判断变异是否发生在外显子上，若不在外显子上，进一步判断该变异HGVS所属RefSeq转录本是否存在（在GENCODE v34版本中是否有ENSEMBL转录本与之匹配），若不存在，则将RefSeq列和ENSEMBL列标记为noSite2NM和noSite2ENST；若RefSeq转录本存在，则匹配当前版本RefSeq转录本及ENSEMBL转录本查询号。若RefSeq转录本无法匹配到ENSEMBL转录本，则将ENSEMBL列标记为noENST2NM。（3）若变异的HGVS显示其发生在外显子上，同样判断HGVS中的RefSeq转录本是否存在。若不存在，则从变异的基因组坐标入手，利用bedtools intersect工具将其匹配到所有可能的ENSEMBL转录本上，若没有匹配，则ENSEMBL列标记为noENST2Site。进一步匹配到当前版本的RefSeq转录本并给出查询号，若没有匹配，则RefSeq列标记为noNM2ENST。（4）若变异处于外显子且HGVS中的RefSeq转录本存在，则将该RefSeq转录本匹配到当前版本的RefSeq转录本查询号，并匹配到ENSEMBL转录本，若未匹配，ENSEMBL列标记为noENST2NM。若匹配到ENSEMBL转录本，则查询变异所处的基因组坐标是否位于该ENSEMBL转录本上。若不在该转录本上，则按照变异的基因组坐标匹配所有可能的ENSEMBL转录本，若没有匹配，则RefSeq列和ENSEMBL列各标记为noNM2Site和noENST2Site。进一步匹配到当前版本的RefSeq转录本并给出查询号，若没有，则RefSeq列标记为noNM2ENST。否则即校验通过。

结果

OMIM基因名的校验 为了确保在基因诊断和研究交流时采用正确的基因，我们对最常用的遗传病致病基因数据库OMIM中的所有基因名进行校验。基于NCBI的Entrez数据库和ENSEMBL数据库提供的基因唯一查询号分别比较OMIM基因与HGNC和GENCODE对应的基因名是否吻合（图 1A）。校验结果见图 2，信息示例见表 1，共有17 204个OMIM基因编号，对应17 201个基因，其中有3个基因是重复的，即TEC，PLCXD1和XGR。在OMIM更新版本中（2020年10月），TEC和PLCXD1已保留了唯一正确的条目，而XGR（处于X与Y染色体同源区域）已被移除。86.7%的OMIM给出的基因名与HGNC的核准基因名是相同的，但仍然存在小部分基因名缺失或错误的情况，其中有972个（5.65%）OMIM基因名与HGNC核准基因名不匹配，另外有277个（1.61%）基因未提供Entrez基因查询号（noEntrez），1 039个（6.04%）OMIM基因给出的Entrez基因查询号没有匹配到HGNC核准基因名（noOMIM2HGNC）。例如，STRK1（MIM：606799）没有对应的Entrez基因查询号（noEntrez），DYT13（MIM：607671）没有匹配的HGNC核准基因名（noOMIM2HGNC）。再如，MEIR1（MIM：616848）校正后的核准基因名为MIER1，属于拼写错误。另一个例子是GLMN（MIM：601749），在OMIM中给出了GLML，GVM，VMGLOM 3种非正式的基因名。在所有OMIM校验失败的基因中，我们列出了73个与HGNC核准基因名不符的具有表型描述的OMIM致病基因及其信息（附表2），需要在进行基因注释及诊断报告时予以注意。

A: Validation of gene symbols in OMIM; B: Validation of variants in HGMD and ClinVar. 图 1 基因名及变异校验方法流程 Fig 1 Validation pipeline for gene symbols and variants

图选项

图 2 OMIM、HGMD及ClinVar校验统计 Fig 2 Validation summary of OMIM, HGMD and ClinVar

图选项

OMIM与GENCODE数据库比较结果显示1 580个OMIM基因没有给出ENSEMBL的基因查询号（noENSG，如OMIM基因PTPRZ2。ID：604008），另外有117个OMIM基因的ENSEMBLE基因ID没有匹配到GENCODE的基因名上（noOMIM2ENSG，如OMIM基因MIR34A。ID：611172）。由于基因名本身在不断更新，我们提供了GENCODE两个版本v19和v34的基因名，共有952个OMIM基因在GENCODE两个版本中是不同的。例如OMIM基因GPR179（ID：614515）在GENCODE v19中是缺失的；OMIM基因PRMT9（ID：616125）在v19的名字为PRMT10。

HGMD和ClinVar变异的校验 基因诊断中正确描述致病基因的遗传变异同样至关重要。我们对变异描述遵循HGVS规则，例如基因区的单核苷酸变异或小片段插入缺失变异需标明参考序列（转录本）、位置和变异类型。由于大量基因对应多个转录本，基因组上同一位置的变异对不同转录本可能造成不同影响，因此确定变异所属的转录本尤为重要。由于预测方法及实验技术的不断更新，转录本本身序列及其查询号都在不断更新，使用错误或滞后的转录本信息会给基因诊断注释及验证带来困扰。因此，对于两个常用的致病变异注释数据库HGMD和ClinVar，我们以GENCODE v34作为参考标准，对HGMD和ClinVar提供的每个变异的HGVS所属转录本进行RefSeq和ENSEMBL转录本查询号的匹配和校验（图 1B，附表1）。

统计结果见图 2、表 2。ClinVar和HGMD中分别有83.47%和18.78%的变异，与参考注释完全匹配。对于HGMD，即便忽略蛋白质注释只看mRNA注释，也仅有21.33%的变异给出的mRNA转录本查询号完全正确。如果从转录本的校验率来看，HGMD的变异所属的RefSeq转录本共有10 859条，仅17.73%与参考注释匹配，ClinVar的变异所属转录本共有12 291条，其中98.01%与参考注释匹配。对于HGMD来说，有78.33%的变异属于其所在的转录本版本不是标准的GENCODE v34的版本（如变异CM1613956，NM_152486.2校验后应为NM_152486.3），亟待更新。

表 2 HGMD和ClinVar变异校验数量统计 Tab 2 Count summary of variants in HGMD and ClinVar

[n(%)]
Variant counts	HGMD	ClinVar
Total	263 143	620 431
Miss HGVS DNA notations	117（0.04）	5 351（0.86）
Validation passed	49 415（18.78）	517 877（83.47）
Mismatch of RefSeq versions	206 132（78.33）	96 007（15.47）
Mismatch of RefSeq accessions	703（0.27）	1 061（0.17）
noSite2NM/noSite2ENST	44（0.02）	119（0.02）
noNM2Site/noENST2Site	21（0.01）	16（0.01）
noNM2ENST	0	0
noENST2NM	0	0
Miss HGVS protein notations	6 711（2.55）	NA^a
^a Only RefSeq transcript accessions were validated in ClinVar variants due to its lack of RefSeq protein accessions.

表选项

另外，两个数据库均存在少量变异标注的转录本与参考注释不一致的情况（HGMD：0.27%，ClinVar：0.17%）。如HGMD变异CD153139标注转录本查询号为NM_020794.2，该转录本由于缺乏足够的证据而被当前RefSeq数据库移除（https://www.ncbi.nlm.nih.gov/nuccore/NM_020794.2）。HGMD数据库中703个变异共对应47条独立的RefSeq转录本（附表3），这些转录本因为缺乏明确的实验证据、不编码蛋白质、包含内含子序列或错误编码到邻近基因等原因已被弃用，或被其他RefSeq转录本查询号替代（如NM_001257360.1替代为NM_001368809），或是NCBI中独有（ENSEMBL中未找到对应记录）的转录本。

其他校验错误还包括（附表1）：HGVS信息缺失（如CM188806）、非外显子区的变异、HGVS中的RefSeq转录本不存在（如HGMD变异CS1912872所在转录本NM_001291381.1，该转录本通过预测得到，尚未经实验证实）、外显子区的变异HGVS中的RefSeq未在GENCODE v34中收录且根据基因组位置也无法匹配到ENSEMBL转录本上（如HGMD变异CM1813348所在转录本NM_001171935.1），以及未给出变异所在转录本预测的RefSeq蛋白质查询号（如HGMD变异CR133723）。

讨论

遗传变异的准确表示是变异数据分析的基础，生物信息分析人员常用ANNOVAR、VEP等综合注释工具对高通量测序分析数据进行一步式注释，而这些工具底层依赖的注释资源是HGMD等数据库。我们在实际的分子诊断工作中，发现常用疾病数据库注释出来的部分基因或变异的命名是错误的，例如查不到其来源，与文献或其他来源给出的命名不一致，因此对常用注释数据库进行基因和变异的校验是减少注释错误必不可少的一环。我们首次对这些数据库中所有的基因名和变异所属转录本进行名称评估，并建议相关科研及工作人员在实际过程中尽可能选用最新基因注释版本，并在分析报告中标注基因的版本号，便于后续人工核查和追溯。本研究对3个疾病注释数据库OMIM基因名和HGMD、ClinVar的变异进行校验，结果显示数据库中大部分的基因名和变异的注释能与参考注释匹配。然而，在OMIM中仍有少部分基因存在核准基因名缺失或基因名变更的情况。HGMD中也存在大量的变异所标注RefSeq转录本的版本需要更新；HGMD及ClinVar中均存在少量变异所标注的转录本已被弃用或查询号改变。在涉及这些基因的变异解读和研究中需要格外注意。

我们选用GENCODE参考注释，是由于GENCODE注释系统广泛地应用于大型国际研究项目，如DNA元件百科全书项目（Encyclopedia of DNA Elements，ENCODE）^[17]、基因型和组织表达关联数据库（Genotype-Tissue Expression，GTEx）^[18]、癌症基因图谱计划（The Cancer Genome Atlas，TCGA）^[19]、基因组集成联合（Genome Aggregation Database，gnomAD）^[20]、千人基因组项目（1000 Genomes Project）^[21]和人类细胞图谱项目（Human Cell Atlas，HCA）^[22]等。采用GENCODE注释标注便于我们在数据分析过程中整合各大数据库的信息，我们的工具提供新老版本的GENCODE注释编号，也便于相关人员在变异的解读和后续研究过程中，在各个数据库在线平台进行人工检索查询。由于GENCODE注释仍在持续更新，本文展现的校验结果具有时效性，但我们开发的方法能较为方便地提供更新的校验结果。除了参考注释，我们所校验的3个数据库本身也在不断更新与修正。截至2022年1月，OMIM已记录了17 857个OMIM条目，与旧版相比，废除了19个条目，新增672个条目，在17 185个同旧版本相同的条目中（OMIM查询号不变），更新了666个基因名。新版HGMD（2021年11月）收录了315 143条变异记录，与旧版相比，废除了17条记录，新增52 017条记录，对于其中263 126个查询号未改变的变异，有247 144个位点的转录本记录发生更新（约94%），进一步证明旧版本的HGMD中所记录的位点所属转录本号确实存在大量版本滞后的情况。新版ClinVar（2022年1月）所记录的变异条目已达到907 441条，与旧版相比，废除了4 447条记录，新增291 457条记录，但是其剩余的615 984个变异所属的转录本均未在新版本中更新，这也说明我们工作的必要性。特别是在临床报告解读过程中，变异标注的基因名和转录本编号是重要的参考依据，也是后续实验验证的凭据。我们在实践中发现，向实验人员提供准确完整的RefSeq转录本查询号，包括版本号（如NM_152486.3中“.3”为版本号）是必要的。因为相同的转录本号下不同的版本代表的mRNA序列有较大差异。

另外，在对变异进行转录本的校验时，我们发现HGMD中同一个基因组坐标上的变异会有属于多个转录本的情况，这样的变异有18 248个。在遇到这些变异时，需要人工核查以给出尽量准确的表示方式。在实践中，对于多个转录的情况，一般会优先选择变异影响最严重的转录本，即优先考虑导致无义突变，其次是错义突变的转录本。在基因区域层面上优先考虑位于外显子、剪切位点等区域上的变异所属的转录本，而后考虑位于UTR、内含子或基因间区的转录本。在特定情况下变异影响最严重的转录本不一定是功能最重要的转录本，因此可以采取其他转录本选择方式，例如APPRIS数据库通过蛋白质结构、序列功能和保守程度为每个蛋白质编码基因定义主要转录本（principal isoform）^[23]，NCBI与EMBI-EBI合作的MANE项目（Matched Annotation from NCBI and EMBL-EBI，MANE）（https://www.ncbi.nlm.nih.gov/refseq/MANE/）通过专家审核和计算方法整合RefSeq和ENSEMBL-GENCODE注释信息，为每个蛋白质编码基因选择高质量的代表性转录组。也有最新研究提出需要综合考虑不同转录本在特定组织中的表达量^[24]，来选择转录本进行变异的解读。

本文研究了一种便捷的遗传变异表示的校验方法，并提供了更新的注释参考信息，为变异数据分析、临床解读、遗传咨询及科研交流提供了有利的参考依据。

作者贡献声明 王潇，王雅琼数据采集分析，论文撰写和修订，图表绘制。董欣然，吴冰冰，王慧君可行性分析与监督指导。卢宇蓝，周文浩论文构思与设计。

利益冲突声明 所有作者均声明不存在利益冲突。

参考文献

[1]	黎籽秀, 刘博, 徐凌丽, 等. 高通量测序数据分析和临床诊断流程的解读[J]. 中国循证儿科杂志, 2015, 10(1): 19-24. [DOI]
[2]	SALGADO D, BELLGARD MI, DESVIGNES JP, et al. How to identify pathogenic mutations among all those variations: variant annotation and filtration in the genome sequencing era[J]. Hum Mutat, 2016, 37(12): 1272-1282. [DOI]
[3]	WANG K, LI M, HAKONARSON H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data[J]. Nucleic Acids Res, 2010, 38(16): e164-e164. [DOI]
[4]	MCLAREN W, PRITCHARD B, RIOS D, et al. Deriving the consequences of genomic variants with the Ensembl API and SNP Effect Predictor[J]. Bioinformatics, 2010, 26(16): 2069-2070. [DOI]
[5]	AMBERGER JS, BOCCHINI CA, SCOTT AF, et al. OMIM. org: leveraging knowledge across phenotype-gene relationships[J]. Nucleic Acids Res, 2019, 47(D1): D1038-D1043. [DOI]
[6]	STENSON PD, MORT M, BALL EV, et al. The Human Gene Mutation Database (HGMD®): optimizing its use in a clinical diagnostic or research setting[J]. Hum Genet, 2020, 139(10): 1197-1207. [DOI]
[7]	LANDRUM MJ, CHITIPIRALLA S, BROWN GR, et al. ClinVar: improvements to accessing data[J]. Nucleic Acids Res, 2020, 48(D1): D835-D844. [DOI]
[8]	TONG MY, CASSA CA, KOHANE IS. Automated validation of genetic variants from large databases: ensuring that variant references refer to the same genomic locations[J]. Bioinformatics, 2011, 27(6): 891-893. [DOI]
[9]	DUNNEN JTDEN, DALGLEISH R, MAGLOTT DR, et al. HGVS recommendations for the description of sequence variants: 2016 update[J]. Hum Mutat, 2016, 37(6): 564-569. [DOI]
[10]	POVEY S, LOVERING R, BRUFORD E, et al. The HUGO gene nomenclature committee (HGNC)[J]. Hum Genet, 2001, 109(6): 678-680. [DOI]
[11]	SHOENBILL K, FOST N, TACHINARDI U, et al. Genetic data and electronic health records: a discussion of ethical, logistical and technological considerations[J]. J Am Med Inform Assoc, 2014, 21(1): 171-180. [DOI]
[12]	MAGLOTT D, OSTELL J, PRUITT KD, et al. Entrez Gene: gene-centered information at NCBI[J]. Nucleic Acids Res, 2005, 33(suppl_1): D54-D58.
[13]	PRUITT KD, TATUSOVA T, MAGLOTT DR. NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins[J]. Nucleic Acids Res, 2005, 33(suppl_1): D501-D504.
[14]	HUBBARD T, BARKER D, BIRNEY E, et al. The Ensembl genome database project[J]. Nucleic Acids Res, 2002, 30(1): 38-41. [DOI]
[15]	HARROW J, FRANKISH A, GONZALEZ JM, et al. GENCODE: the reference human genome annotation for The ENCODE Project[J]. Genome Res, 2012, 22(9): 1760-1774. [DOI]
[16]	FRANKISH A, DIEKHANS M, FERREIRA AM, et al. GENCODE reference annotation for the human and mouse genomes[J]. Nucleic Acids Res, 2019, 47(D1): D766-D773. [DOI]
[17]	CONSORTIUM EP. The ENCODE (ENCyclopedia of DNA elements) project[J]. Science, 2004, 306(5696): 636-640. [DOI]
[18]	LONSDALE J, THOMAS J, SALVATORE M, et al. The genotype-tissue expression (GTEx) project[J]. Nat Genet, 2013, 45(6): 580-585. [DOI]
[19]	TOMCZAK K, CZERWIŃSKA P, WIZNEROWICZ M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemp Oncol, 2015, 19(1A): A68.
[20]	KOCH L. Exploring human genomic diversity with gnomAD[J]. Nat Rev Genet, 2020, 21(8): 448-448. [DOI]
[21]	CLARKE L, ZHENG-BRADLEY X, SMITH R, et al. The 1000 Genomes Project: data management and community access[J]. Nat Methods, 2012, 9(5): 459-462. [DOI]
[22]	AVIV R, TEICHMANN SA, LANDER ES, et al. The human cell atlas[J]. Elife, 2017, 6: e27041. [DOI]
[23]	RODRIGUEZ JM, POZO F, CERDÁN-VÉLEZ D, et al. APPRIS: selecting functionally important isoforms[J]. Nucleic Acids Res, 2021, 50(D1): D54-D59.
[24]	CUMMINGS BB, KARCZEWSKI KJ, KOSMICKI JA, et al. Transcript expression-aware annotation improves rare variant interpretation[J]. Nature, 2020, 581(7809): 452-458. [DOI]

文章信息

王潇, 王雅琼, 董欣然, 吴冰冰, 王慧君, 卢宇蓝, 周文浩

WANG Xiao, WANG Ya-qiong, DONG Xin-ran, WU Bing-bing, WANG Hui-jun, LU Yu-lan, ZHOU Wen-hao

遗传病注释数据库中基因与变异名称的校验及更正

Nomenclature curation of genes and variants in the genetic disease annotation databases

复旦学报医学版, 2022, 49(4): 514-521.

Fudan University Journal of Medical Sciences, 2022, 49(4): 514-521.

Corresponding author
ZHOU Wen-hao, E-mail: zhouwenhao@fudan.edu.cn.

基金项目
上海市科委科技基金（20Z11900601）

Foundation item
This work was supported by the Scinece and Technology Foundation of Science and Technology Commission of Shanghai Municipality (20Z11900601)

文章信息

工作空间