On the collection and integration of SARS-CoV-2 genome data

IF 3 Q1 PUBLIC, ENVIRONMENTAL & OCCUPATIONAL HEALTH

Biosafety and Health Pub Date : 2023-08-01 DOI:10.1016/j.bsheal.2023.07.004

Lina Ma , Wei Zhao , Tianhao Huang , Enhui Jin , Gangao Wu , Wenming Zhao , Yiming Bao

{"title":"On the collection and integration of SARS-CoV-2 genome data","authors":"Lina Ma , Wei Zhao , Tianhao Huang , Enhui Jin , Gangao Wu , Wenming Zhao , Yiming Bao","doi":"10.1016/j.bsheal.2023.07.004","DOIUrl":null,"url":null,"abstract":"<div><p>Genome data of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) is essential for virus diagnosis, vaccine development, and variant surveillance. To archive and integrate worldwide SARS-CoV-2 genome data, a series of resources have been constructed, serving as a fundamental infrastructure for SARS-CoV-2 research, pandemic prevention and control, and coronavirus disease 2019 (COVID-19) therapy. Here we present an overview of extant SARS-CoV-2 resources that are devoted to genome data deposition and integration. We review deposition resources in data accessibility, metadata standardization, data curation and annotation; review integrative resources in data source, de-redundancy processing, data curation and quality assessment, and variant annotation. Moreover, we address issues that impede SARS-CoV-2 genome data integration, including low-complexity, inconsistency and absence of isolate name, sequence inconsistency, asynchronous update of genome data, and mismatched metadata. We finally provide insights into data standardization consensus and data submission guidelines, to promote SARS-CoV-2 genome data sharing and integration.</p></div>","PeriodicalId":36178,"journal":{"name":"Biosafety and Health","volume":"5 4","pages":"Pages 204-210"},"PeriodicalIF":3.0000,"publicationDate":"2023-08-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Biosafety and Health","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S2590053623000812","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"PUBLIC, ENVIRONMENTAL & OCCUPATIONAL HEALTH","Score":null,"Total":0}

引用次数: 2

Abstract

Genome data of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) is essential for virus diagnosis, vaccine development, and variant surveillance. To archive and integrate worldwide SARS-CoV-2 genome data, a series of resources have been constructed, serving as a fundamental infrastructure for SARS-CoV-2 research, pandemic prevention and control, and coronavirus disease 2019 (COVID-19) therapy. Here we present an overview of extant SARS-CoV-2 resources that are devoted to genome data deposition and integration. We review deposition resources in data accessibility, metadata standardization, data curation and annotation; review integrative resources in data source, de-redundancy processing, data curation and quality assessment, and variant annotation. Moreover, we address issues that impede SARS-CoV-2 genome data integration, including low-complexity, inconsistency and absence of isolate name, sequence inconsistency, asynchronous update of genome data, and mismatched metadata. We finally provide insights into data standardization consensus and data submission guidelines, to promote SARS-CoV-2 genome data sharing and integration.

查看原文本刊更多论文

关于严重急性呼吸系统综合征冠状病毒2型基因组数据的收集和整合

严重急性呼吸综合征冠状病毒2 (SARS-CoV-2)基因组数据对病毒诊断、疫苗开发和变异监测至关重要。为存档和整合全球SARS-CoV-2基因组数据，构建了一系列资源，为SARS-CoV-2研究、大流行防控和COVID-19治疗提供基础设施。在这里，我们概述了致力于基因组数据沉积和整合的现有SARS-CoV-2资源。综述了沉积资源在数据可及性、元数据标准化、数据管理和注释方面的研究进展;回顾数据源、去冗余处理、数据管理和质量评估以及变体注释方面的综合资源。此外，我们还解决了阻碍SARS-CoV-2基因组数据整合的问题，包括低复杂性、分离株名称不一致和缺失、序列不一致、基因组数据异步更新以及元数据不匹配。最后提出数据标准化共识和数据提交指南，促进SARS-CoV-2基因组数据共享与整合。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊