更新分裂,块状和洗牌:调和GenBank名称与标准化的鸟类分类

Peter A. Hosner, Min Zhao, R. Kimball, E. Braun, J. G. Burleigh
{"title":"更新分裂,块状和洗牌:调和GenBank名称与标准化的鸟类分类","authors":"Peter A. Hosner, Min Zhao, R. Kimball, E. Braun, J. G. Burleigh","doi":"10.1093/ornithology/ukac045","DOIUrl":null,"url":null,"abstract":"ABSTRACT Biodiversity research has advanced by testing expectations of ecological and evolutionary hypotheses through the linking of large-scale genetic, distributional, and trait datasets. The rise of molecular systematics over the past 30 years has resulted in a wealth of DNA sequences from around the globe. Yet, advances in molecular systematics also have created taxonomic instability, as new estimates of evolutionary relationships and interpretations of species limits have required widespread scientific name changes. Taxonomic instability, colloquially “splits, lumps, and shuffles,” presents logistical challenges to large-scale biodiversity research because (1) the same species or sets of populations may be listed under different names in different data sources, or (2) the same name may apply to different sets of populations representing different taxonomic concepts. Consequently, distributional and trait data are often difficult to link directly to primary DNA sequence data without extensive and time-consuming curation. Here, we present RANT: Reconciliation of Avian NCBI Taxonomy. RANT applies taxonomic reconciliation to standardize avian taxon names in use in NCBI GenBank, a primary source of genetic data, to a widely used and regularly updated avian taxonomy: eBird/Clements. Of 14,341 avian species/subspecies names in GenBank, 11,031 directly matched an eBird/Clements; these link to more than 6 million nucleotide sequences. For the remaining unmatched avian names in GenBank, we used Avibase's system of taxonomic concepts, taxonomic descriptions in Cornell's Birds of the World, and DNA sequence metadata to identify corresponding eBird/Clements names. Reconciled names linked to more than 600,000 nucleotide sequences, ∼9% of all avian sequences on GenBank. Nearly 10% of eBird/Clements names had nucleotide sequences listed under 2 or more GenBank names. Our taxonomic reconciliation is a first step towards rigorous and open-source curation of avian GenBank sequences and is available at GitHub, where it can be updated to correspond to future annual eBird/Clements taxonomic updates. LAY SUMMARY 23% of avian names on GenBank do not match eBird/Clements, a widely used standardized avian taxonomy. More than 600,000 nucleotide sequences on GenBank are associated with names that do not match eBird/Clements. 10% of eBird/Clements names have nucleotide sequences listed under multiple GenBank names. We provide an open-source taxonomic reconciliation to mitigate difficulties associated with non-standardized name use for GenBank sequences. RESUMEN La investigación sobre biodiversidad ha avanzado al evaluar las expectativas de las hipótesis ecológicas y evolutivas a través de la vinculación de bases de datos genéticos, de distribución y de rasgos a gran escala. El auge de la sistemática molecular en los últimos 30 años ha dado como resultado una gran cantidad de secuencias de ADN de todo el mundo. Sin embargo, los avances en la sistemática molecular también han creado inestabilidad taxonómica, ya que las nuevas estimaciones de las relaciones evolutivas y las interpretaciones de los límites de las especies han requerido cambios generalizados en los nombres científicos. La inestabilidad taxonómica, coloquialmente llamada “divisiones, agrupamientos y reorganizaciones,” presenta desafíos logísticos para la investigación de la biodiversidad a gran escala porque (1) las mismas especies o conjuntos de poblaciones pueden estar listados con diferentes nombres en diferentes fuentes de datos, o (2) el mismo nombre puede aplicarse a diferentes conjuntos de poblaciones representando diferentes conceptos taxonómicos. En consecuencia, los datos de distribución y rasgos a menudo son difíciles de vincular directamente a los datos primarios de secuencias de ADN sin una curación extensa y demandante de tiempo. Aquí, presentamos RANT (por sus siglas en inglés): reconciliación de la taxonomía aviar del Centro Nacional para la Información Biotecnológica (CNIB). RANT aplica la reconciliación taxonómica para estandarizar los nombres de taxones aviares en uso en el GenBank de CNIB, una fuente principal de datos genéticos, con la taxonomía aviar ampliamente utilizada y actualizada periódicamente de eBird/Clements. De los 14.341 nombres de especies/subespecies de aves en GenBank, 11.031 coincidieron directamente con eBird/Clements; estos se vinculan a más de 6 millones de secuencias de nucleótidos. Para los restantes nombres de aves no coincidentes en GenBank, utilizamos el sistema de conceptos taxonómicos de Avibase, descripciones taxonómicas en Aves del Mundo de Cornell y metadatos de secuencias de ADN para identificar los nombres correspondientes de eBird/Clements. Los nombres reconciliados vincularon a más de 600.000 secuencias de nucleótidos, ∼9% de todas las secuencias de aves en GenBank. Casi el 10% de los nombres de eBird/Clements tuvieron secuencias de nucleótidos enumeradas bajo dos o más nombres en GenBank. Nuestra reconciliación taxonómica es un primer paso hacia la curación rigurosa y de código abierto de las secuencias aviares de GenBank y está disponible en GitHub, donde se puede actualizar para que corresponda con las futuras actualizaciones taxonómicas anuales de eBird/Clements.","PeriodicalId":19617,"journal":{"name":"Ornithology","volume":"55 1","pages":"1 - 15"},"PeriodicalIF":0.0000,"publicationDate":"2022-08-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":"{\"title\":\"Updating splits, lumps, and shuffles: Reconciling GenBank names with standardized avian taxonomies\",\"authors\":\"Peter A. Hosner, Min Zhao, R. Kimball, E. Braun, J. G. Burleigh\",\"doi\":\"10.1093/ornithology/ukac045\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"ABSTRACT Biodiversity research has advanced by testing expectations of ecological and evolutionary hypotheses through the linking of large-scale genetic, distributional, and trait datasets. The rise of molecular systematics over the past 30 years has resulted in a wealth of DNA sequences from around the globe. Yet, advances in molecular systematics also have created taxonomic instability, as new estimates of evolutionary relationships and interpretations of species limits have required widespread scientific name changes. Taxonomic instability, colloquially “splits, lumps, and shuffles,” presents logistical challenges to large-scale biodiversity research because (1) the same species or sets of populations may be listed under different names in different data sources, or (2) the same name may apply to different sets of populations representing different taxonomic concepts. Consequently, distributional and trait data are often difficult to link directly to primary DNA sequence data without extensive and time-consuming curation. Here, we present RANT: Reconciliation of Avian NCBI Taxonomy. RANT applies taxonomic reconciliation to standardize avian taxon names in use in NCBI GenBank, a primary source of genetic data, to a widely used and regularly updated avian taxonomy: eBird/Clements. Of 14,341 avian species/subspecies names in GenBank, 11,031 directly matched an eBird/Clements; these link to more than 6 million nucleotide sequences. For the remaining unmatched avian names in GenBank, we used Avibase's system of taxonomic concepts, taxonomic descriptions in Cornell's Birds of the World, and DNA sequence metadata to identify corresponding eBird/Clements names. Reconciled names linked to more than 600,000 nucleotide sequences, ∼9% of all avian sequences on GenBank. Nearly 10% of eBird/Clements names had nucleotide sequences listed under 2 or more GenBank names. Our taxonomic reconciliation is a first step towards rigorous and open-source curation of avian GenBank sequences and is available at GitHub, where it can be updated to correspond to future annual eBird/Clements taxonomic updates. LAY SUMMARY 23% of avian names on GenBank do not match eBird/Clements, a widely used standardized avian taxonomy. More than 600,000 nucleotide sequences on GenBank are associated with names that do not match eBird/Clements. 10% of eBird/Clements names have nucleotide sequences listed under multiple GenBank names. We provide an open-source taxonomic reconciliation to mitigate difficulties associated with non-standardized name use for GenBank sequences. RESUMEN La investigación sobre biodiversidad ha avanzado al evaluar las expectativas de las hipótesis ecológicas y evolutivas a través de la vinculación de bases de datos genéticos, de distribución y de rasgos a gran escala. El auge de la sistemática molecular en los últimos 30 años ha dado como resultado una gran cantidad de secuencias de ADN de todo el mundo. Sin embargo, los avances en la sistemática molecular también han creado inestabilidad taxonómica, ya que las nuevas estimaciones de las relaciones evolutivas y las interpretaciones de los límites de las especies han requerido cambios generalizados en los nombres científicos. La inestabilidad taxonómica, coloquialmente llamada “divisiones, agrupamientos y reorganizaciones,” presenta desafíos logísticos para la investigación de la biodiversidad a gran escala porque (1) las mismas especies o conjuntos de poblaciones pueden estar listados con diferentes nombres en diferentes fuentes de datos, o (2) el mismo nombre puede aplicarse a diferentes conjuntos de poblaciones representando diferentes conceptos taxonómicos. En consecuencia, los datos de distribución y rasgos a menudo son difíciles de vincular directamente a los datos primarios de secuencias de ADN sin una curación extensa y demandante de tiempo. Aquí, presentamos RANT (por sus siglas en inglés): reconciliación de la taxonomía aviar del Centro Nacional para la Información Biotecnológica (CNIB). RANT aplica la reconciliación taxonómica para estandarizar los nombres de taxones aviares en uso en el GenBank de CNIB, una fuente principal de datos genéticos, con la taxonomía aviar ampliamente utilizada y actualizada periódicamente de eBird/Clements. De los 14.341 nombres de especies/subespecies de aves en GenBank, 11.031 coincidieron directamente con eBird/Clements; estos se vinculan a más de 6 millones de secuencias de nucleótidos. Para los restantes nombres de aves no coincidentes en GenBank, utilizamos el sistema de conceptos taxonómicos de Avibase, descripciones taxonómicas en Aves del Mundo de Cornell y metadatos de secuencias de ADN para identificar los nombres correspondientes de eBird/Clements. Los nombres reconciliados vincularon a más de 600.000 secuencias de nucleótidos, ∼9% de todas las secuencias de aves en GenBank. Casi el 10% de los nombres de eBird/Clements tuvieron secuencias de nucleótidos enumeradas bajo dos o más nombres en GenBank. Nuestra reconciliación taxonómica es un primer paso hacia la curación rigurosa y de código abierto de las secuencias aviares de GenBank y está disponible en GitHub, donde se puede actualizar para que corresponda con las futuras actualizaciones taxonómicas anuales de eBird/Clements.\",\"PeriodicalId\":19617,\"journal\":{\"name\":\"Ornithology\",\"volume\":\"55 1\",\"pages\":\"1 - 15\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-08-26\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"3\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Ornithology\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.1093/ornithology/ukac045\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Ornithology","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1093/ornithology/ukac045","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 3

摘要

生物多样性研究通过连接大规模的遗传、分布和性状数据集来测试生态和进化假设的期望,从而取得了进展。在过去的30年里,分子系统学的兴起带来了全球范围内丰富的DNA序列。然而,分子系统学的进步也造成了分类学的不稳定性,因为对进化关系的新估计和物种界限的解释需要广泛的学名更改。分类学的不稳定性,通俗地说就是“分裂、块状和混乱”,给大规模生物多样性研究带来了后勤方面的挑战,因为(1)相同的物种或种群集可能在不同的数据源中以不同的名称列出,或者(2)相同的名称可能适用于代表不同分类概念的不同种群集。因此,如果没有广泛和耗时的管理,分布和性状数据通常很难直接与原始DNA序列数据联系起来。在此,我们提出了RANT:鸟类NCBI分类的调和。RANT采用分类协调的方法,对广泛使用并定期更新的鸟类分类系统eBird/ elements中NCBI GenBank(遗传数据的主要来源)中使用的鸟类分类单元名称进行标准化。在GenBank中的14,341个鸟类物种/亚种名称中,有11,031个与eBird/Clements直接匹配;这些链接到超过600万个核苷酸序列。对于GenBank中剩余的未匹配的鸟类名称,我们使用Avibase的分类概念系统、Cornell’s Birds of the World中的分类描述和DNA序列元数据来识别相应的eBird/ elements名称。与60多万个核苷酸序列相关联的名称核对,约占GenBank上所有鸟类序列的9%。近10%的eBird/Clements名称的核苷酸序列在2个或更多的GenBank名称中列出。我们的分类调整是朝着严格和开源的鸟类基因库序列管理迈出的第一步,可以在GitHub上获得,在那里它可以更新,以对应未来的年度eBird/ elements分类更新。GenBank上23%的鸟类名称与广泛使用的标准化鸟类分类eBird/Clements不匹配。GenBank上超过60万个核苷酸序列的名称与eBird/Clements不匹配。10%的eBird/Clements名称包含多个GenBank名称下列出的核苷酸序列。我们提供了一个开源的分类调节,以减轻与GenBank序列的非标准化名称使用相关的困难。RESUMEN La investigación sobre biodiversidad .在生物多样性方面,所有的评价都是有预期的,如:(hipótesis ecológicas)通过进化和遗传变异,如:(vinculación)通过遗传变异,如(distribución)通过遗传变异,如(gran escala)。El auge de la sistemática molecular enlos últimos 30 años ha dado como resultado una gran cantidad de secuencias de de de El mundo。在过去的十年中,关于分子遗传变异的研究进展在sistemática分子遗传变异的研究进展在不确定遗传变异的研究进展taxonómica,关于遗传变异的研究进展在解释遗传变异的研究进展límites,关于遗传变异的研究进展在遗传变异的研究进展在científicos。La inestabilidad taxonómica, colquialmente llamada“divisiones, agrupamientos y reorganizacones”,提出desafíos logísticos para La investigación de La biodiversidad a gran escala porque (1) as mismas species of conjuntos de poblaciones (1) as mismas species of conjuntos de poblaciones (2) el mismo nombre puede应用(1)不同conjuntos de poblaciones代表不同的概念taxonómicos。连续地,将数据存储在distribución上,并将菜单存储在difíciles上,将数据存储在主要位置上,将数据存储在ADN上,将数据存储在curación上,将数据存储在扩展位置上。Aquí,现发言:reconciliación de la taxonomía国家信息中心Información Biotecnológica (CNIB)。该报告的主要内容有:1 .应用程序:reconciliación taxonómica参考标准的数据来源:cunib的基因银行,1 .参考标准的数据来源:cunib的基因银行,1 .参考标准的数据来源:taxonomía基因资源的扩大利用和实际利用:periódicamente参考数据来源:cunib / element。在GenBank中检索了14.341个物种/亚种,在bird / elements中检索了11.031个物种/亚种;Estos se vinculan a más de 600万de secuencias de nucleótidos。Para los restantes nombres de aves no conincides en GenBank, utilizamos el sistema de conceptos taxonómicos de Avibase, descripciones taxonómicas en aves del Mundo de Cornell y metadatos de secuencias de ADN Para identiidenties nombres correspondenes de bird / elements。Los nombres reconciliados vincularon为más de 600.000个secuencias de nucleótidos,约占今天secuencias de aves en GenBank的9%。Casi - el - 10% de de de bird / elements的名称,例如:nucleótidos enumeradas和más nombres en GenBank。 我们的分类协调是GenBank鸟类序列严格开源管理的第一步,可以在GitHub上获得,在那里你可以更新它,以匹配eBird/Clements未来的年度分类更新。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Updating splits, lumps, and shuffles: Reconciling GenBank names with standardized avian taxonomies
ABSTRACT Biodiversity research has advanced by testing expectations of ecological and evolutionary hypotheses through the linking of large-scale genetic, distributional, and trait datasets. The rise of molecular systematics over the past 30 years has resulted in a wealth of DNA sequences from around the globe. Yet, advances in molecular systematics also have created taxonomic instability, as new estimates of evolutionary relationships and interpretations of species limits have required widespread scientific name changes. Taxonomic instability, colloquially “splits, lumps, and shuffles,” presents logistical challenges to large-scale biodiversity research because (1) the same species or sets of populations may be listed under different names in different data sources, or (2) the same name may apply to different sets of populations representing different taxonomic concepts. Consequently, distributional and trait data are often difficult to link directly to primary DNA sequence data without extensive and time-consuming curation. Here, we present RANT: Reconciliation of Avian NCBI Taxonomy. RANT applies taxonomic reconciliation to standardize avian taxon names in use in NCBI GenBank, a primary source of genetic data, to a widely used and regularly updated avian taxonomy: eBird/Clements. Of 14,341 avian species/subspecies names in GenBank, 11,031 directly matched an eBird/Clements; these link to more than 6 million nucleotide sequences. For the remaining unmatched avian names in GenBank, we used Avibase's system of taxonomic concepts, taxonomic descriptions in Cornell's Birds of the World, and DNA sequence metadata to identify corresponding eBird/Clements names. Reconciled names linked to more than 600,000 nucleotide sequences, ∼9% of all avian sequences on GenBank. Nearly 10% of eBird/Clements names had nucleotide sequences listed under 2 or more GenBank names. Our taxonomic reconciliation is a first step towards rigorous and open-source curation of avian GenBank sequences and is available at GitHub, where it can be updated to correspond to future annual eBird/Clements taxonomic updates. LAY SUMMARY 23% of avian names on GenBank do not match eBird/Clements, a widely used standardized avian taxonomy. More than 600,000 nucleotide sequences on GenBank are associated with names that do not match eBird/Clements. 10% of eBird/Clements names have nucleotide sequences listed under multiple GenBank names. We provide an open-source taxonomic reconciliation to mitigate difficulties associated with non-standardized name use for GenBank sequences. RESUMEN La investigación sobre biodiversidad ha avanzado al evaluar las expectativas de las hipótesis ecológicas y evolutivas a través de la vinculación de bases de datos genéticos, de distribución y de rasgos a gran escala. El auge de la sistemática molecular en los últimos 30 años ha dado como resultado una gran cantidad de secuencias de ADN de todo el mundo. Sin embargo, los avances en la sistemática molecular también han creado inestabilidad taxonómica, ya que las nuevas estimaciones de las relaciones evolutivas y las interpretaciones de los límites de las especies han requerido cambios generalizados en los nombres científicos. La inestabilidad taxonómica, coloquialmente llamada “divisiones, agrupamientos y reorganizaciones,” presenta desafíos logísticos para la investigación de la biodiversidad a gran escala porque (1) las mismas especies o conjuntos de poblaciones pueden estar listados con diferentes nombres en diferentes fuentes de datos, o (2) el mismo nombre puede aplicarse a diferentes conjuntos de poblaciones representando diferentes conceptos taxonómicos. En consecuencia, los datos de distribución y rasgos a menudo son difíciles de vincular directamente a los datos primarios de secuencias de ADN sin una curación extensa y demandante de tiempo. Aquí, presentamos RANT (por sus siglas en inglés): reconciliación de la taxonomía aviar del Centro Nacional para la Información Biotecnológica (CNIB). RANT aplica la reconciliación taxonómica para estandarizar los nombres de taxones aviares en uso en el GenBank de CNIB, una fuente principal de datos genéticos, con la taxonomía aviar ampliamente utilizada y actualizada periódicamente de eBird/Clements. De los 14.341 nombres de especies/subespecies de aves en GenBank, 11.031 coincidieron directamente con eBird/Clements; estos se vinculan a más de 6 millones de secuencias de nucleótidos. Para los restantes nombres de aves no coincidentes en GenBank, utilizamos el sistema de conceptos taxonómicos de Avibase, descripciones taxonómicas en Aves del Mundo de Cornell y metadatos de secuencias de ADN para identificar los nombres correspondientes de eBird/Clements. Los nombres reconciliados vincularon a más de 600.000 secuencias de nucleótidos, ∼9% de todas las secuencias de aves en GenBank. Casi el 10% de los nombres de eBird/Clements tuvieron secuencias de nucleótidos enumeradas bajo dos o más nombres en GenBank. Nuestra reconciliación taxonómica es un primer paso hacia la curación rigurosa y de código abierto de las secuencias aviares de GenBank y está disponible en GitHub, donde se puede actualizar para que corresponda con las futuras actualizaciones taxonómicas anuales de eBird/Clements.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信