{"title":"西班牙语法语学习者口语语料库的编码、分析和利用工具。","authors":"Cristina Muñoz","doi":"10.1344/teisel.v3.44741","DOIUrl":null,"url":null,"abstract":"En este trabajo se analiza el uso de tres herramientas digitales para la codificación, el análisis y la explotación de un corpus oral de aprendices de L2. En primer lugar, se presenta la creación, codificación y actualización del corpus, que se compiló con el objetivo de analizar los errores cometidos en el plano oral por parte de un grupo compuesto por 51 informantes franceses, estudiantes de segundo año de Lenguas Extranjeras Aplicadas de la Universidad François Rabelais de Tours (Francia). Una vez conseguido el material auditivo, se procedió a la transcripción y anotación textual codificada, siguiendo la normativa que marca Text Encoding Initiative.\nEsta investigación se valió de ciertas herramientas digitales, como XML Formatter (https://jsonformatter.org/xml-formatter), XML Validator (https://codebeautify.org/xmlvalidator), VS Studio (https://code.visualstudio.com/), Git (https://git-scm.com/), GitHub (https://github.com/), SpaCy (https://SpaCy.io/), CATMA (https://catma.de/) y Google Colaboratory (https://colab.google/), que contribuyeron al desarrollo del análisis y la explotación del corpus oral, sirviendo para la configuración y validación de la cabecera del corpus (XML Formatter - Validator), para el etiquetado del corpus (VS Studio), para el control y almacenaje de las versiones (Git-GitHub) y para la actualización del corpus (SpaCy permite nuevos análisis, Google Colaboratory es un instalador de software usado junto a SpaCy, y con CATMA se desarrolla el nuevo etiquetado).","PeriodicalId":421451,"journal":{"name":"TEISEL. Tecnologías para la investigación en segundas lenguas","volume":"39 5","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-03-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Herramientas para la codificación, el análisis y la explotación de un corpus oral de aprendices francófonos de español\",\"authors\":\"Cristina Muñoz\",\"doi\":\"10.1344/teisel.v3.44741\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En este trabajo se analiza el uso de tres herramientas digitales para la codificación, el análisis y la explotación de un corpus oral de aprendices de L2. En primer lugar, se presenta la creación, codificación y actualización del corpus, que se compiló con el objetivo de analizar los errores cometidos en el plano oral por parte de un grupo compuesto por 51 informantes franceses, estudiantes de segundo año de Lenguas Extranjeras Aplicadas de la Universidad François Rabelais de Tours (Francia). Una vez conseguido el material auditivo, se procedió a la transcripción y anotación textual codificada, siguiendo la normativa que marca Text Encoding Initiative.\\nEsta investigación se valió de ciertas herramientas digitales, como XML Formatter (https://jsonformatter.org/xml-formatter), XML Validator (https://codebeautify.org/xmlvalidator), VS Studio (https://code.visualstudio.com/), Git (https://git-scm.com/), GitHub (https://github.com/), SpaCy (https://SpaCy.io/), CATMA (https://catma.de/) y Google Colaboratory (https://colab.google/), que contribuyeron al desarrollo del análisis y la explotación del corpus oral, sirviendo para la configuración y validación de la cabecera del corpus (XML Formatter - Validator), para el etiquetado del corpus (VS Studio), para el control y almacenaje de las versiones (Git-GitHub) y para la actualización del corpus (SpaCy permite nuevos análisis, Google Colaboratory es un instalador de software usado junto a SpaCy, y con CATMA se desarrolla el nuevo etiquetado).\",\"PeriodicalId\":421451,\"journal\":{\"name\":\"TEISEL. Tecnologías para la investigación en segundas lenguas\",\"volume\":\"39 5\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-03-11\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"TEISEL. Tecnologías para la investigación en segundas lenguas\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.1344/teisel.v3.44741\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"TEISEL. Tecnologías para la investigación en segundas lenguas","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1344/teisel.v3.44741","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
本文分析了使用三种数字工具对第二语言学习者口语语料库进行编码、分析和利用的情况。首先,我们介绍了该语料库的创建、编码和更新过程。编制该语料库的目的是分析一组 51 名法语信息提供者(法国图尔弗朗索瓦-拉伯雷大学应用外语系二年级学生)的口语错误。获得音频材料后,按照文本编码倡议组织制定的标准进行了转录和编码文本注释。 这项研究使用了一些数字工具,如 XML Formatter (https://jsonformatter.org/xml-formatter)、XML Validator (https://codebeautify.org/xmlvalidator)、VS Studio (https://code.visualstudio.com/)、Git (https://git-scm.com/)、GitHub (https://github.com/)、SpaCy (https://SpaCy.io/)、CATMA (https://catma. de/) 和 Google Colaboratory。de/)和 Google Colaboratory (https://colab.google/),它们为口语语料库的分析和开发利用做出了贡献,分别用于语料头的配置和验证(XML Formatter - Validator)、语料库标记(VS Studio)、版本控制和存储(Git-GitHub)以及更新语料库(SpaCy 允许进行新的分析,Google Colaboratory 是与 SpaCy 一起使用的软件安装程序,CATMA 开发了新的标记)。
Herramientas para la codificación, el análisis y la explotación de un corpus oral de aprendices francófonos de español
En este trabajo se analiza el uso de tres herramientas digitales para la codificación, el análisis y la explotación de un corpus oral de aprendices de L2. En primer lugar, se presenta la creación, codificación y actualización del corpus, que se compiló con el objetivo de analizar los errores cometidos en el plano oral por parte de un grupo compuesto por 51 informantes franceses, estudiantes de segundo año de Lenguas Extranjeras Aplicadas de la Universidad François Rabelais de Tours (Francia). Una vez conseguido el material auditivo, se procedió a la transcripción y anotación textual codificada, siguiendo la normativa que marca Text Encoding Initiative.
Esta investigación se valió de ciertas herramientas digitales, como XML Formatter (https://jsonformatter.org/xml-formatter), XML Validator (https://codebeautify.org/xmlvalidator), VS Studio (https://code.visualstudio.com/), Git (https://git-scm.com/), GitHub (https://github.com/), SpaCy (https://SpaCy.io/), CATMA (https://catma.de/) y Google Colaboratory (https://colab.google/), que contribuyeron al desarrollo del análisis y la explotación del corpus oral, sirviendo para la configuración y validación de la cabecera del corpus (XML Formatter - Validator), para el etiquetado del corpus (VS Studio), para el control y almacenaje de las versiones (Git-GitHub) y para la actualización del corpus (SpaCy permite nuevos análisis, Google Colaboratory es un instalador de software usado junto a SpaCy, y con CATMA se desarrolla el nuevo etiquetado).