{"title":"Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet","authors":"A. Rambousek, A. Horák, K. Pala","doi":"10.11649/CS.1715","DOIUrl":null,"url":null,"abstract":"Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNetCzech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities. Zrównoważony i długafalowy proces rozwoju i utrzymania wordnetu na przykładzie wordnetu czeskiegoCzeski WordNet jest jednym z pierwszych narodowych wordnetów powstałych podczas projektów EuroWordNet i BalkaNet. Jednakże dane zawierają błędy, które wpływają na używanie czeskiego wordnetu w aplikacjach NLP. Od momentu opublikowania pierwszej wersji czeskiego wordnetu sieć semantyczna została rozszerzona w kilku etapach, jednak złożony proces końcowej edycji i publikacji nie został jeszcze zakończony. W roku 2017 zaczęliśmy projekt mający na celu ocenę i aktualizację czeskiego wordnetu, a następnie połączenie go z Collaborative Interlingual Index. W danym artykule przedstawiamy ogólny zarys uaktualnień i rozszerzeń zawartości czeskiego wordnetu, a także prezentujemy plan działania, który doprowadzi do publikacji udoskonalonej wersji czeskiego wordnetu na otwartej licencji. Ponadto prezentujemy opracowaną koncepcję długoterminowych uaktualnień i utrzymania danych w oparciu o działania crowdsourcingowe.","PeriodicalId":52084,"journal":{"name":"Cognitive Studies-Etudes Cognitives","volume":"1 1","pages":""},"PeriodicalIF":0.4000,"publicationDate":"2018-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Cognitive Studies-Etudes Cognitives","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.11649/CS.1715","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 3
Abstract
Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNetCzech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities. Zrównoważony i długafalowy proces rozwoju i utrzymania wordnetu na przykładzie wordnetu czeskiegoCzeski WordNet jest jednym z pierwszych narodowych wordnetów powstałych podczas projektów EuroWordNet i BalkaNet. Jednakże dane zawierają błędy, które wpływają na używanie czeskiego wordnetu w aplikacjach NLP. Od momentu opublikowania pierwszej wersji czeskiego wordnetu sieć semantyczna została rozszerzona w kilku etapach, jednak złożony proces końcowej edycji i publikacji nie został jeszcze zakończony. W roku 2017 zaczęliśmy projekt mający na celu ocenę i aktualizację czeskiego wordnetu, a następnie połączenie go z Collaborative Interlingual Index. W danym artykule przedstawiamy ogólny zarys uaktualnień i rozszerzeń zawartości czeskiego wordnetu, a także prezentujemy plan działania, który doprowadzi do publikacji udoskonalonej wersji czeskiego wordnetu na otwartej licencji. Ponadto prezentujemy opracowaną koncepcję długoterminowych uaktualnień i utrzymania danych w oparciu o działania crowdsourcingowe.