{"title":"以副词结构为例,寻找词典相关搭配","authors":"Eva Pori, Iztok Kosem","doi":"10.4312/SLO2.0.2018.2.154-185","DOIUrl":null,"url":null,"abstract":"V leksikogramatični raziskavi so predstavljeni rezultati analiz struktur s prislovi, ki so bile izvedene v okviru temeljnega raziskovalnega projekta Kolokacije kot temelj jezikovnega opisa: semantični in časovni vidiki (KOLOS; J6-8255). Na podlagi rezultatov predhodno izvedene pilotne množičenjske naloge, v kateri so označevalci jezikoslovci ocenjevali avtomatsko izluščene kolokacijske kandidate iz korpusa Gigafida in se opredeljevali do tega, kaj je in kaj ni slovarsko relevantna kolokacija, smo analizirali vse kolokacijsko produktivne strukture s prislovi. Namen analiziranja je bil opredeliti kolokacijo kot semantično relevantno sopojavitev dveh (ali več) besed ter s tem tudi razliko med slovarsko relevantnimi kolokacijami in statistično prepoznanimi oz. šibkejšimi kolokacijami, ki ne opravljajo semantične funkcije in so posledično nerelevantne za kolokacijski slovar. \nAnalize struktur s prislovi so pokazale, da se je o semantični relevantnosti in slovarski vključenosti pri posameznih primerih kolokacijskih kandidatov ali tipih kolokatorjev treba odločati na ravni posamezne strukture. Tovrstni primer so prislovi, ki lahko nastopajo v vlogi intenzifikatorja (tip kar pošteno [načeti]) ali pa semantično manj relevantni vlogi poudarnosti oz. členkovnosti (tip kar prekiniti). Podobne jezikoslovne obravnave so potrebne širše skupine števniškosti, kot je kratnost ali zaporedje (zaporednostni prislovi), ki jih zaradi raznolike semantične relevantnosti ne moremo strukturno omejiti (četrtič doktorirati proti stokrat povedati). \nPodatki, pridobljeni na podlagi opravljenih analiz, bodo omogočali podrobnejše ali nadaljnje analize, predvsem pa celovit opis vsake kolokacijske strukture in njene kolokativnosti. Na podlagi identificiranih napak zaradi avtomatskega označevanja strukture pa bo mogoče nadgraditi obstoječe vzorce za luščenje in predvsem izboljšati avtomatsko luščenje za problematične strukture. Podatki bodo zelo uporabni tudi pri nadaljnjem vključevanju in obravnavi novih struktur, prvotno izločenih zaradi precejšnjega šuma. Vse ugotovitve bo mogoče implementirati v leksikografski delotok in na ta način izboljšati podatke (stopenjskost gesel) v slovarju. Učno množico s 17.576 kandidati bo mogoče uporabiti tudi v drugih dejavnostih projekta KOLOS: za uvrščanje kolokatorjev v gruče, primerjavo sopomenk s kolokacijami in nenazadnje za proučevanje kolokacijskih trendov skozi čas.","PeriodicalId":371035,"journal":{"name":"Slovenščina 2.0: empirical, applied and interdisciplinary research","volume":"58 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2019-01-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"V iskanju slovarsko relevantne kolokacije na primeru struktur s prislovi\",\"authors\":\"Eva Pori, Iztok Kosem\",\"doi\":\"10.4312/SLO2.0.2018.2.154-185\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"V leksikogramatični raziskavi so predstavljeni rezultati analiz struktur s prislovi, ki so bile izvedene v okviru temeljnega raziskovalnega projekta Kolokacije kot temelj jezikovnega opisa: semantični in časovni vidiki (KOLOS; J6-8255). Na podlagi rezultatov predhodno izvedene pilotne množičenjske naloge, v kateri so označevalci jezikoslovci ocenjevali avtomatsko izluščene kolokacijske kandidate iz korpusa Gigafida in se opredeljevali do tega, kaj je in kaj ni slovarsko relevantna kolokacija, smo analizirali vse kolokacijsko produktivne strukture s prislovi. Namen analiziranja je bil opredeliti kolokacijo kot semantično relevantno sopojavitev dveh (ali več) besed ter s tem tudi razliko med slovarsko relevantnimi kolokacijami in statistično prepoznanimi oz. šibkejšimi kolokacijami, ki ne opravljajo semantične funkcije in so posledično nerelevantne za kolokacijski slovar. \\nAnalize struktur s prislovi so pokazale, da se je o semantični relevantnosti in slovarski vključenosti pri posameznih primerih kolokacijskih kandidatov ali tipih kolokatorjev treba odločati na ravni posamezne strukture. Tovrstni primer so prislovi, ki lahko nastopajo v vlogi intenzifikatorja (tip kar pošteno [načeti]) ali pa semantično manj relevantni vlogi poudarnosti oz. členkovnosti (tip kar prekiniti). Podobne jezikoslovne obravnave so potrebne širše skupine števniškosti, kot je kratnost ali zaporedje (zaporednostni prislovi), ki jih zaradi raznolike semantične relevantnosti ne moremo strukturno omejiti (četrtič doktorirati proti stokrat povedati). \\nPodatki, pridobljeni na podlagi opravljenih analiz, bodo omogočali podrobnejše ali nadaljnje analize, predvsem pa celovit opis vsake kolokacijske strukture in njene kolokativnosti. Na podlagi identificiranih napak zaradi avtomatskega označevanja strukture pa bo mogoče nadgraditi obstoječe vzorce za luščenje in predvsem izboljšati avtomatsko luščenje za problematične strukture. Podatki bodo zelo uporabni tudi pri nadaljnjem vključevanju in obravnavi novih struktur, prvotno izločenih zaradi precejšnjega šuma. Vse ugotovitve bo mogoče implementirati v leksikografski delotok in na ta način izboljšati podatke (stopenjskost gesel) v slovarju. Učno množico s 17.576 kandidati bo mogoče uporabiti tudi v drugih dejavnostih projekta KOLOS: za uvrščanje kolokatorjev v gruče, primerjavo sopomenk s kolokacijami in nenazadnje za proučevanje kolokacijskih trendov skozi čas.\",\"PeriodicalId\":371035,\"journal\":{\"name\":\"Slovenščina 2.0: empirical, applied and interdisciplinary research\",\"volume\":\"58 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2019-01-31\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Slovenščina 2.0: empirical, applied and interdisciplinary research\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.4312/SLO2.0.2018.2.154-185\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Slovenščina 2.0: empirical, applied and interdisciplinary research","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4312/SLO2.0.2018.2.154-185","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1
摘要
本词法研究介绍了在基础研究项目 "搭配是语言描述的基础:语义和时间方面"(KOLOS;J6-8255)框架内对副词结构进行分析的结果。在之前进行的试点众包任务中,注释语言学家对从 Gigafida 语料库中自动提取的搭配候选语进行了评估,并对哪些是语法相关搭配、哪些不是语法相关搭配做出了判断,在此基础上,我们分析了所有带有副词的搭配性结构。分析的目的是将搭配定义为两个(或更多)词在语义上的相关并列,从而区分与词典相关的搭配和经统计确定的或较弱的搭配,这些搭配不具有语义功能,因此与搭配词典无关。对副词结构的分析表明,词组候选词或词组类型的语义相关性和词典收录必须在单个结构的层面上决定。例如,副词可以起加强语气的作用("相当[提高]"类型),也可以起语义相关性较低的强调或特殊作用("相当打断 "类型)。对于更广泛的数字词组,如短语或顺序(顺序副词),也需要类似的语言处理,由于它们的语义相关性不同(to doctor for the fourth time vs. to say for the hundredth time),因此不能在结构上加以限制。 通过分析获得的数据可以进行更详细或更深入的分析,最重要的是,可以对每种搭配结构及其搭配性进行全面的描述。根据已发现的结构自动标注的错误,可以对现有的剥离模式进行升级,特别是改进有问题结构的自动剥离。这些数据对于进一步纳入和处理最初因噪音较大而被排除在外的新结构也非常有用。所有研究结果都将应用于词典工作流程,从而改进词典中的数据(密码分级)。由 17,576 个候选词组成的训练集还将用于 KOLOS 项目的其他活动:对搭配词进行聚类,比较同义词和搭配词,最后但并非最不重要的是,研究搭配词的长期发展趋势。
V iskanju slovarsko relevantne kolokacije na primeru struktur s prislovi
V leksikogramatični raziskavi so predstavljeni rezultati analiz struktur s prislovi, ki so bile izvedene v okviru temeljnega raziskovalnega projekta Kolokacije kot temelj jezikovnega opisa: semantični in časovni vidiki (KOLOS; J6-8255). Na podlagi rezultatov predhodno izvedene pilotne množičenjske naloge, v kateri so označevalci jezikoslovci ocenjevali avtomatsko izluščene kolokacijske kandidate iz korpusa Gigafida in se opredeljevali do tega, kaj je in kaj ni slovarsko relevantna kolokacija, smo analizirali vse kolokacijsko produktivne strukture s prislovi. Namen analiziranja je bil opredeliti kolokacijo kot semantično relevantno sopojavitev dveh (ali več) besed ter s tem tudi razliko med slovarsko relevantnimi kolokacijami in statistično prepoznanimi oz. šibkejšimi kolokacijami, ki ne opravljajo semantične funkcije in so posledično nerelevantne za kolokacijski slovar.
Analize struktur s prislovi so pokazale, da se je o semantični relevantnosti in slovarski vključenosti pri posameznih primerih kolokacijskih kandidatov ali tipih kolokatorjev treba odločati na ravni posamezne strukture. Tovrstni primer so prislovi, ki lahko nastopajo v vlogi intenzifikatorja (tip kar pošteno [načeti]) ali pa semantično manj relevantni vlogi poudarnosti oz. členkovnosti (tip kar prekiniti). Podobne jezikoslovne obravnave so potrebne širše skupine števniškosti, kot je kratnost ali zaporedje (zaporednostni prislovi), ki jih zaradi raznolike semantične relevantnosti ne moremo strukturno omejiti (četrtič doktorirati proti stokrat povedati).
Podatki, pridobljeni na podlagi opravljenih analiz, bodo omogočali podrobnejše ali nadaljnje analize, predvsem pa celovit opis vsake kolokacijske strukture in njene kolokativnosti. Na podlagi identificiranih napak zaradi avtomatskega označevanja strukture pa bo mogoče nadgraditi obstoječe vzorce za luščenje in predvsem izboljšati avtomatsko luščenje za problematične strukture. Podatki bodo zelo uporabni tudi pri nadaljnjem vključevanju in obravnavi novih struktur, prvotno izločenih zaradi precejšnjega šuma. Vse ugotovitve bo mogoče implementirati v leksikografski delotok in na ta način izboljšati podatke (stopenjskost gesel) v slovarju. Učno množico s 17.576 kandidati bo mogoče uporabiti tudi v drugih dejavnostih projekta KOLOS: za uvrščanje kolokatorjev v gruče, primerjavo sopomenk s kolokacijami in nenazadnje za proučevanje kolokacijskih trendov skozi čas.