ЛЕКСИЧНА ЗГОРТКА ПРИ АНАЛІЗІ СХОЖОСТІ ТЕКСТІВ ПРОГРАМ

IF 0.6 Q4 COMPUTER SCIENCE, INFORMATION SYSTEMS

International Journal of Distributed Systems and Technologies Pub Date : 2023-07-14 DOI:10.32782/2521-6643-2023.1-65.7

В. Г. Павлов

{"title":"ЛЕКСИЧНА ЗГОРТКА ПРИ АНАЛІЗІ СХОЖОСТІ ТЕКСТІВ ПРОГРАМ","authors":"В. Г. Павлов","doi":"10.32782/2521-6643-2023.1-65.7","DOIUrl":null,"url":null,"abstract":"Стаття присвячена вирішенню проблеми захисту авторського права на тексти комп'ютерних програм. Хоча на законодавчому рівні вихідні та об'єктні коди комп'ютерних програм визнані такими, що підлягають захисту та на які розповсюджується авторське право, практична реалізація цього не є досконалою. Причина, полягає у тому, що історично спочатку постала проблема захисту авторства на літературні тексти, а потім цей підхід поширився й на тексти комп'ютерних програм. При цьому програмні коди розглядаються лише як різновид літературних текстів, тому для аналізу їх схожості пропонуються ті ж методики, які застосовуються до літературних текстів. Вони не враховують особливості текстів комп'ютерних програм, насамперед граматичні правила побудови програмних кодів. На відміну від граматики літературних текстів, синтаксис мов програмування побудований на більш жорстких правилах, які мають формалізований вигляд та описуються за допомогою метамов. Тому будь який оператор чи інструкція має у своєму складі стали вирази, які при компіляції комп'ютерної програми розглядаються як стандартні токени певної мови програмування. Їх назви та розташування не можуть бути довільними, а тому вони визначають як би лексичний каркас програми. Але під час створення програмного коду його автор має можливість вільно використовувати власні назви для певних складових комп'ютерної програми – назв змінних, міток, розроблених функцій тощо. Ці назви відносяться до користувацьких токенів та при компіляції не розглядаються як стали складові команд. Вони можуть бути легко замінені у вихідному коді без будь яких змін у послідовності стандартних токенів. Таке «клонування» програмного коду з боку недоброчесних користувачів часто залишається непомітним, бо програмні засоби для знаходження схожості текстів дають значно занижений результат, оскільки не розрізняють стандартні та користувацькі токени у текстах, які порівнюються. Той же невірний підхід до текстів комп'ютерних програм може також надати завищену оцінку при порівнянні через ті ж недоліки. Це доводиться на прикладах, які наведені у статті. У статті запропонований підхід при якому у текстах комп'ютерних програм стандартні токени відокремлюються від користувацьких, внаслідок чого останні мають значно менший вплив на результат перевірки схожості текстів. Це перетворення, яке назване лексичною згорткою, продемонстровано на прикладі основних конструкцій мови програмування C та фрагменту програмного коду. Цей підхід може бути поширений на інші мови програмування.","PeriodicalId":43267,"journal":{"name":"International Journal of Distributed Systems and Technologies","volume":"29 1","pages":""},"PeriodicalIF":0.6000,"publicationDate":"2023-07-14","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"International Journal of Distributed Systems and Technologies","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.32782/2521-6643-2023.1-65.7","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INFORMATION SYSTEMS","Score":null,"Total":0}

引用次数: 0

Abstract

Стаття присвячена вирішенню проблеми захисту авторського права на тексти комп'ютерних програм. Хоча на законодавчому рівні вихідні та об'єктні коди комп'ютерних програм визнані такими, що підлягають захисту та на які розповсюджується авторське право, практична реалізація цього не є досконалою. Причина, полягає у тому, що історично спочатку постала проблема захисту авторства на літературні тексти, а потім цей підхід поширився й на тексти комп'ютерних програм. При цьому програмні коди розглядаються лише як різновид літературних текстів, тому для аналізу їх схожості пропонуються ті ж методики, які застосовуються до літературних текстів. Вони не враховують особливості текстів комп'ютерних програм, насамперед граматичні правила побудови програмних кодів. На відміну від граматики літературних текстів, синтаксис мов програмування побудований на більш жорстких правилах, які мають формалізований вигляд та описуються за допомогою метамов. Тому будь який оператор чи інструкція має у своєму складі стали вирази, які при компіляції комп'ютерної програми розглядаються як стандартні токени певної мови програмування. Їх назви та розташування не можуть бути довільними, а тому вони визначають як би лексичний каркас програми. Але під час створення програмного коду його автор має можливість вільно використовувати власні назви для певних складових комп'ютерної програми – назв змінних, міток, розроблених функцій тощо. Ці назви відносяться до користувацьких токенів та при компіляції не розглядаються як стали складові команд. Вони можуть бути легко замінені у вихідному коді без будь яких змін у послідовності стандартних токенів. Таке «клонування» програмного коду з боку недоброчесних користувачів часто залишається непомітним, бо програмні засоби для знаходження схожості текстів дають значно занижений результат, оскільки не розрізняють стандартні та користувацькі токени у текстах, які порівнюються. Той же невірний підхід до текстів комп'ютерних програм може також надати завищену оцінку при порівнянні через ті ж недоліки. Це доводиться на прикладах, які наведені у статті. У статті запропонований підхід при якому у текстах комп'ютерних програм стандартні токени відокремлюються від користувацьких, внаслідок чого останні мають значно менший вплив на результат перевірки схожості текстів. Це перетворення, яке назване лексичною згорткою, продемонстровано на прикладі основних конструкцій мови програмування C та фрагменту програмного коду. Цей підхід може бути поширений на інші мови програмування.

查看原文本刊更多论文

求助全文

约1分钟内获得全文求助全文

来源期刊

International Journal of Distributed Systems and Technologies COMPUTER SCIENCE, INFORMATION SYSTEMS-

CiteScore

1.60

自引率

9.10%

发文量