{"title":"OPTIONS FOR MODIFYING THE DETR ALGORITHM FOR DETECTING OBJECTS IN A VIDEO STREAM","authors":"А.И. Паршин, В.Ф. Барабанов, Н.И. Гребенникова, М.Н. Аралов, С.А. Коваленко","doi":"10.36622/1729-6501.2024.20.2.003","DOIUrl":null,"url":null,"abstract":"несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности\n despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy","PeriodicalId":515253,"journal":{"name":"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА","volume":" 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-07-05","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36622/1729-6501.2024.20.2.003","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности
despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy