OPTIONS FOR MODIFYING THE DETR ALGORITHM FOR DETECTING OBJECTS IN A VIDEO STREAM

А.И. Паршин, В.Ф. Барабанов, Н.И. Гребенникова, М.Н. Аралов, С.А. Коваленко
{"title":"OPTIONS FOR MODIFYING THE DETR ALGORITHM FOR DETECTING OBJECTS IN A VIDEO STREAM","authors":"А.И. Паршин, В.Ф. Барабанов, Н.И. Гребенникова, М.Н. Аралов, С.А. Коваленко","doi":"10.36622/1729-6501.2024.20.2.003","DOIUrl":null,"url":null,"abstract":"несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности\n despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy","PeriodicalId":515253,"journal":{"name":"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА","volume":" 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-07-05","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36622/1729-6501.2024.20.2.003","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy
用于修改检测视频流中物体的检测算法的选项
尽管近年来取得了显著进展,但视频流中的物体检测任务仍然是最具挑战性和计算密集型的任务之一。基于传统检测器的算法无法提供高质量的检测,因此人们开发了基于卷积神经网络的算法,如 YOLO("You Only Look Once "的缩写)和 DETR("DEtection TRansformer "的缩写)。这些算法具有很高的准确性,并在识别视频流中物体的任务中得到了验证。与此同时,这些算法也有一些明显的缺点,主要是数学复杂度高,导致训练时间大幅增加。因此,现有现代算法的现代化是当前的一项重要任务。本文介绍了 DETR 算法现代化的一些可能途径和方法,并估算了对最终结果的影响。提出的修改变体包括通过神经网络优化解码器层,以及修改影响机制,以降低计算的数学复杂性并提高最终精度。尽管近年来取得了显著进展,但检测视频流中的物体仍然是最困难的任务之一,需要大量计算资源。卷积神经网络已成为经典,几乎所有的现代算法都或多或少地以它为基础,但其特点是存在大量可变参数,如各层卷积核心的维度、这些层的数量、子卷积层的参数等。另一方面,随着对物体识别质量要求的提高,所使用的卷积网络结构的复杂性也在增加,基于这些网络的最终算法也不断复杂化。目前,一项重要的任务就是对现有算法进行升级,DETR(DEtection TRansformer)就是其中之一。本文介绍了升级该算法的一些可能途径和方法,并估算了对最终结果的影响。建议的修改方案包括利用神经网络优化解码器层,以及修改影响机制以降低计算的数学复杂性并提高总精度。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信