{"title":"用于修改检测视频流中物体的检测算法的选项","authors":"А.И. Паршин, В.Ф. Барабанов, Н.И. Гребенникова, М.Н. Аралов, С.А. Коваленко","doi":"10.36622/1729-6501.2024.20.2.003","DOIUrl":null,"url":null,"abstract":"несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности\n despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy","PeriodicalId":515253,"journal":{"name":"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА","volume":" 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-07-05","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"OPTIONS FOR MODIFYING THE DETR ALGORITHM FOR DETECTING OBJECTS IN A VIDEO STREAM\",\"authors\":\"А.И. Паршин, В.Ф. Барабанов, Н.И. Гребенникова, М.Н. Аралов, С.А. Коваленко\",\"doi\":\"10.36622/1729-6501.2024.20.2.003\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности\\n despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy\",\"PeriodicalId\":515253,\"journal\":{\"name\":\"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА\",\"volume\":\" 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-07-05\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.36622/1729-6501.2024.20.2.003\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36622/1729-6501.2024.20.2.003","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
尽管近年来取得了显著进展,但视频流中的物体检测任务仍然是最具挑战性和计算密集型的任务之一。基于传统检测器的算法无法提供高质量的检测,因此人们开发了基于卷积神经网络的算法,如 YOLO("You Only Look Once "的缩写)和 DETR("DEtection TRansformer "的缩写)。这些算法具有很高的准确性,并在识别视频流中物体的任务中得到了验证。与此同时,这些算法也有一些明显的缺点,主要是数学复杂度高,导致训练时间大幅增加。因此,现有现代算法的现代化是当前的一项重要任务。本文介绍了 DETR 算法现代化的一些可能途径和方法,并估算了对最终结果的影响。提出的修改变体包括通过神经网络优化解码器层,以及修改影响机制,以降低计算的数学复杂性并提高最终精度。尽管近年来取得了显著进展,但检测视频流中的物体仍然是最困难的任务之一,需要大量计算资源。卷积神经网络已成为经典,几乎所有的现代算法都或多或少地以它为基础,但其特点是存在大量可变参数,如各层卷积核心的维度、这些层的数量、子卷积层的参数等。另一方面,随着对物体识别质量要求的提高,所使用的卷积网络结构的复杂性也在增加,基于这些网络的最终算法也不断复杂化。目前,一项重要的任务就是对现有算法进行升级,DETR(DEtection TRansformer)就是其中之一。本文介绍了升级该算法的一些可能途径和方法,并估算了对最终结果的影响。建议的修改方案包括利用神经网络优化解码器层,以及修改影响机制以降低计算的数学复杂性并提高总精度。
OPTIONS FOR MODIFYING THE DETR ALGORITHM FOR DETECTING OBJECTS IN A VIDEO STREAM
несмотря на заметный прогресс, произошедший в последние годы, задача обнаружения объектов в видеопотоке остается одной из самых сложных и требующих больших вычислительных ресурсов. Алгоритмы, основанные на классических детекторах, не обеспечивают высокое качество детектирования, в связи с чем на основе свёрточных нейронных сетей были разработаны такие алгоритмы, как YOLO (аббревиатура от слов «You Only Look Once») и DETR (аббревиатура от слов «DEtection TRansformer»). Эти алгоритмы отличаются высокой точностью и хорошо зарекомендовали себя в задаче распознавания объектов в видеопотоке. В то же время, они обладают рядом существенных недостатков, главным из которых является высокая математическая сложность, что приводит к существенному увеличению времени обучения. В связи с этим в настоящее время важной задачей становится модернизации существующих современных алгоритмов. Описаны некоторые возможные пути и методы модернизации алгоритма DETR, даны оценки влияния на конечный результат. Предлагаемый вариант модификации содержит как оптимизацию слоев декодера при помощи нейронной сети, так и модификацию механизма влияния для уменьшения математической сложности вычислений и увеличения итоговой точности
despite the remarkable progress that has taken place in recent years, the task of detecting objects in a video stream remains one of the most difficult and requires large computing resources. The convolutional neural networks that have already become classical, on which almost all modern algorithms are based, to one degree or another, are characterized by a large number of variable parameters, such as the dimension of the convolution core for each of the layers, the number of these layers, the parameters of the subdescritization layers, etc. On the other hand, an increase in the requirements for the quality of object recognition leads both to an increase in the complexity of the structure of the convolutional networks used, and to a constant complication of the final algorithms based on these networks. Currently, an important task is the task of upgrading existing algorithms, one of which is DETR (DEtection TRansformer). The article describes some possible ways and methods of upgrading this algorithm, and estimates the impact on the final result. The proposed modification option contains both optimization of the decoder layers using a neural network, and modification of the influence mechanism to reduce the mathematical complexity of calculations and increase the total accuracy