{"title":"对基于扩散的超分辨率技术在视频流压缩系统中的应用进行比较分析","authors":"А.А. Березкин, Х.Д.о. Фук, Д.Ле. Чан, Р.В. Киричек","doi":"10.34832/niir.2023.14.3.003","DOIUrl":null,"url":null,"abstract":"Выполнен сравнительный анализ моделей с ультравысоким разрешением на основе диффузии, а именно моделей латентной диффузии и итеративно усовершенствованных моделей изображений с ультравысоким разрешением, в контексте восстановления изображений в системе сжатия видеопотока при управлении беспилотными системами от первого лица. Исследование сосредоточено на решении проблем получения кадров с разрешением FullHD, сжатых с использованием нейронной сетевой модели латентной диффузии. Работа демонстрирует, что модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии на основе метрик, используемых для оценки качества цифровых изображений, а именно индекса структурной схожести и отношения сигнал-шум. Количественные результаты показывают, что по данным метрикам модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии, что свидетельствует о более высоком сохранении структурной целостности изображения, а также указывает на снижение уровня шума и высокую степень достоверности изображения. Модель суперразрешения изображения с итеративным усовершенствованием может быть использована в задачах улучшения разрешения в системах сжатия видеопотока в системах управления от первого лица. This article compares diffusion-based ultra-high resolution models, namely latent diffusion models and iteratively refined ultra-high resolution image models, in the context of image reconstruction in a video stream compression system when controlling unmanned systems in the first person. The study is focused on solving the problems of obtaining FullHD resolution frames compressed by a neural network model of latent diffusion. The w ork demonstrates that an iteratively refined image superresolution model outperforms a latent diffusion model based on metrics used to assess the quality of digital images, namely structural similarity index and signal-to-noise ratio. Quantitative results show that the iteratively refined super-resolution image model outperforms the latent diffusion model on these metrics, indicating greater preservation of image structural integrity, and also indicating reduced noise and high image fidelity. The image super-resolution model with iterative improvement model can be used in resolution enhancement tasks in video compression systems in FPV control systems.","PeriodicalId":128426,"journal":{"name":"Труды НИИР","volume":"28 6","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"A COMPARATIVE ANALYSIS OF DIFFUSION-BASED SUPER-RESOLUTION TECHNIQUES IN A VIDEO STREAM COMPRESSION SYSTEM IN FPV CONTROL OF UNM ANNED SYSTEMS\",\"authors\":\"А.А. Березкин, Х.Д.о. Фук, Д.Ле. Чан, Р.В. Киричек\",\"doi\":\"10.34832/niir.2023.14.3.003\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Выполнен сравнительный анализ моделей с ультравысоким разрешением на основе диффузии, а именно моделей латентной диффузии и итеративно усовершенствованных моделей изображений с ультравысоким разрешением, в контексте восстановления изображений в системе сжатия видеопотока при управлении беспилотными системами от первого лица. Исследование сосредоточено на решении проблем получения кадров с разрешением FullHD, сжатых с использованием нейронной сетевой модели латентной диффузии. Работа демонстрирует, что модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии на основе метрик, используемых для оценки качества цифровых изображений, а именно индекса структурной схожести и отношения сигнал-шум. Количественные результаты показывают, что по данным метрикам модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии, что свидетельствует о более высоком сохранении структурной целостности изображения, а также указывает на снижение уровня шума и высокую степень достоверности изображения. Модель суперразрешения изображения с итеративным усовершенствованием может быть использована в задачах улучшения разрешения в системах сжатия видеопотока в системах управления от первого лица. This article compares diffusion-based ultra-high resolution models, namely latent diffusion models and iteratively refined ultra-high resolution image models, in the context of image reconstruction in a video stream compression system when controlling unmanned systems in the first person. The study is focused on solving the problems of obtaining FullHD resolution frames compressed by a neural network model of latent diffusion. The w ork demonstrates that an iteratively refined image superresolution model outperforms a latent diffusion model based on metrics used to assess the quality of digital images, namely structural similarity index and signal-to-noise ratio. Quantitative results show that the iteratively refined super-resolution image model outperforms the latent diffusion model on these metrics, indicating greater preservation of image structural integrity, and also indicating reduced noise and high image fidelity. The image super-resolution model with iterative improvement model can be used in resolution enhancement tasks in video compression systems in FPV control systems.\",\"PeriodicalId\":128426,\"journal\":{\"name\":\"Труды НИИР\",\"volume\":\"28 6\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-12-27\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Труды НИИР\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.34832/niir.2023.14.3.003\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Труды НИИР","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.34832/niir.2023.14.3.003","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
A COMPARATIVE ANALYSIS OF DIFFUSION-BASED SUPER-RESOLUTION TECHNIQUES IN A VIDEO STREAM COMPRESSION SYSTEM IN FPV CONTROL OF UNM ANNED SYSTEMS
Выполнен сравнительный анализ моделей с ультравысоким разрешением на основе диффузии, а именно моделей латентной диффузии и итеративно усовершенствованных моделей изображений с ультравысоким разрешением, в контексте восстановления изображений в системе сжатия видеопотока при управлении беспилотными системами от первого лица. Исследование сосредоточено на решении проблем получения кадров с разрешением FullHD, сжатых с использованием нейронной сетевой модели латентной диффузии. Работа демонстрирует, что модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии на основе метрик, используемых для оценки качества цифровых изображений, а именно индекса структурной схожести и отношения сигнал-шум. Количественные результаты показывают, что по данным метрикам модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии, что свидетельствует о более высоком сохранении структурной целостности изображения, а также указывает на снижение уровня шума и высокую степень достоверности изображения. Модель суперразрешения изображения с итеративным усовершенствованием может быть использована в задачах улучшения разрешения в системах сжатия видеопотока в системах управления от первого лица. This article compares diffusion-based ultra-high resolution models, namely latent diffusion models and iteratively refined ultra-high resolution image models, in the context of image reconstruction in a video stream compression system when controlling unmanned systems in the first person. The study is focused on solving the problems of obtaining FullHD resolution frames compressed by a neural network model of latent diffusion. The w ork demonstrates that an iteratively refined image superresolution model outperforms a latent diffusion model based on metrics used to assess the quality of digital images, namely structural similarity index and signal-to-noise ratio. Quantitative results show that the iteratively refined super-resolution image model outperforms the latent diffusion model on these metrics, indicating greater preservation of image structural integrity, and also indicating reduced noise and high image fidelity. The image super-resolution model with iterative improvement model can be used in resolution enhancement tasks in video compression systems in FPV control systems.