{"title":"Application of artificial intelligence in multimedia","authors":"Кабанова, В. В., Логунова, О. С.","doi":"10.23859/1994-0637-2022-6-111-2","DOIUrl":null,"url":null,"abstract":"Целью данной работы является изучение и обобщение существующих задач, методов анализа и обработки изображений, видеопотоков, аудиофайлов с применением искусственного интеллекта для дальнейшего развития направления. В основной части работы рассматривается принцип работы полносвязной нейронной сети, приводится пример, указываются основные типы нейронных сетей и ссылки на работы по тематике, описываются и анализируются разработки в области искусственного интеллекта и мультимедиа. В работе проведен литературный обзор научных трудов за последние 5 лет. Тезисно раскрывается суть генеративного и дискриминативного моделирования, определяется проблема, решаемая генеративно-состязательными сетями. Рассматривается применение нейронных сетей при генерации монофонической и полифонической музыки, определении жанра мелодии, при распознавании и классификации образов на изображении, стилизации изображений и генерации новых изображений на основе набора данных и описания на английском языке, при различных манипуляциях с лицом на изображении: морфинг лица, ретушь лица, генерирование уникальных лиц и обмен идентичностью, а также при использовании глубокого обучения в медицине. При этом кратко описываются модели сетей, используемые при различных манипуляциях, представленных в работе. Определяются сферы использования сверточных нейронных сетей, рекуррентных нейронных сетей, а также описываются основные характеристики и отличительные особенности моделей СNN, RNN, GAN. Также рассматривается создание deepfake-видео и их угроза обществу, методы распознавания deepfake-видео. Определяются перспективы генеративного моделирования и искусственного интеллекта при работе с мультимедийной информацией, подчеркивается важность нейронных сетей для общества.\n The aim of the work is to study and generalize existing tasks, methods for analyzing and processing images, video streams and audio files applying artificial intelligence for further development of the direction. The main part of the work considers the principle of a fully connected neural network, gives examples, indicating the main types of neural networks and references to works on the subject, describing and analyzing developments in the field of artificial intelligence and multimedia. The paper provides a literature review of scientific papers over the past 5 years. The authors highlight the essence of generative and discriminative modeling; determine the problem solved by generative adversarial networks. They also focus on the application of neural networks in monophonic and polyphonic music generation, melody genre identification, image recognition and classification, image stylization and new image generation based on data set and description in English, face manipulation in images: face morphing, face attribute, generation of unique faces and identity swap and also applying deep learning in medicine. In doing so, the network models used in the various manipulations presented in the paper are briefly described. The application spheres of convolutional neural networks, recurrent neural networks, as well as the main characteristics and distinctive features of CNN, RNN, GAN models are described. The paper also discusses the development of deepfake videos and their threat to society, as well as methods of deepfake video recognition. The authors determine the prospects of generative modeling and artificial intelligence when dealing with multimedia information; emphasize the importance of neural networks for society.","PeriodicalId":102323,"journal":{"name":"Cherepovets State University Bulletin","volume":"74 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-12-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Cherepovets State University Bulletin","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.23859/1994-0637-2022-6-111-2","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Целью данной работы является изучение и обобщение существующих задач, методов анализа и обработки изображений, видеопотоков, аудиофайлов с применением искусственного интеллекта для дальнейшего развития направления. В основной части работы рассматривается принцип работы полносвязной нейронной сети, приводится пример, указываются основные типы нейронных сетей и ссылки на работы по тематике, описываются и анализируются разработки в области искусственного интеллекта и мультимедиа. В работе проведен литературный обзор научных трудов за последние 5 лет. Тезисно раскрывается суть генеративного и дискриминативного моделирования, определяется проблема, решаемая генеративно-состязательными сетями. Рассматривается применение нейронных сетей при генерации монофонической и полифонической музыки, определении жанра мелодии, при распознавании и классификации образов на изображении, стилизации изображений и генерации новых изображений на основе набора данных и описания на английском языке, при различных манипуляциях с лицом на изображении: морфинг лица, ретушь лица, генерирование уникальных лиц и обмен идентичностью, а также при использовании глубокого обучения в медицине. При этом кратко описываются модели сетей, используемые при различных манипуляциях, представленных в работе. Определяются сферы использования сверточных нейронных сетей, рекуррентных нейронных сетей, а также описываются основные характеристики и отличительные особенности моделей СNN, RNN, GAN. Также рассматривается создание deepfake-видео и их угроза обществу, методы распознавания deepfake-видео. Определяются перспективы генеративного моделирования и искусственного интеллекта при работе с мультимедийной информацией, подчеркивается важность нейронных сетей для общества.
The aim of the work is to study and generalize existing tasks, methods for analyzing and processing images, video streams and audio files applying artificial intelligence for further development of the direction. The main part of the work considers the principle of a fully connected neural network, gives examples, indicating the main types of neural networks and references to works on the subject, describing and analyzing developments in the field of artificial intelligence and multimedia. The paper provides a literature review of scientific papers over the past 5 years. The authors highlight the essence of generative and discriminative modeling; determine the problem solved by generative adversarial networks. They also focus on the application of neural networks in monophonic and polyphonic music generation, melody genre identification, image recognition and classification, image stylization and new image generation based on data set and description in English, face manipulation in images: face morphing, face attribute, generation of unique faces and identity swap and also applying deep learning in medicine. In doing so, the network models used in the various manipulations presented in the paper are briefly described. The application spheres of convolutional neural networks, recurrent neural networks, as well as the main characteristics and distinctive features of CNN, RNN, GAN models are described. The paper also discusses the development of deepfake videos and their threat to society, as well as methods of deepfake video recognition. The authors determine the prospects of generative modeling and artificial intelligence when dealing with multimedia information; emphasize the importance of neural networks for society.
这项工作的目的是研究和概括现有的任务、图像分析和处理方法、视频流、人工智能音频文件,以便进一步发展。在工作的主要部分中,考虑到完整的神经网络的工作原理,举例说明神经网络的主要类型和主题,描述和分析人工智能和多媒体的发展。这份工作对过去五年的科学工作进行了文学审查。谈话要点揭示了通用和歧视性建模的本质,解决了由通用-竞争网络解决的问题。考虑使用神经网络生成单声道和复调音乐和分类识别中,某些类型的旋律,形成图像,图像并生成新的风格上英文基础数据集和描述,各种图片:变形的脸,操纵修饰,产生独特的脸和交换身份,以及使用深度学习医学。它简要地描述了网络模型,用于操作中的各种操作。定义了交叉神经网络、递归神经网络的使用范围,并描述了cnn、RNN和GAN模型的基本特征和特征。它还考虑制作deepfake视频及其对社区的威胁,以及deepfake视频的识别方法。在处理多媒体信息时,通用建模和人工智能的前景正在确定,强调神经网络对社会的重要性。这首歌是关于学习和通用的,是关于分析和呈现图像的媒介,是视频streams和音频文件为未来的方向开发。在艺术知识和多才多艺领域中,新技术的主要部分,新技术的主要概念,以及对新技术领域的研究。《科学论文》评论了《科学论文》的五年。高光的存在和歧视的模式;determine是通用adversarial网络中的一个问题。They also focus on the应用程序of neural networks in monophonic and花花公子沃music generation, melody风格image recognition and分类识别,图像stylization and new image generation基于on data set and描述oprea face in images in English: face变形,face attribute generation of unique faces and identity swap and also applying deep learning in medicine。在如此高的水平上,网络模型在不同的管理中被精简了。革命新网络的应用,革命新网络,像CNN的主要魅力和分裂的感觉一样,RNN,冈模的排斥。报纸also discusses deepfake videos和社交媒体开发,就像deepfake reconition的媒介一样。当使用多媒体信息时,通用模型和艺术知识提供者的意图;neural网络对社会的影响。