{"title":"NeRF IN REINFORCEMENT LEARNING FOR IMAGE RECOGNITION","authors":"А.Ф. Гайнетдинов","doi":"10.25699/sssb.2023.48.2.011","DOIUrl":null,"url":null,"abstract":"Актуальность. В статье рассматриваются методы распознавания изображений с использованием нейронных сетей разной архитектуры, в том числе обучения с подкреплением Q-Learning. Метод. Для обучения алгоритмов и их тестирования использовались наборы изображений 6 классов лесных животных. Изучалось 6 вариаций наборов данных, отличие в которых обусловлено разной долей обучающей выборки: от 40 до 80%. Проанализировано семь методик распознавания: CNN-AE и два подхода визуального управления (NeRF-RL, DRQ-V2) обучались на основе двух- и трехмерной сверточной нейросети и Q-Learning. Результаты работы. Все испытуемые модели показывают высокий процент точности независимо от соотношения обучающей и тренирующей выборки. Минимальные результаты были зафиксированы при использовании CNN-AE, тогда как NeRF-RL и DRQ-V2 на основе двухмерных и трехмерных CNN были более точными. Обучение методов NeRF-RL и DRQ-V2 используя метод Q-Learning привел к получению наиболее точных результатов. Использование Q-Learning для обучения алгоритма NeRF-RL позволяет достичь максимальных результатов. Эта архитектура была применена для распознавания животных и распределения изображений по классам. Выводы. Таким образом, объединение алгоритмов NeRF и обучения с подкреплением является эффективным и перспективным методом распознавания изображений для использования в обработке информации со скрытых камер с целью обнаружении лесных животных.\n This study discusses image recognition methods that exploit different neural networks, including Q-Learning. The algorithms were trained and tested on images depicting 6 different classes of forest animals. A total of 6 image datasets with different amount of training data (40 to 80%) were taken. Here, seven image recognition techniques were analyzed: CNN-AE and two algorithms for visual continuous control (NeRF-RL and DRQ-V2), all trained on a two- and three-dimensional convolution neural network (CNN), as well as Q-Learning. All models had high accuracy; CNN-AE exhibited the lowest recognition accuracy, whilst NeRF-RL and DRQ-V2 based on 2D and 3D CNNs were more accurate. NeRF-RL and DRQ-V2 trained on data using the Q-Learning method yielded the highest accuracy. The use of Q-Learning to train the NeRF-RL algorithm provided the best result. This architecture has been applied for animal recognition and image classification into classes. Based on the research, the combination of NeRF algorithms and reinforcement learning is an effective and promising image recognition method for detecting forest animals in camera-trap images.","PeriodicalId":133432,"journal":{"name":"Южно-Сибирский научный вестник","volume":"86 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-04-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Южно-Сибирский научный вестник","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25699/sssb.2023.48.2.011","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Актуальность. В статье рассматриваются методы распознавания изображений с использованием нейронных сетей разной архитектуры, в том числе обучения с подкреплением Q-Learning. Метод. Для обучения алгоритмов и их тестирования использовались наборы изображений 6 классов лесных животных. Изучалось 6 вариаций наборов данных, отличие в которых обусловлено разной долей обучающей выборки: от 40 до 80%. Проанализировано семь методик распознавания: CNN-AE и два подхода визуального управления (NeRF-RL, DRQ-V2) обучались на основе двух- и трехмерной сверточной нейросети и Q-Learning. Результаты работы. Все испытуемые модели показывают высокий процент точности независимо от соотношения обучающей и тренирующей выборки. Минимальные результаты были зафиксированы при использовании CNN-AE, тогда как NeRF-RL и DRQ-V2 на основе двухмерных и трехмерных CNN были более точными. Обучение методов NeRF-RL и DRQ-V2 используя метод Q-Learning привел к получению наиболее точных результатов. Использование Q-Learning для обучения алгоритма NeRF-RL позволяет достичь максимальных результатов. Эта архитектура была применена для распознавания животных и распределения изображений по классам. Выводы. Таким образом, объединение алгоритмов NeRF и обучения с подкреплением является эффективным и перспективным методом распознавания изображений для использования в обработке информации со скрытых камер с целью обнаружении лесных животных.
This study discusses image recognition methods that exploit different neural networks, including Q-Learning. The algorithms were trained and tested on images depicting 6 different classes of forest animals. A total of 6 image datasets with different amount of training data (40 to 80%) were taken. Here, seven image recognition techniques were analyzed: CNN-AE and two algorithms for visual continuous control (NeRF-RL and DRQ-V2), all trained on a two- and three-dimensional convolution neural network (CNN), as well as Q-Learning. All models had high accuracy; CNN-AE exhibited the lowest recognition accuracy, whilst NeRF-RL and DRQ-V2 based on 2D and 3D CNNs were more accurate. NeRF-RL and DRQ-V2 trained on data using the Q-Learning method yielded the highest accuracy. The use of Q-Learning to train the NeRF-RL algorithm provided the best result. This architecture has been applied for animal recognition and image classification into classes. Based on the research, the combination of NeRF algorithms and reinforcement learning is an effective and promising image recognition method for detecting forest animals in camera-trap images.