Lương Thị Thảo Hiếu, Phạm Thị Phương Thuý, Nguyễn Khắc Hiệp
{"title":"NÂNG CAO HIỆU QUẢ ĐIỀU KHIỂN ROBOT, SỬ DỤNG HỌC TĂNG CƯỜNG KẾT HỢP HỌC SÂU","authors":"Lương Thị Thảo Hiếu, Phạm Thị Phương Thuý, Nguyễn Khắc Hiệp","doi":"10.34238/tnu-jst.7733","DOIUrl":null,"url":null,"abstract":"Mặc dù học sâu có thể giải quyết các bài toán mà các thuật toán học máy cũ không giải quyết được nhưng cần lượng dữ liệu rất lớn và trong thực tế dữ liệu không phải lúc nào cũng có sẵn trong bài toán điều khiển. Học tăng cường là một giải pháp tốt trong bài toán điều khiển robot. Trong học tăng cường, dữ liệu được tạo ra khi tác tử tương tác với môi trường. Cùng với sự ra đời của mạng noron, nhiều nghiên cứu đã tập trung kết hợp mạng noron vào học tăng cường tạo nên học tăng cường sâu. Trong bài báo này chúng tôi đề xuất mô hình học tăng cường sâu mới dựa trên sự cải tiến thuật giải Deep Q Learning truyền thống bằng cách kết hợp các kỹ thuật: Fixed_Q Target, Double Deep Q, Prioritized Experience Replay, với mô hình mạng VGG16, ứng dụng điều khiển robot xếp hàng hóa với không gian trạng thái tự thiết kế sử dụng Unity ML-Agents. Mô hình đề xuất được thực nghiệm, so sánh đánh giá hiệu quả so với mô hình ban đầu. Kết quả cho thấy phương pháp đề xuất hội tụ nhanh và khắc phục được hiện tượng ước lượng quá mức giá trị Q.","PeriodicalId":23148,"journal":{"name":"TNU Journal of Science and Technology","volume":"17 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-05-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"TNU Journal of Science and Technology","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.34238/tnu-jst.7733","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Mặc dù học sâu có thể giải quyết các bài toán mà các thuật toán học máy cũ không giải quyết được nhưng cần lượng dữ liệu rất lớn và trong thực tế dữ liệu không phải lúc nào cũng có sẵn trong bài toán điều khiển. Học tăng cường là một giải pháp tốt trong bài toán điều khiển robot. Trong học tăng cường, dữ liệu được tạo ra khi tác tử tương tác với môi trường. Cùng với sự ra đời của mạng noron, nhiều nghiên cứu đã tập trung kết hợp mạng noron vào học tăng cường tạo nên học tăng cường sâu. Trong bài báo này chúng tôi đề xuất mô hình học tăng cường sâu mới dựa trên sự cải tiến thuật giải Deep Q Learning truyền thống bằng cách kết hợp các kỹ thuật: Fixed_Q Target, Double Deep Q, Prioritized Experience Replay, với mô hình mạng VGG16, ứng dụng điều khiển robot xếp hàng hóa với không gian trạng thái tự thiết kế sử dụng Unity ML-Agents. Mô hình đề xuất được thực nghiệm, so sánh đánh giá hiệu quả so với mô hình ban đầu. Kết quả cho thấy phương pháp đề xuất hội tụ nhanh và khắc phục được hiện tượng ước lượng quá mức giá trị Q.