基于实时学习的知识转移减少差动轮式移动机器人学习时间

N. Kotani
{"title":"基于实时学习的知识转移减少差动轮式移动机器人学习时间","authors":"N. Kotani","doi":"10.5687/ISCIE.33.317","DOIUrl":null,"url":null,"abstract":"強化学習 [1]は,エージェントが環境から得られる報酬 を頼りに自律的に行動を獲得する手法である.これまで に,ロボットの動作生成への活用を目指した研究等,さ まざまな領域への展開が模索されている.強化学習をロ ボットの動作生成に用いる利点は,設計者がロボットの 具体的な動作を設計しなくてもよい点である.反面,強 化学習は,エージェントが試行錯誤を通して,環境に適 した行動を自ら学習するため,一般的に,多くの試行回 数を必要とする問題がある.とくに,エージェントが複 数のタスクを扱うような場合,未知のタスクに遭遇する たびに学習し直すことは効率が悪い. この問題に対して,過去に獲得した知識や,あらかじ め与えられた知識を応用することによって,学習にかか る試行回数を抑制することが考えられる.このような考 え方を実現する方法として転移学習があり,近年の機械 学習分野の研究でも注目されている話題の一つである. この転移学習を強化学習に適用することで,学習能力の 向上を目指した研究事例が報告されている [2–4]. 筆者らは,これまでに,遺伝的アルゴリズムの交叉・ 淘汰・突然変異の考え方を取り入れた強化学習手法を提 案してきた [5].そして,数値シミュレーション上の多リ ンク型ロボットアームによる経路獲得問題を対象として, 学習能力の向上とシミュレーションに要する時間を大幅 に削減できることを示し,提案手法の有効性を明らかに してきた.しかしながら,これまでのシミュレーション は,摩擦やすべり等の物理的な作用を反映しておらず, 現実環境下での学習を想定した場合の有効性については 明らかではなかった.この点において,実ロボットを用 いて実験することも考えられるが,実ロボットを用いた 実験には環境ノイズなど,さまざまな要因が含まれるた ∗ 原稿受付 2020年 8月 28日 † 大阪工業大学 情報科学部 Faculty of Information Science","PeriodicalId":403477,"journal":{"name":"Transactions of the Institute of Systems, Control and Information Engineers","volume":"16 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-12-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Reduction of Learning Time for Differential-Wheeled Mobile Robots by Knowledge Transfer for Real-Time Learning\",\"authors\":\"N. Kotani\",\"doi\":\"10.5687/ISCIE.33.317\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"強化学習 [1]は,エージェントが環境から得られる報酬 を頼りに自律的に行動を獲得する手法である.これまで に,ロボットの動作生成への活用を目指した研究等,さ まざまな領域への展開が模索されている.強化学習をロ ボットの動作生成に用いる利点は,設計者がロボットの 具体的な動作を設計しなくてもよい点である.反面,強 化学習は,エージェントが試行錯誤を通して,環境に適 した行動を自ら学習するため,一般的に,多くの試行回 数を必要とする問題がある.とくに,エージェントが複 数のタスクを扱うような場合,未知のタスクに遭遇する たびに学習し直すことは効率が悪い. この問題に対して,過去に獲得した知識や,あらかじ め与えられた知識を応用することによって,学習にかか る試行回数を抑制することが考えられる.このような考 え方を実現する方法として転移学習があり,近年の機械 学習分野の研究でも注目されている話題の一つである. この転移学習を強化学習に適用することで,学習能力の 向上を目指した研究事例が報告されている [2–4]. 筆者らは,これまでに,遺伝的アルゴリズムの交叉・ 淘汰・突然変異の考え方を取り入れた強化学習手法を提 案してきた [5].そして,数値シミュレーション上の多リ ンク型ロボットアームによる経路獲得問題を対象として, 学習能力の向上とシミュレーションに要する時間を大幅 に削減できることを示し,提案手法の有効性を明らかに してきた.しかしながら,これまでのシミュレーション は,摩擦やすべり等の物理的な作用を反映しておらず, 現実環境下での学習を想定した場合の有効性については 明らかではなかった.この点において,実ロボットを用 いて実験することも考えられるが,実ロボットを用いた 実験には環境ノイズなど,さまざまな要因が含まれるた ∗ 原稿受付 2020年 8月 28日 † 大阪工業大学 情報科学部 Faculty of Information Science\",\"PeriodicalId\":403477,\"journal\":{\"name\":\"Transactions of the Institute of Systems, Control and Information Engineers\",\"volume\":\"16 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2020-12-15\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Transactions of the Institute of Systems, Control and Information Engineers\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5687/ISCIE.33.317\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Transactions of the Institute of Systems, Control and Information Engineers","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5687/ISCIE.33.317","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

强化学习[1]是代理依靠从环境中获得的报酬来自主地获得行为的手法。目前已经探索将其应用于机器人动作生成等各种领域。将强化学习用于机器人的动作生成的优点在于,设计者无需设计机器人的具体动作。相反,由于强化学习是由代理通过试错来自行学习适合环境的行为,所以通常存在需要较多的试错次数的问题。特别是代理需要重复在处理数量的任务时,每次遇到未知的任务就重新学习的效率很低。针对这个问题,通过应用过去获得的知识或被赋予的知识来进行学习。可以考虑抑制重复的次数。作为实现这种想法的方法,转移学习是近年来在机器学习领域的研究中备受关注的话题之一。通过将这种转移学习应用于强化学习,以提高学习能力为目标的研究案例报告[2 - 4].到目前为止,笔者等人提出了采用遗传算法的交叉、淘汰、突变的思考方式的强化学习方法[5].以及数值模拟上的多以机械臂的路径获取问题为对象,展示了可提高学习能力和大幅削减模拟所需时间,并阐明了提出方法的有效性。中没有反映摩擦、滑动等物理作用,设想在现实环境下学习时的有效性还不明确。在这一点上,也可以考虑使用真人机器人进行实验,但最终采用了真人机器人。实验包含环境噪声等各种各样的因素∗原稿接收2020年8月28日†大阪工业大学信息科学部Faculty of Information Science
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Reduction of Learning Time for Differential-Wheeled Mobile Robots by Knowledge Transfer for Real-Time Learning
強化学習 [1]は,エージェントが環境から得られる報酬 を頼りに自律的に行動を獲得する手法である.これまで に,ロボットの動作生成への活用を目指した研究等,さ まざまな領域への展開が模索されている.強化学習をロ ボットの動作生成に用いる利点は,設計者がロボットの 具体的な動作を設計しなくてもよい点である.反面,強 化学習は,エージェントが試行錯誤を通して,環境に適 した行動を自ら学習するため,一般的に,多くの試行回 数を必要とする問題がある.とくに,エージェントが複 数のタスクを扱うような場合,未知のタスクに遭遇する たびに学習し直すことは効率が悪い. この問題に対して,過去に獲得した知識や,あらかじ め与えられた知識を応用することによって,学習にかか る試行回数を抑制することが考えられる.このような考 え方を実現する方法として転移学習があり,近年の機械 学習分野の研究でも注目されている話題の一つである. この転移学習を強化学習に適用することで,学習能力の 向上を目指した研究事例が報告されている [2–4]. 筆者らは,これまでに,遺伝的アルゴリズムの交叉・ 淘汰・突然変異の考え方を取り入れた強化学習手法を提 案してきた [5].そして,数値シミュレーション上の多リ ンク型ロボットアームによる経路獲得問題を対象として, 学習能力の向上とシミュレーションに要する時間を大幅 に削減できることを示し,提案手法の有効性を明らかに してきた.しかしながら,これまでのシミュレーション は,摩擦やすべり等の物理的な作用を反映しておらず, 現実環境下での学習を想定した場合の有効性については 明らかではなかった.この点において,実ロボットを用 いて実験することも考えられるが,実ロボットを用いた 実験には環境ノイズなど,さまざまな要因が含まれるた ∗ 原稿受付 2020年 8月 28日 † 大阪工業大学 情報科学部 Faculty of Information Science
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信