
強化学習入門レシピ本を書きたい俺4
本記事にはアフィリエイト広告が含まれます。
HomeMadeGarbage Advent Calendar 2025 |9日目
前回はレシピ本用の倒立振子実機の開発を行い、さらにMuJoCoモデルも完成させました。
ここではついに強化学習を実施します。
強化学習
倒立させるように強化学習させました。
↓学習結果をMuJoCoで確認 (Sim2Sim)
強化学習入門レシピ本を書きたい俺
倒立を強化学習
なかなかやるじゃない pic.twitter.com/VQZBqdXaAd— HomeMadeGarbage (@H0meMadeGarbage) December 6, 2025
安定倒立を確認できました。
100万回ステップで学習を実施して、6コアのCPUで8分程の学習時間でした。
レシピでは学習環境の構築からSim2Simの手順まで丁寧に明記したいと考えております。
Sim2Real
学習結果のニューラルネットワークをATOM matrix (ESP32)に移植して動作を確認しました。
強化学習入門レシピ本を書きたい俺
強化学習結果を実機で
つまり Sim2Real だわななかなかやるねぇ pic.twitter.com/xex3swVeLJ
— HomeMadeGarbage (@H0meMadeGarbage) December 6, 2025
実機のオフセットやモデルとの誤差で若干調整は必要ですが、学習ネットワークで倒立を確認できました。
レシピでは実機移植方法と調整した点と実機とモデルの誤差要因考察など記載したいです。
おわりに
ここではレシピ用のリアクションホイール倒立振子機体で強化学習Sim2Realまで確認しました。
容易に組める実機で倒立を強化学習という入門カリキュラムが構築できたので
早速レシピにまとめたいと思います。
まずはやってみて強化学習が何たるかを感じていただくのが良いと思いますので
その助けとなるレシピにしたいです。
その後の応用・発展の原動力になることを願いながら執筆します。
応援のほど何卒宜しくお願い致します。
