
強化学習入門レシピ本を書きたい俺2
本記事にはアフィリエイト広告が含まれます。
HomeMadeGarbage Advent Calendar 2025 |4日目
前回は強化学習入門レシピ本の制作をめざして、ブラシレスモータによるリアクションホイール倒立振子の強化学習実施までのおさらいをしました。
前回得た強化学習結果がコチラ↓
ホイール回転抑制の報酬重みを調整して
なんとか揺れが抑制できた#強化学習 pic.twitter.com/81Mr7eUTpA— HomeMadeGarbage (@H0meMadeGarbage) November 30, 2025
今回はSim2Realのおさらいとレシピ執筆に際して機体の構成について検討します。
目次
Sim2Real (おさらい)
前回得た強化学習結果を実機で確認します。いわゆるSim2Realです。
学習結果のニューラルネットワーク構成は以下の通り
観測 (入力) は 機体角度、機体角速度、ホイール回転速度の3次元で
64ユニット×2層のネットワークを介して行動 (出力) は正規化されたモータのトルクとなります。
“強化学習への道”でも実施した通りニューラルネットワークを実機のESP32に移植してSim2Realを実施しました。
強化学習入門レシピ本を書きたい俺
強化学習結果 Sim2Real
まぁ強化学習もなかなかやるじゃない pic.twitter.com/XCRvVMkaLE— HomeMadeGarbage (@H0meMadeGarbage) December 1, 2025
観測した機体傾き角度及び角速度とホイール回転速度をニューラルネットワークに入れて得られたモータトルクでブラシレスモータを駆動しています。
MuJoCoで確認 (Sim2Sim) した通りの倒立動作が実現されております。
強化学習凄いよね。
でもまだ私の真心を込めた手動PIDのほうが良い倒立できてるかな?
強化学習入門レシピ本を書きたい俺
真心を込めた手動パラメータ調整
実に素晴らしい倒立 pic.twitter.com/esTxjgHqie— HomeMadeGarbage (@H0meMadeGarbage) November 29, 2025
強化学習の報酬設計をもっと頑張る余地はあると思うのでレシピ執筆までに修行を重ねます。
強化学習の流れ
ひととおり強化学習のおさらいが終わりましたので、流れをまとめておきましょう。
- 実機製作
Sim2Realを見据えて実機の用意が必要です。
ここではブラシレスモータによるリアクションホイール倒立振子をテーマとします。
- MuJoCoモデル化
強化学習を実施するためのシミュレーションモデルをMuJoCoで製作します。
学習結果の確認にもこのMuJoCoモデルを使用します (Sim2Sim)。
- 強化学習実施
学習環境を構築して報酬設計をして所望の倒立動作を学習します。
- Sim2Sim
得られた学習結果でMuJoCoモデルを動かして動作確認
- Sim2Real
得られた学習ニューラルネットワークを実機に移植して動作確認
以上が強化学習の一連の流れです。
場合によっては手順をさかのぼってフィードバックさせてモデルや学習をブラッシュアップさせる必要もあります。
この流れをまとめて皆様に紹介し実施していただくためのレシピを完成させるのが本連載の目的となります。
実機検討
レシピ制作にむけて倒立振子実機の構成を検討します。
おさらいに使用した機体はドローン用ブラシレスモータをESP32搭載モータドライバ基板で駆動したものとなります。
それぞれ部品は低価格でよい構成なのですが、IMUセンサをはんだ付けで追加しており 多くの人々に楽しめるものとはいいがたいです。
そこで今回のレシピでは Roller485 Lite による倒立振子を採用しようと思います。
Roller485
速度PIDがっつりいじって速度モードでもリアクションホイールできた速度モードだと起き上がりができるのよな pic.twitter.com/8bsg38gJLC
— HomeMadeGarbage (@H0meMadeGarbage) November 16, 2025
Roller485 LiteはI2Cで回転制御が可能です。
これであれば はんだ付けなしで容易に実機が構築できます。
次回以降は Roller485 Lite による倒立振子を製作して学習モデルなどを準備したいと思います。
おわりに
ここではブラシレスモータによるリアクションホイール倒立振子の強化学習Sim2Real実施まで確認しました。
レシピ向けの実機の方針も決まったので次回以降は新規機体での強化学習を進めていきます。
今は多くの方々に愛されるレシピを制作したい気持ちでいっぱいです。
ではまた



