強化学習入門レシピ本を書きたい俺2

Home > Advent Calendar > 強化学習入門レシピ本を書きたい俺2

本記事にはアフィリエイト広告が含まれます。

すき 0
うんこ 0

HomeMadeGarbage Advent Calendar 2025 |4日目

前回は強化学習入門レシピ本の制作をめざして、ブラシレスモータによるリアクションホイール倒立振子の強化学習実施までのおさらいをしました。

強化学習入門レシピ本を書きたい俺1

 

前回得た強化学習結果がコチラ↓

 

今回はSim2Realのおさらいとレシピ執筆に際して機体の構成について検討します。

 

AudiostockでBGM・効果音を販売中!

Sim2Real (おさらい)

前回得た強化学習結果を実機で確認します。いわゆるSim2Realです。

強化学習への道3 -Sim2Real-

 

学習結果のニューラルネットワーク構成は以下の通り

 

観測 (入力) は 機体角度、機体角速度、ホイール回転速度の3次元で
64ユニット×2層のネットワークを介して行動 (出力) は正規化されたモータのトルクとなります。

 

“強化学習への道”でも実施した通りニューラルネットワークを実機のESP32に移植してSim2Realを実施しました。

観測した機体傾き角度及び角速度とホイール回転速度をニューラルネットワークに入れて得られたモータトルクでブラシレスモータを駆動しています。

MuJoCoで確認 (Sim2Sim) した通りの倒立動作が実現されております。
強化学習凄いよね。

 

でもまだ私の真心を込めた手動PIDのほうが良い倒立できてるかな?

 

強化学習の報酬設計をもっと頑張る余地はあると思うのでレシピ執筆までに修行を重ねます。

 

強化学習の流れ

ひととおり強化学習のおさらいが終わりましたので、流れをまとめておきましょう。

  1. 実機製作
    Sim2Realを見据えて実機の用意が必要です。
    ここではブラシレスモータによるリアクションホイール倒立振子をテーマとします。
     
  2. MuJoCoモデル化
    強化学習を実施するためのシミュレーションモデルをMuJoCoで製作します。
    学習結果の確認にもこのMuJoCoモデルを使用します (Sim2Sim)。
       
  3. 強化学習実施
    学習環境を構築して報酬設計をして所望の倒立動作を学習します。
     
  4. Sim2Sim
    得られた学習結果でMuJoCoモデルを動かして動作確認
     
  5. Sim2Real
    得られた学習ニューラルネットワークを実機に移植して動作確認

以上が強化学習の一連の流れです。
場合によっては手順をさかのぼってフィードバックさせてモデルや学習をブラッシュアップさせる必要もあります。

 
この流れをまとめて皆様に紹介し実施していただくためのレシピを完成させるのが本連載の目的となります。

 

実機検討

レシピ制作にむけて倒立振子実機の構成を検討します。

おさらいに使用した機体はドローン用ブラシレスモータをESP32搭載モータドライバ基板で駆動したものとなります。
それぞれ部品は低価格でよい構成なのですが、IMUセンサをはんだ付けで追加しており 多くの人々に楽しめるものとはいいがたいです。

 

そこで今回のレシピでは Roller485 Lite による倒立振子を採用しようと思います。

 

Roller485 LiteはI2Cで回転制御が可能です。
これであれば はんだ付けなしで容易に実機が構築できます。

次回以降は Roller485 Lite による倒立振子を製作して学習モデルなどを準備したいと思います。

 

おわりに

ここではブラシレスモータによるリアクションホイール倒立振子の強化学習Sim2Real実施まで確認しました。

レシピ向けの実機の方針も決まったので次回以降は新規機体での強化学習を進めていきます。

今は多くの方々に愛されるレシピを制作したい気持ちでいっぱいです。
ではまた

 

コメントはこちらから

メールアドレスが公開されることはありません。コメントのみでもOKです。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください