ここの実装を動かそうとしている。
なんとかGenesisで学習データの生成、学習、学習結果の確認まで進める事ができた。 結果はこれで駄目である。
三連休のDiffsion Policyの結果です。これが今の限界。 pic.twitter.com/ij9RR2fhsN
— natsutan (@natsutan) 2025年7月24日
ここまでのまとめ
- シミュレータと学習環境の構築を一人でやるのは辛い。
- 先にPPOを動かしておくと確実に動く部分が分かってうれしい
- Gym環境+各自が作るラッパーが辛い
- Gym環境、バージョン指定が辛い。
- observationの後半に1詰めをするところがあってなにをやっているのかわからない
- Actionが8x8のような行列で出てきて、どう扱うのか分からない
- GripperのOn/Offをシミュレータと学習環境でどうさばくのかわからない
- Genesisを最新版にしたらTaichi周りで動かなくなって辛い
- ハンドが対象物に届いたらGripperを1にして把持したいが、Policyが初期位置からいきなりGripper=1を返してくる。
先が長いが、一個ずつ対応して行きたい。
学習データが、初期位置から対象物をつかんで、初期位置に戻ろうとしているが、対象物にハンドが接触した時点で終了にしたい。これでタスクの難易度が下がるから、もう少し追いやすくなると思う。