ぱたへね

はてなダイアリーはrustの色分けができないのでこっちに来た

Diffusion Policyが難しい

ここの実装を動かそうとしている。

github.com

なんとかGenesisで学習データの生成、学習、学習結果の確認まで進める事ができた。 結果はこれで駄目である。

ここまでのまとめ

  • シミュレータと学習環境の構築を一人でやるのは辛い。
  • 先にPPOを動かしておくと確実に動く部分が分かってうれしい
  • Gym環境+各自が作るラッパーが辛い
  • Gym環境、バージョン指定が辛い。
  • observationの後半に1詰めをするところがあってなにをやっているのかわからない
  • Actionが8x8のような行列で出てきて、どう扱うのか分からない
  • GripperのOn/Offをシミュレータと学習環境でどうさばくのかわからない
  • Genesisを最新版にしたらTaichi周りで動かなくなって辛い
  • ハンドが対象物に届いたらGripperを1にして把持したいが、Policyが初期位置からいきなりGripper=1を返してくる。

先が長いが、一個ずつ対応して行きたい。

学習データが、初期位置から対象物をつかんで、初期位置に戻ろうとしているが、対象物にハンドが接触した時点で終了にしたい。これでタスクの難易度が下がるから、もう少し追いやすくなると思う。