cd2025 協同產品設計實習 Scrum-1 demo 網站

  • Home
    • SMap
    • reveal
    • blog
  • About
    • AI
    • Server
  • Tasks
    • Wink
      • IPv6
      • Fossil
    • task1
      • list
    • task2
      • w3
    • task3
    • task4
      • w4
      • w5
      • w6
    • task5
      • w7
      • w8
      • Blender
      • Webots
      • Deepbots
    • task6
      • Since w10
      • Shooter
      • Closing
  • Homework
    • HW1
      • Tutorial1
    • HW2
    • HW3
  • Midterm
  • Exam
    • Exam1
    • Exam2
    • Exam3
  • Final
  • Brython
Webots << Previous Next >> task6

Deepbots

Deepbots: A Webots-Based Deep Reinforcement Learning Framework for Robotics

概要

Deepbots 是一個開源框架,結合了 OpenAI Gym 介面和 Webots 機器人模擬器,以標準化方式在各種機器人場景中應用深度強化學習(DRL)。該框架旨在減少開發工作量,讓研究人員能夠輕鬆地在 Webots 中開發 DRL 方法。本文通過代碼示例和三個難度不同的案例展示了該框架的有效性。

主要貢獻

  • 提供一個易於使用的 DRL 介面,結合 OpenAI Gym 和 Webots。
  • 簡化了 DRL 方法的開發,處理了低層細節。
  • 提供即用型標準化環境和額外的監控工具(如 tensorboard 日誌和繪圖)。

重要特點

  • Webots: 專業的 3D 機器人模擬器,支持多種機器人和傳感器。
  • OpenAI Gym: 標準化的 DRL 介面,提供經典的 agent-environment 循環。
  • Deepbots 框架: 作為 Webots 和 DRL 算法之間的中介,提供多層次的抽象和高代碼可讀性及可重用性。

相關工作

  • OpenAI Gym: 標準化 RL 測試環境,但僅限於簡單、不現實的場景。
  • Gazebo: 另一個流行的機器人模擬器,但圖形質量較低。
  • Isaac Gym: 提供照片真實渲染和平行處理,但為閉源軟件。

Deepbots 架構

  • Supervisor Controller: 監督者控制器,負責從環境中獲取觀察並與 agent 交流。
  • Robot Controller: 機器人控制器,負責從傳感器讀取數據並執行動作。
  • 通信機制: 使用發射器和接收器進行消息傳遞。

案例環境

  1. CartPole: 維持倒立擺垂直,使用 PPO 算法。
  2. Pit Escape: BB-8 機器人從坑中逃脫,使用 PPO 算法。
  3. Find the Ball and Avoid Obstacles: E-puck 機器人找到目標並避開障礙物,使用 DDPG 算法。

結論

Deepbots 為想在高保真模擬器 Webots 中應用 RL 和 DRL 的研究人員提供了一個標準化的方法,適用於多種研究和教育用途。

參考文獻

提供了一系列相關文獻和資源鏈接,包括 OpenAI Gym、Gazebo、Isaac Gym 等。

Deepbots 框架的源代碼和更多信息可在 GitHub 上找到。


Webots << Previous Next >> task6

Copyright © All rights reserved | This template is made with by Colorlib