詳細解釋
觀察空間(Observation Space)是強化學習中Agent從環境接收的所有可能狀態的集合,是Agent決策的基礎。
類型:
- 完全觀察:看到環境完整狀態
- 部分觀察:僅見局部資訊(如撲克對手牌)
- 高維觀察:圖像、感測器數據
- 結構化觀察:向量、圖、文本
設計考量:
- 資訊完整:包含決策所需關鍵資訊
- 可處理性:適合神經網絡輸入
- 噪聲處理:對感測器噪聲魯棒
- 歷史依賴:需包含時序資訊
示例:
- 棋類:棋盤狀態向量
- 機器人:感測器讀數
- 遊戲:螢幕像素
- 交易:市場數據
與動作空間的關係:
- Observation:輸入(看到什麼)
- Action:輸出(做什麼)
部分觀察環境(POMDP):
- 需記憶歷史觀察
- 可能使用循環神經網絡 (RNN)或記憶模塊