詳細解釋
由三維空間中的點組成的數據結構,表示物體或場景的幾何形狀,是 3D 掃描、LiDAR、深度相機的輸出格式。
數據結構:
- 每個點:(x, y, z) 坐標
- 可選屬性:顏色 (RGB)、法向量、強度、時間戳
- 稀疏性:非結構化,不像網格有連接關係
獲取方式:
- LiDAR:激光雷達,自動駕駛車輛主要傳感器
- 結構光/ToF:iPhone Face ID、Kinect
- 多視角重建:照片立體視覺
- 深度相機:RealSense、Zed
處理任務:
- 分割:區分地面、建築、車輛、行人
- 目標檢測:3D 邊界框
- 語義分割:每個點的類別標籤
- 配準:多幀點雲對齊(ICP 算法)
- 重建:點雲 → 網格/表面
深度學習方法:
- PointNet:首個直接處理點雲的 CNN
- PointNet++:層次化特徵學習
- VoxelNet:體素化後 3D CNN
- Point Transformer:注意力機制處理點雲
應用:
- 自動駕駛:周圍環境感知
- 機器人:SLAM、導航、抓取
- AR/VR:空間映射、遮擋檢測
- 工業檢測:零件尺寸測量
- 建築:BIM、施工進度追踪
挑戰:
- 無序性:點雲無固定順序,需排列不變性
- 稀疏性:大部分空間為空
- 大規模:自動駕駛每幀數十萬點
這是「3D 感知」的基礎數據格式—— 從 2D 圖像走向 3D 世界。