3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D…



Original Source Here

Network

3D-CVF의 LiDAR Pipeline은 SECOND 구조를 가져갔고, Camera Pipeline은 KITTI 2D object detection task를 위해 pre-train된 FPN18구조를 사용하였다.

Cross-View Feature Mapping

Auto-Calibrated Projection Method

보통 카메라 feature을 라이다 좌표계로 projection하려면 라이다 좌표계에서의 3D voxel map을 설정하고 각 voxel의 중심 좌표를 카메라 좌표계로 정사영 시킨 후 해당되는 카메라 피처의 값을 가져와 voxel에 할당하는 방식으로 이루어진다. 이 방법을 따랐을 떄 문제점은 interpolation을 수행하지 않았기 때문에 discrete한 feature가 얻어지는 점과 noise가 있을 수 있는 calibration matrix의 성능에 의존하게 된다는 점이다. 이 부분을 네트워크가 스스로 학습할 수 있게 우리는 voxel의 중심 좌표를정사영한 카메라 좌표계에서 주변 4개의 픽셀을 얼만큼의 비율로 interpolation할지 학습하는 Auto-Calibrated Projection Method를 제안하였다. 이 방법을 씀으로서 information fusion에 용이하고 비교적 continuous한 fusion feature을 얻을 수 있게 된다.

Adaptive Gated Fusion Network

Adaptive gated fusion network

Introduction에서도 말했듯이 3D detection task에서 라이다 데이터의 중요도가 너무 높아서 단순히 두 센서의 feature을 concat하게되면 네트워크가 라이다 데이터만 사용하게 되어 오히려 안쓰느니만 못한 결과를 얻게 된다. 그러나 라이다 데이터의 경우 거리가 멀면 sparse해진다는 단점이 있고 object의 confidence를 판단하는데 있어서 카메라 feature가 도움을 줄 수 있는 부분이 있는데 어떻게하면 네트워크가 카메라 데이터를 사용할 수 있을지에 대해 고민하였고 그에 대한 해답으로 나온 Network가 Adaptive Gated Fusion Network이다.
우리가 제안한 방법은 라이다 feature와카메라 feature를 입력으로 각 feature를 강화시키는 spatial attention map을 만들어 각 feature에 pixel-wise multiplication해주는 구조로 되어있다. 이렇게 설계하면 네트워크는 두 센서의 feature을 바탕으로 각 센서 feature의 부족한 부분과 부족하지 않은부분을 pixel단위로 학습하게 되며 결과적으로 각 센서 feature의 필요한 부분만 남기고 불필요한 부분은 없애주게 된다.

(a) vanilla fusion feature (b) with auto-calibrated fusion feature and dense camera voxel structure (c) applying adaptive gated fusion

그림으로 보면(b) 형태를 가지고있는 projected camera feature가 Adaptive Gated Fusion Network를 통과하게 되면 (c)형태가 된다. 라이다 데이터를 보고 카메라 feature에서 어디가 필요한지 판단하게 되고, 빨간색으로 activation된 부분은 물체검출을 위해 필요하다를 스스로 학습하여 필요한 부분만 남기게 되는 것이다.
결과적으로 Gated Lidar Feature와 Gated Projected Camera Feature을 얻게 되고 이를 concat한 Joint Camera-LiDAR feature을 입력으로 1차 결과를 뽑게 된다.

3D-RoI Fusion-based Refinement Region

Region Proposal Generation

일반적인 RPN 네트워크와 동일하게 작동한다. 이 네트워크에서는 Joint Camera-LiDAR Feature을 입력으로 bounding box의 위치 정보와 confidence를 출력하게 되고 이중 높은 confidence 기준으로 sorting한 후 NMS를 적용해서 겹치는 박스를 제거하고 남은 proposal을 refinement network에 전달해주게 된다.

3D RoI-based Feature Fusion

예측한 박스의 좌표에 근거해 rotated 3D RoI alignment를 이용하여 Joint Camera-LiDAR feature에서 각도 정보와 3차원 좌표를 이용해 필요한 정보를 crop해오게 된다.

Illustration of the proposed RoI grid-based pooling of camera features

동시에 예측한 bounding box 정보 기반으로 카메라 정보를 추가적으로 이용하기 위한 RoI grid-based pooling방법을 제안하였다. 예측한 bounding box를 균등하게 r×r×r 의 grid로 나눈 후 각 grid point를 camera 좌표계로 projection한 후 해당되는 camera feature를 grid point로 다시 가져온다. 이후 PointNet 기반의 encoder을 사용해 3D RoI Grid-based Camera Feature을 만들게 되고 이를 rotated 3D RoI alignment한 feature와 같이 이용한다. 이를 통해 z축까지 반영된 caemra feature을 최종 결과에 이용할 수 있게 하였다.

Training Loss Function

대부분의 로스 함수는 기존 네트워크와 같게 가져갔지만 3D IoU loss를 추가하였다. confidence 만으로는 예측한 bounding box의 정확도를 정확히 예측하기 힘들다고 판단하여 당시에 다양한 3D object detector에서 사용된 loss이다. 예측한 box와 ground truth의 3D IoU를 계산하고 이를 loss target으로 잡아 confidence가 높지만 IoU가 작은 bounding box에 대해 loss를 부과하는 구조이고 큰 성능 향상을 가져온다.

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: