본문 바로가기

3d segmentation3

[paper review] PTv2, PTv3 (Point Transformer) 논문리뷰 안녕하세요. 이번 포스트는 lidar segmentation에서 높은 성능을 보이고 있는 Point Transformer관련 논문리뷰 진행하겠습니다. 간략하게 trasnformer관련 task들을 살펴보면 image 도메인에서는 ViT가 대표적입니다. 문제는 ViT는 이미지 전체에 대해 global attention을 수행하기에 메모리를 많이 잡아먹는 단점이 있어 Swin-Transformer에서 이를 해결하기 위해 grid base의 local attention을 수행하여 이를 해결합니다.Pointcloud도메인에서는 크게 prjection, voxel, point 방법들이 있는데 projection방법은 다양한 방법으로 image plane으로 projection한 후에 2D CNN기반의 model을.. 2024. 12. 12.
[paper review] Spherical Transformer for LiDAR-based 3D Recognition 논문리뷰 포스팅할 논문은 현재 기준 semantic segmentation leaderboard인 sematic KITTI에서 SoTA 성능, NuScenes 데이터에서는 rank2 에 랭크되어 있는 Spherical Transformer 모델입니다. 해당 논문은 기존의 transformer를 사용한 segmentation 모델의 약점인 SPARSE DISTANCE POINTS를 radial window self-attention을 이용하여 문제를 푼 모델입니다. Intro 기존의 방법들은 local operator를 사용하거나(SparseConv), 2D CNN등을 응용하여 사용하였습니다. 이 방법들은 sparse distant point문제의 해결에 굉장히 취약합니다. 그 원인은 receptive field가.. 2023. 8. 27.
[paper revew] pointnet 논문 리뷰 이번 포스팅은 3D pointcloud detection의 고전 pointnet를 보겠습니다. PointNet pointnet은 딥러닝을 사용한 pointcloud detection 분야의 고전으로 현재 많은 알고리즘의 토대가 되는 논문입니다. 우선 3D pointcloud의 성질부터 이해할 필요가 있는데, unordered point set이라는 점입니다. image는 픽셀이라는 정해진 discrete한 공간에 있다면 pointcloud는 유클리드 공간이라는 continuous한 공간에 있습니다. 그래서 많은 다른 알고리즘들이 voxel grid를 만들어서 마치 image처럼 처리를 합니다. 즉, pointcloud를 뉴럴넷으로 detection문제를 해결하기 위해서는 1. unordered 2. in.. 2022. 11. 18.