이번 포스팅은 '24년 waymo에서 발표된 EMMA논문 리뷰 포스팅하겠습니다.
제목에서 알 수 있듯이 Multi modal LLM을 autonomous driving에 적용한 autonomous 필드에서는 의미있는 논문입니다.
기존의 approach는 perception, prediction, planning, control등이 따로 묘듈로 분리되어서 pipeline을 통해 autonomous mission이 수행되었습니다. 그렇다보니 target environment가 익숙하지 못한 상황에서 예기치 못한 output이 발생하는 문제가 있습니다.
이런 문제를 해결하기 위해서는 저자는 End-to-End 접근을 해야한다고 말합니다. sensor input으로부터 직접적으로 최종 control input까지 산출하기 때문에 복잡도가 낮아진다고 말합니다. 하지만 이를 위해서는 굉장히 많은 data를 통해 generlization이 필요합니다.
이에 MLLM을 사용합니다.(waymo아니 gemini 모델을 사용하였네요) MLLM은 huge data를 통해 보편적인 지식을 갖추었고 chain-of-Thought의 추론기능도 활용가능합니다.
Method
O는 모델의 language output, T는 language prompt(input), V는 image나 video를 뜻한다
다르게 표현하면 현재 state의 output probability는 위의 식과 같이 표현할 수 있다. 즉 이전의 output probability(모든 토큰)와, T, V의 input을 조건으로 해서 확률적으로 결정됩니다. 3D world를 인식하기 위한 object의 BEV좌표나 물체의 위치는 text로 변환하던지 tokenize방법을 사용하는 방법이 있는데 text변환 방식을 사용하였다고합니다.
Motion Planing
input으로 앞서 말한 360도 이미지정보와 전역적인 경로(네이게이션의 intruction) 을 통해 실제 조향, 가속, 감종을 결정합니다.
Chain-of-Thought는 추론 능력을 강화하고 가능성을 개선해주는 기술입니다(reasoning). EMMA에서는 waypoint를 prediction하는 과정에서 의사결정 근거를 함께 설명하게 사용합니다.(driving rationale)
세부적으로는 R1 - scene(날씨, 교통상황등을 서술), R2 - critical objects, R3 - Behavior, R4 - meta 으로 구분해서 off-the-shelf model들로 expert를 사용해서 미리 객체를 찾고 MLLM모델로 postprocessing한다고 합니다. 즉, human label필요없이 위의 단계를 거쳐서 자동으로 reasoning과정을 거칩니다.
Generalist
EMMA 모델을 generalize하는 과정인데, 크게 3가지 task로 분류합니다.
Spatial reasoning단계에서는 공간에서의 관계를 이해하는 능력입니다. 주된 관심사는 3D OD인데 pix2seq를 따라 3D bbox를 텍스트형식으로 모델링합니다. road graph task에서는 차선표시나 표지판드으이 의미를 추론하는 부분입니다. 마지막으로 scene understanding에서는 전체적인 장면의 맥락을 파악하는 단계입니다. 도로가 막혔는지 도로상의 object들의 목록을 본다던지의 역할을 합니다.
정리하면 chain-of-thought를 통해 최종결과인 waypoint만 출력하는것이 아니라 R1,R2,R3,R4의 의시결정 과정을 텍스트로 출력하게 하는 reasoning과정을 거치고 그렇게 함으로서 위의 3가지의 task를 수행할 수 있는 general한 model이 되었다라고 이해하면 되겠습니다.
Training
multi-task를 수행하기 때문에 batch sampling을때 데이터셋 크기에 비례해서 sampling 비율을 조절합니다. task별로 데이터셋을 준비하고 task prompt를 통해 "주행 궤적 예측", "3D object 위치 예측", "road graph예측" 등의 prompt를 통해 multi-task를 수행하고 그에 따라 각각 training을 수행합니다.
motion planining을 경우 차량 궤적이 있으면 되기 때문에 SSL이 가능하고, OD의 경우 dataset의 GT가 필요합니다. scene understading도 어느정도 label이 필요하지만 논문에서는 off-the-shelf로 대략적으로 라벨을 붙일수있다고도 설명합니다.
Experiments
WOMD, Nuscenes 두개의 public dataset에서 motion planning을 실험할 경과입니다. nuscenes에서는 sota성능을 달성했고 WOMD에서도 카메라만 사용하는 EMMA가 lidar, radar를 사용하는 다른 모델과 비슷하거나 더 높은 결과를 만들어내었다고 합니다.
Chain-of-Thought의 방식을 적용하면 단순 모델대비해서 7%개선을 확인한 ablation study입니다. 내부 데이터셋을 활용했다고 합니다.