DINO 1.5 접지: 개방형 물체 감지의 경계 확장
소개
최근 몇 년 동안 제로샷 물체 감지는 컴퓨터 비전 발전의 초석이 되었습니다. 다재다능하고 효율적인 검출기를 만드는 것은 실제 응용 프로그램을 구축하는 데 중요한 초점이었습니다. IDEA Research의 Grounding DINO 1.5 도입은 이 분야, 특히 개방형 물체 감지 분야에서 상당한 도약을 의미합니다.
전제 조건
- 기본 이해: 객체 감지 개념 및 변환기 아키텍처에 대한 지식.
- 환경 설정: Python, PyTorch 및 관련 ML 라이브러리가 설치되었습니다.
- 데이터 세트 지식: 오픈 세트 객체 감지를 위한 데이터 세트 경험(예: COCO, LVIS)
- 하드웨어: 효율적인 교육 및 추론을 위해 GPU에 액세스합니다.
접지 DINO란 무엇입니까?
DINO를 기반으로 한 개방형 감지기인 Grounding DINO는 최첨단 객체 감지 성능을 달성했을 뿐만 아니라 Grounded Pre-training을 통해 다단계 텍스트 정보의 통합을 가능하게 했습니다. Grounding DINO는 GLIP 또는 Grounded Language-Image Pre-training에 비해 몇 가지 장점을 제공합니다. 첫째, 언어 모델과 유사한 Transformer 기반 아키텍처는 이미지와 언어 데이터 모두의 처리를 용이하게 합니다.
접지 DINO 프레임워크
Grounding DINO 1.5 시리즈의 전체 프레임워크(출처)
위 이미지에 표시된 프레임워크는 Grounding DINO 1.5 시리즈의 전체 프레임워크입니다. 이 프레임워크는 Grounding DINO의 이중 인코더-단일 디코더 구조를 유지합니다. 또한 이 프레임워크는 Pro 및 Edge 모델 모두에 대해 Grounding DINO 1.5로 확장됩니다.
접지 DINO는 DINO와 GLIP의 개념을 결합합니다. 변환기 기반 방법인 DINO는 엔드투엔드 최적화를 통해 객체 감지에 탁월하므로 Non-Maximum Suppression 또는 NMS와 같은 수작업 모듈이 필요하지 않습니다. 반대로 GLIP은 문구 기반, 텍스트의 단어나 문구를 이미지나 비디오의 시각적 요소에 연결하는 데 중점을 둡니다.
Grounding DINO의 아키텍처는 이미지 백본, 텍스트 백본, 이미지-텍스트 융합을 위한 기능 강화기, 언어 기반 쿼리 선택 모듈, 객체 상자 정제를 위한 교차 양식 디코더로 구성됩니다. 처음에는 이미지와 텍스트 특징을 추출하고 융합하고 이미지 특징에서 쿼리를 선택하고 디코더에서 이러한 쿼리를 사용하여 개체 상자와 해당 문구를 예측합니다.
Grounding DINO 1.5의 새로운 기능은 무엇입니까?
Grounding DINO 1.5는 언어 정보를 통합하고 작업을 구문 접지로 구성하여 객체 감지를 재정의한 이전 버전인 Grounding DINO가 마련한 기반을 기반으로 구축되었습니다. 이 혁신적인 접근 방식은 다양한 데이터 세트에 대한 대규모 사전 학습과 광범위한 이미지-텍스트 쌍 풀에서 의사 레이블이 지정된 데이터에 대한 자체 학습을 활용합니다. 그 결과 강력한 아키텍처와 의미론적 풍부함으로 인해 개방형 시나리오에서 탁월한 모델이 탄생했습니다.
Grounding DINO 1.5는 Grounding DINO 1.5 Pro와 Grounding DINO 1.5 Edge라는 두 가지 특수 모델을 도입하여 이러한 기능을 더욱 확장합니다. Pro 모델은 모델 용량과 데이터 세트 크기를 크게 확장하고 ViT-L과 같은 고급 아키텍처를 통합하며 2천만 개가 넘는 주석이 달린 이미지를 생성하여 탐지 성능을 향상시킵니다. 반면 Edge 모델은 엣지 디바이스에 최적화되어 있어 높은 수준의 이미지 기능을 통해 높은 감지 품질을 유지하면서 계산 효율성을 강조합니다.
실험 결과는 새로운 성능 표준을 설정하는 Pro 모델과 인상적인 속도와 정확성을 보여주는 Edge 모델을 통해 Grounding DINO 1.5의 효과를 강조하여 엣지 컴퓨팅 애플리케이션에 매우 적합하게 만듭니다. 이 기사에서는 Grounding DINO 1.5가 가져온 발전 사항을 자세히 살펴보고 개방형 개체 감지의 동적 환경에서 방법론, 영향 및 잠재적 미래 방향을 탐색하여 실제 시나리오에서의 실제 적용을 강조합니다.
Grounding DINO 1.5는 공개 소스에서 얻은 2천만 개 이상의 접지 이미지 데이터 세트인 Grounding-20M에서 사전 훈련되었습니다. 훈련 과정에서 잘 개발된 주석 파이프라인과 후처리 규칙을 통해 고품질 주석이 보장됩니다.
성능 분석
아래 그림은 많은 카테고리가 포함된 COCO 및 LVIS와 같은 데이터 세트에서 개체를 인식하는 모델의 기능을 보여줍니다. 이는 Grounding DINO 1.5 Pro가 이전 버전보다 훨씬 뛰어난 성능을 발휘한다는 것을 나타냅니다. Grounding DINO 1.5 Pro는 특정 이전 모델과 비교하여 눈에 띄는 개선을 보여줍니다.
이 모델은 다양한 애플리케이션을 포괄하는 35개의 데이터세트가 포함된 ODinW(ObjectDetection in the Wild) 벤치마크를 사용하여 다양한 실제 시나리오에서 테스트되었습니다. Grounding DINO 1.5 Pro는 이전 버전의 Grounding DINO에 비해 크게 향상된 성능을 달성했습니다.
COCO 및 LVIS의 Grounding DINO 1.5 Edge에 대한 제로샷 결과는 PyTorch 속도/TensorRT FP32 속도로 보고된 A100 GPU를 사용하여 FPS(초당 프레임 수)로 측정되었습니다. NVIDIA Orin NX의 FPS도 제공됩니다. 접지 DINO 1.5 Edge는 놀라운 성능을 달성하고 다른 모든 최첨단 알고리즘(OmDet-Turbo-T 30.3 AP, YOLO-Worldv2-L 32.9 AP, YOLO-Worldv2-M 30.0 AP, YOLO-Worldv2-S)을 능가합니다. 22.7 AP).
DINO 1.5 Pro 접지 및 DINO 1.5 Edge 접지
접지 DINO 1.5 Pro
Grounding DINO 1.5 Pro는 Grounding DINO의 핵심 아키텍처를 기반으로 구축되었지만 더 큰 ViT-L(Vision Transformer) 백본으로 모델 아키텍처를 향상했습니다. ViT-L 모델은 다양한 작업에서 탁월한 성능을 발휘하는 것으로 알려져 있으며, 변환기 기반 설계는 훈련 및 추론을 최적화하는 데 도움이 됩니다.
Grounding DINO 1.5 Pro가 채택한 주요 방법론 중 하나는 기능 추출을 위한 심층적인 초기 융합 전략입니다. 이는 디코딩 단계로 이동하기 전에 특징 추출 프로세스 중에 교차 주의 메커니즘을 사용하여 언어와 이미지 특징이 초기에 결합된다는 것을 의미합니다. 이러한 초기 통합을 통해 두 가지 방식의 정보를 보다 철저하게 융합할 수 있습니다.
연구에서 팀은 초기 융합과 후기 융합 전략을 비교했습니다. 초기 융합에서는 언어 및 이미지 기능이 프로세스 초기에 통합되어 감지 재현율이 높아지고 경계 상자 예측이 더 정확해집니다. 그러나 이 접근 방식은 때때로 모델이 환각을 일으키는 원인이 될 수 있습니다. 즉, 이미지에 존재하지 않는 개체를 예측한다는 의미입니다.
반면에 후기 융합은 손실 계산 단계가 통합될 때까지 언어와 이미지 기능을 분리된 상태로 유지합니다. 이 접근 방식은 일반적으로 환각에 대해 더 강력하지만 시각과 언어 기능을 마지막에 결합할 때 정렬하는 것이 더 어려워지기 때문에 감지 회상이 낮아지는 경향이 있습니다.
단점을 최소화하면서 초기 융합의 이점을 극대화하기 위해 Grounding DINO 1.5 Pro는 초기 융합 설계를 유지하면서도 보다 포괄적인 교육 샘플링 전략을 통합합니다. 이 전략은 훈련 중에 음성 샘플(관심 대상이 없는 이미지)의 비율을 높입니다. 이를 통해 모델은 관련 정보와 관련 없는 정보를 더 잘 구별하는 방법을 학습하여 높은 감지 재현율과 정확도를 유지하면서 환각을 줄입니다.
요약하면 Grounding DINO 1.5 Pro는 초기 융합 아키텍처의 강점과 약점의 균형을 맞추는 향상된 교육 접근 방식과 조기 융합을 결합하여 예측 기능과 견고성을 향상시킵니다.
접지 DINO 1.5 에지
Grounding DINO는 이미지에서 물체를 감지하는 강력한 모델이지만 많은 컴퓨팅 성능이 필요합니다. 이로 인해 자동차, 의료 장비 또는 스마트폰과 같이 리소스가 제한된 소형 장치에서는 사용하기가 어렵습니다. 이러한 장치는 이미지를 실시간으로 빠르고 효율적으로 처리해야 합니다. 에지 장치에 접지 DINO를 배포하는 것은 자율 주행, 의료 영상 처리, 컴퓨터 사진 촬영과 같은 많은 애플리케이션에 매우 바람직합니다.
그러나 개방형 감지 모델에는 일반적으로 엣지 장치에 부족한 상당한 계산 리소스가 필요합니다. 원래 Grounding DINO 모델은 다중 스케일 이미지 기능과 계산 집약적인 기능 향상기를 사용합니다. 이는 훈련 속도와 성능을 향상시키지만 에지 장치의 실시간 애플리케이션에는 비현실적입니다.
이러한 문제를 해결하기 위해 연구원들은 에지 장치를 위한 효율적인 기능 향상기를 제안합니다. 그들의 접근 방식은 낮은 수준의 기능에는 의미 정보가 부족하고 계산 비용이 증가하기 때문에 교차 양식 융합을 위해 높은 수준의 이미지 기능(P5 수준)만 사용하는 데 중점을 둡니다. 이 방법은 처리되는 토큰 수를 크게 줄여 계산 부하를 줄입니다.
에지 장치에서의 더 나은 통합을 위해 모델은 변형 가능한 self-attention을 바닐라 self-attention으로 대체하고 하위 수준 이미지 기능(P3 및 P4 수준)을 통합하기 위한 교차 스케일 기능 융합 모듈을 도입합니다. 이 디자인은 기능 향상의 필요성과 계산 효율성의 필요성 사이의 균형을 유지합니다.
Grounding DINO 1.5 Edge에서는 원래의 기능 향상기가 새로운 효율적인 향상기로 대체되었으며 EfficientViT-L1은 신속한 다중 규모 기능 추출을 위한 이미지 백본으로 사용됩니다. NVIDIA Orin NX 플랫폼에 배포할 때 이 최적화된 모델은 640 × 640의 입력 크기로 10FPS 이상의 추론 속도를 달성합니다. 이는 성능과 효율성의 균형을 유지하면서 엣지 장치의 실시간 애플리케이션에 적합합니다.
Origin Feature Enhancer와 New Efficient Feature Enhancer 비교(출처)
NVIDIA Orin NX의 Grounding DINO 1.5 Edge 시각화에는 화면 왼쪽 상단에 FPS와 프롬프트가 표시됩니다. 오른쪽 상단에는 녹화된 장면의 카메라 보기가 표시됩니다.
객체 감지 데모
API 키를 얻으려면 DeepDataSpace를 요청하십시오. API 키는 DeepDataSpace(https://deepdataspace.com/request_api)를 참조하세요.
이 데모를 실행하고 모델 실험을 시작하기 위해 우리는 테스트할 수 있도록 이 기사가 포함된 Jupyter 노트북을 만들고 추가했습니다.
먼저 저장소를 복제합니다.
!git clone https://github.com/IDEA-Research/Grounding-DINO-1.5-API.git
다음으로 필요한 패키지를 설치하겠습니다.
!pip install -v -e .
링크를 생성하려면 아래 코드를 실행하세요.
!python gradio_app.py --token ad6dbcxxxxxxxxxx
DINO 1.5 접지에 대한 실제 적용 및 결론
1.자율주행차
- 알려진 교통 표지판과 보행자, 도로에 나타날 수 있는 낯선 물체를 감지하고 인식하여 보다 안전한 탐색을 보장합니다.
- 훈련 데이터에 미리 라벨이 지정되지 않은 잔해나 동물과 같은 예상치 못한 장애물을 식별합니다.
2.감시 및 보안
- 이전에 본 적이 없더라도 제한 구역에 있는 승인되지 않은 개인이나 물체를 인식합니다.
- 공항이나 기차역과 같은 공공 장소에서 버려진 물건을 감지하는 것은 잠재적인 보안 위협이 될 수 있습니다.
3. 소매 및 재고 관리
- 원래 재고에 포함되지 않았을 수 있는 새 제품을 포함하여 매장 진열대에 있는 품목을 식별하고 추적합니다.
- 상점에서 도둑질을 암시할 수 있는 특이한 활동이나 낯선 물건을 인식합니다.
4.헬스케어
- 새로운 유형의 종양이나 희귀 질환 등 의료 스캔에서 이상 현상이나 익숙하지 않은 패턴을 감지합니다.
- 특히 장기 치료나 수술 후 회복 시 환자의 비정상적인 행동이나 움직임을 식별합니다.
5.로봇공학
- 새로운 물체나 주변 환경의 변화를 인식하고 적응함으로써 로봇이 역동적이고 구조화되지 않은 환경에서 작동할 수 있도록 합니다.
- 환경이 예측 불가능하고 낯선 물체로 가득 찬 재해 지역에서 피해자나 위험 요소를 감지합니다.
6.야생동물 모니터링 및 보존
- 생물 다양성 연구 및 보존 노력을 위해 자연 서식지에서 새로운 종이나 희귀종을 탐지하고 식별합니다.
- 불법 밀렵 활동을 나타낼 수 있는 낯선 사람의 존재나 도구가 있는지 보호 구역을 모니터링합니다.
7. 제조 및 품질 관리
- 이전에 발견되지 않은 새로운 유형의 결함을 포함하여 생산 라인에서 제품의 결함이나 이상 현상을 식별합니다.
- 다양한 물체를 인식하고 분류하여 제조 공정의 효율성을 높입니다.
이 기사에서는 개방형 물체 감지를 향상시키도록 설계된 Grounding DINO 1.5를 소개합니다. 주요 모델인 Grounding DINO 1.5 Pro는 COCO 및 LVIS 제로 샷 테스트에서 새로운 벤치마크를 설정하여 감지 정확도와 신뢰성이 크게 향상되었습니다.
또한 Grounding DINO 1.5 Edge 모델은 다양한 애플리케이션에서 실시간 객체 감지를 지원하여 시리즈의 실제 적용 가능성을 넓힙니다.
기사를 재미있게 읽으셨기를 바랍니다!
참고자료
- 원본 연구 논문
- Github 링크