Notice
Recent Posts
Link
목록#MultimodalDataset (1)
정화 코딩
Image, Text, Audio 멀티모달 데이터셋 조사
Text ↔ Image DatasetsFlickr30k Entities- 기존 Flickr30k(이미지+문장 캡션)에 명사구 별 bounding box 어노테이션 추가된 데이터셋- 이미지 + 각 이미지에 대해 5개의 문장(캡션) + 각 문장 내 명사구(phrase) ↔ bounding box 정보 ⇒ 전처리 없이 사용 가능- 이미지 31,783개, 이미지 당 객체 8.7개, 총 박스 276K개- https://arxiv.org/abs/1505.04870- https://github.com/BryanPlummer/flickr30k_entities- https://bryanplummer.com/Flickr30kEntities/ Visual Genome (VG)- Flickr 기반 이미지 + 각 이미지에 대해..
AI
2025. 7. 30. 15:30