'#MultimodalDataset' 태그의 글 목록

Notice

Recent Posts

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

관리 메뉴

글쓰기
방명록
RSS
관리

목록#MultimodalDataset (1)

정화 코딩

Image, Text, Audio 멀티모달 데이터셋 조사

Text ↔ Image DatasetsFlickr30k Entities- 기존 Flickr30k(이미지+문장 캡션)에 명사구 별 bounding box 어노테이션 추가된 데이터셋- 이미지 + 각 이미지에 대해 5개의 문장(캡션) + 각 문장 내 명사구(phrase) ↔ bounding box 정보 ⇒ 전처리 없이 사용 가능- 이미지 31,783개, 이미지 당 객체 8.7개, 총 박스 276K개- https://arxiv.org/abs/1505.04870- https://github.com/BryanPlummer/flickr30k_entities- https://bryanplummer.com/Flickr30kEntities/ Visual Genome (VG)- Flickr 기반 이미지 + 각 이미지에 대해..

AI 2025. 7. 30. 15:30

이전 Prev 1 Next 다음

목록#MultimodalDataset (1)

정화 코딩

티스토리툴바