티스토리

끄적이다 나의 생각을, 그리고 한다 성장을

검색하기

16(2). Object Detection(Image Retrieval)

학교 공부/컴퓨터비전

16(2). Object Detection(Image Retrieval)

경북대학교컴퓨터학부 2022. 12. 10. 18:51

📌 Bag-of-features models

특징들을 모아놓은 모델이다
컴퓨터는 인간의 언어를 알지 못한다. 그래서 컴퓨터는 어휘의 빈도에 대해 통계적 언어 모델을 만드는 것이다. 이 모델을 가지고 여러 문서를 대조하여 특정 문서를 찾아내는 것이다
Bags of Words를 사용하면 두 문서가 동일한지 비교 가능히다. 두 문서는 keyword만 보아도 다른 문서라는 것을 쉽게 알 수 있다

📌 Bag-of-words(BoF) 모델의 기원

origin 1 : bag-of-words model

순서없는 문서들을 사전에 나오는 단어의 빈도수로 표현하였다

origin 2 : Texture recognition

texton : 사전 주의력이 있는 인간의 질감 인식의 추정 단위
기본 요소 또는 texton이 반복되는 것으로 인지할 수 있다
확률적 텍스처(stochastic texture)의 경우 텍스트의 정체성은 공간적 배열보다 어떤 texton을 가지는 것이 더 중요하다

Bag-of-feature model(BoF model)은 결국 이러한 feature가 될 수 있을 것 같은 부분들을 모아놓은 것이다

📌 Bag-of-features steps

1. Feature extraction

Detect patch들을 통해 extract patch를 추출하고, 그것을 계산하여 descriptor를 만든다

2. Learning the visual vocabulary

도출된 feature 중에서는 상당히 유사한 것들이 존재한다
비슷한 것들을 하나로 모아주기 위해서 k-menas와 같은 clustering 기법을 사용한다

3. Quantize features using visual vocabulary

unsupervised learning을 통해서 clustering을 진행하였고, 군집화를 완료하였다
각 cluster의 중심에 있는 vector들을 codevector라고 한다
codevector들로 구성된 codebook을 생성해야 한다
codebook = visual vocabulary(어휘)
codevector = visual word(단어)
각 image를 codebook으로 표현이 가능하고, feature와 가장 비슷한 codevector를 codebook의 bin에 채워서 codebook을 완성한다

📌 Visual words/bags of words

geometry/deformations/viewpoint에 대해서 유연하다
image content의 요약이라고 생각할 수 있다
image set에 대한 고정된 차원의 vector를 제공한다
실전에서 아주 결과가 좋다

📌 bag이 전체 image를 나타낸다면?

아래 사진에서 image의 대부분 색은 초록색이므로, word에 대한 bag를 만들 수 없다

📌 Spatial pyramid

전체 사진에 대해서는 의미가 없으므로 각각의 spatial bin으로 나누어 histogram을 계산한다
locally orderless representation은 각각의 level에서 해결될 것이다