학교 공부/컴퓨터비전

16(2). Object Detection(Image Retrieval)

경북대학교컴퓨터학부 2022. 12. 10. 18:51

📌 Bag-of-features models

  • 특징들을 모아놓은 모델이다
  • 컴퓨터는 인간의 언어를 알지 못한다. 그래서 컴퓨터는 어휘의 빈도에 대해 통계적 언어 모델을 만드는 것이다. 이 모델을 가지고 여러 문서를 대조하여 특정 문서를 찾아내는 것이다
  • Bags of Words를 사용하면 두 문서가 동일한지 비교 가능히다. 두 문서는 keyword만 보아도 다른 문서라는 것을 쉽게 알 수 있다

 

 

📌 Bag-of-words(BoF) 모델의 기원

 

origin 1 : bag-of-words model

  • 순서없는 문서들을 사전에 나오는 단어의 빈도수로 표현하였다

origin 2 : Texture recognition

  • texton : 사전 주의력이 있는 인간의 질감 인식의 추정 단위
  • 기본 요소 또는 texton이 반복되는 것으로 인지할 수 있다
  • 확률적 텍스처(stochastic texture)의 경우 텍스트의 정체성은 공간적 배열보다 어떤 texton을 가지는 것이 더 중요하다

Bag-of-feature model(BoF model)은 결국 이러한 feature가 될 수 있을 것 같은 부분들을 모아놓은 것이다

 

 

📌 Bag-of-features steps

1. Feature extraction

  • Detect patch들을 통해 extract patch를 추출하고, 그것을 계산하여 descriptor를 만든다

 

2. Learning the visual vocabulary

  • 도출된 feature 중에서는 상당히 유사한 것들이 존재한다
  • 비슷한 것들을 하나로 모아주기 위해서 k-menas와 같은 clustering 기법을 사용한다

3. Quantize features using visual vocabulary

  • unsupervised learning을 통해서 clustering을 진행하였고, 군집화를 완료하였다
  • 각 cluster의 중심에 있는 vector들을 codevector라고 한다
  • codevector들로 구성된 codebook을 생성해야 한다
  • codebook = visual vocabulary(어휘)
  • codevector = visual word(단어)
  • 각 image를 codebook으로 표현이 가능하고, feature와 가장 비슷한 codevector를 codebook의 bin에 채워서 codebook을 완성한다

 

 

 

📌 Visual words/bags of words

  • geometry/deformations/viewpoint에 대해서 유연하다
  • image content의 요약이라고 생각할 수 있다
  • image set에 대한 고정된 차원의 vector를 제공한다
  • 실전에서 아주 결과가 좋다

 

 

📌 bag이 전체 image를 나타낸다면?

  • 아래 사진에서 image의 대부분 색은 초록색이므로, word에 대한 bag를 만들 수 없다

 

 

📌 Spatial pyramid

  • 전체 사진에 대해서는 의미가 없으므로 각각의 spatial bin으로 나누어 histogram을 계산한다
  • locally orderless representation은 각각의 level에서 해결될 것이다