학교 공부/컴퓨터비전
16(2). Object Detection(Image Retrieval)
경북대학교컴퓨터학부
2022. 12. 10. 18:51
📌 Bag-of-features models
- 특징들을 모아놓은 모델이다
- 컴퓨터는 인간의 언어를 알지 못한다. 그래서 컴퓨터는 어휘의 빈도에 대해 통계적 언어 모델을 만드는 것이다. 이 모델을 가지고 여러 문서를 대조하여 특정 문서를 찾아내는 것이다
- Bags of Words를 사용하면 두 문서가 동일한지 비교 가능히다. 두 문서는 keyword만 보아도 다른 문서라는 것을 쉽게 알 수 있다
📌 Bag-of-words(BoF) 모델의 기원
origin 1 : bag-of-words model
- 순서없는 문서들을 사전에 나오는 단어의 빈도수로 표현하였다
origin 2 : Texture recognition
- texton : 사전 주의력이 있는 인간의 질감 인식의 추정 단위
- 기본 요소 또는 texton이 반복되는 것으로 인지할 수 있다
- 확률적 텍스처(stochastic texture)의 경우 텍스트의 정체성은 공간적 배열보다 어떤 texton을 가지는 것이 더 중요하다
Bag-of-feature model(BoF model)은 결국 이러한 feature가 될 수 있을 것 같은 부분들을 모아놓은 것이다
📌 Bag-of-features steps
1. Feature extraction
- Detect patch들을 통해 extract patch를 추출하고, 그것을 계산하여 descriptor를 만든다
2. Learning the visual vocabulary
- 도출된 feature 중에서는 상당히 유사한 것들이 존재한다
- 비슷한 것들을 하나로 모아주기 위해서 k-menas와 같은 clustering 기법을 사용한다
3. Quantize features using visual vocabulary
- unsupervised learning을 통해서 clustering을 진행하였고, 군집화를 완료하였다
- 각 cluster의 중심에 있는 vector들을 codevector라고 한다
- codevector들로 구성된 codebook을 생성해야 한다
- codebook = visual vocabulary(어휘)
- codevector = visual word(단어)
- 각 image를 codebook으로 표현이 가능하고, feature와 가장 비슷한 codevector를 codebook의 bin에 채워서 codebook을 완성한다
📌 Visual words/bags of words
- geometry/deformations/viewpoint에 대해서 유연하다
- image content의 요약이라고 생각할 수 있다
- image set에 대한 고정된 차원의 vector를 제공한다
- 실전에서 아주 결과가 좋다
📌 bag이 전체 image를 나타낸다면?
- 아래 사진에서 image의 대부분 색은 초록색이므로, word에 대한 bag를 만들 수 없다
📌 Spatial pyramid
- 전체 사진에 대해서는 의미가 없으므로 각각의 spatial bin으로 나누어 histogram을 계산한다
- locally orderless representation은 각각의 level에서 해결될 것이다