Overfeat in object detection

Anh-Thi Dinh
draft
⚠️
This is a quick & dirty draft, for me only!
Vẫn chưa hiểu 100% nhưng đại khái hiểu ý sơ sơ. → sau đó đọc lại note của Lilian lại dễ hiểu hơn
Biết đến cái này nhờ đọc loạt bài của Lilian về Object Detection Reading: Object Detection for dummies (Lilian Weng)
👉 The paper.
Overfeat is a pioneer (tiên phong) model of integrating the classification, localization and object detection tasks (cái trước là sub task của cái sau) all into one convolutional neural network.
  • classification: architecture gần giống alexnet + cải tiến hơn.
  • Để có thể detect hình, sliding window là 1 cách hiệu quả nhưng đòi hỏi nhiều computations + có rất nhiều vùng trùng nhau → ConvNets hiệu quả trong trường hợp này bởi vì they share computations common to overlapping regions.
    • 1st part (hàng trên): intuitively we can say that the final 11 encodes information of 1414 input
  • Localization: Classification trained network is replaced by a regression network instead of a classification layer and train it to predict the bounding boxes at each spatial location and scale.
  • Detection: the main difference with the localization task is the necessity to predict a background class when no object is present.

Good to check