Vẫn chưa hiểu 100% nhưng đại khái hiểu ý sơ sơ. → sau đó đọc lại note của Lilian lại dễ hiểu hơn
Biết đến cái này nhờ đọc loạt bài của Lilian về Object Detection Reading: Object Detection for dummies (Lilian Weng)
👉 The paper.
Overfeat is a pioneer (tiên phong) model of integrating the classification, localization and object detection tasks (cái trước là sub task của cái sau) all into one convolutional neural network.
- classification: architecture gần giống alexnet + cải tiến hơn.
- Để có thể detect hình, sliding window là 1 cách hiệu quả nhưng đòi hỏi nhiều computations + có rất nhiều vùng trùng nhau → ConvNets hiệu quả trong trường hợp này bởi vì they share computations common to overlapping regions.
1st part (hàng trên): intuitively we can say that the final 11 encodes information of 1414 input
- Localization: Classification trained network is replaced by a regression network instead of a classification layer and train it to predict the bounding boxes at each spatial location and scale.
- Detection: the main difference with the localization task is the necessity to predict a background class when no object is present.
- C4W3L04 Convolutional Implementation Sliding Windows - YouTube ← bài giảng của Andrew course DL.
- (Chưa xem nhưng nên xem lần kế) OverFeat | Lecture 38 (Part 1) | Applied Deep Learning - YouTube ← có 1 slide liệt kê toàn bộ các bước của bài báo về Overfeat!