You Only Look Once

You Only Look Once
You Only Look Once
Versi pertama	2015
Genre	Deteksi objek; Jaringan saraf konvolusional; Visi komputer;
	Sunting di Wikidata • Sunting kotak info • L • BBantuan penggunaan templat ini

Objek yang dideteksi dengan modul Deep Neural Network OpenCV menggunakan model YOLOv3 yang dilatih pada dataset COCO yang mampu mendeteksi objek dari 80 kelas umum

You Only Look Once (YOLO) adalah serangkaian sistem deteksi objek langsung (real-time) berdasarkan Jaringan saraf konvolusional. Sejak pertama kali diperkenalkan oleh Jasoph Redmon dkk. pada tahun 2015,^[1] YOLO terus mengalami beberapa iterasi dan perbaikan, menjadikannya sebagai salah satu kerangka kerja deteksi objek yang paling populer.^[2]

Nama "You Only Look Once" atau yang dalam bahasa Indonesia diterjemahkan menjadi "Anda Hanya Melihat Sekali" mengacu pada fakta bahwa algoritma tersebut hanya memerlukan satu lintasan propagasi maju melalui jaringan saraf untuk membuat prediksi, tidak seperti teknik berbasis proposal wilayah terdahulu seperti Jaringan Syaraf Tiruan Berbasis Wilayah (R-CNN) yang memerlukan ribuan lintasan untuk satu gambar.

Gambaran

Dibandingkan dengan metode terdahulu, seperti R-CNN dan OverFeat,^[3] YOLO menerapkan satu jaringan saraf ke seluruh gambar, alih-alih menerapkan model ke gambar di beberapa lokasi dan skala. Jaringan ini membagi gambar menjadi beberapa wilayah dan memprediksi kotak pembatas dan probabilitas untuk setiap wilayah. Kotak pembatas ini diberi bobot berdasarkan probabilitas yang diprediksi.

OverFeat

OverFeat adalah model terdahulu yang berpengaruh untuk klasifikasi dan lokalisasi objek secara simultan.^[3]^[4] Arsitekturnya adalah sebagai berikut:

Melatih jaringan saraf untuk klasifikasi gambar saja ("jaringan yang dilatih untuk klasifikasi"). Ini bisa seperti AlexNet.

Lapisan terakhir jaringan yang dilatih dihapus, dan untuk setiap kelas objek yang memungkinkan, inisialisasi modul jaringan pada lapisan terakhir ("jaringan regresi"). Jaringan dasar dibekukan parameternya. Jaringan regresi dilatih untuk memprediksi koordinat $(x,y)$ dua sudut kotak pembatas objek.

Selama waktu inferensi, jaringan yang dilatih klasifikasi dijalankan pada gambar yang sama pada berbagai tingkat pembesaran dan pemotongan. Untuk masing-masing, jaringan tersebut mengeluarkan label kelas dan probabilitas untuk label kelas tersebut. Setiap keluaran kemudian diproses oleh jaringan regresi kelas yang sesuai. Hal ini menghasilkan ribuan kotak pembatas dengan label kelas dan probabilitas. Kotak-kotak ini digabungkan hingga hanya tersisa satu kotak dengan satu label kelas.

Versi

Seri YOLO terdiri dari dua bagian. Bagian asli berisi YOLOv1, v2, dan v3, yang semuanya dirilis di situs web yang dikelola oleh Joseph Redmon.^[5]

YOLOv1

Algoritma YOLO asli, yang diperkenalkan pada tahun 2015,^[1] membagi gambar $S\times S$ menjadi kisi sel. Jika bagian tengah kotak pembatas objek jatuh ke dalam sel kisi, sel tersebut dikatakan "berisi" objek tersebut. Setiap sel kisi memprediksi kotak pembatas B dan skor keyakinan untuk kotak tersebut. Skor keyakinan ini mencerminkan seberapa yakin model tersebut bahwa kotak tersebut berisi objek dan seberapa akurat model tersebut memperkirakan kotak tersebut.

Secara lebih rinci, jaringan melakukan operasi konvolusional yang sama pada setiap $S^{2}$ patch. Output jaringan pada setiap patch adalah tuple sebagai berikut: $(p_{1},\dots ,p_{C},c_{1},x_{1},y_{1},w_{1},h_{1},\dots ,c_{B},x_{B},y_{B},w_{B},h_{B})$ di mana

$p_{i}$ adalah probabilitas bersyarat (conditional) bahwa sel tersebut berisi objek kelas $i$ , bersyarat pada sel yang berisi setidaknya satu objek.
$x_{j},y_{j},w_{j},h_{j}$ adalah koordinat pusat, lebar, dan tinggi ke- $j$ kotak pembatas yang diprediksi yang berpusat di dalam sel. Beberapa kotak pembatas diprediksi untuk memungkinkan setiap prediksi mengkhususkan diri dalam satu jenis kotak pembatas. Misalnya, objek ramping mungkin diprediksi oleh $j=2$ sementara benda-benda yang kuat mungkin diprediksi oleh $j=1$ .
$c_{j}$ adalah prediksi irisan atas gabungan (IoU) dari setiap kotak pembatas dengan dasar kebenarannya yang bersesuaian.

Arsitektur jaringan memiliki 24 lapisan konvolusional diikuti oleh 2 lapisan yang terhubung penuh.

Selama pelatihan, untuk setiap sel, jika berisi kotak pembatas kebenaran dasar, maka hanya kotak pembatas yang diprediksi dengan IoU tertinggi dengan kotak pembatas kebenaran dasar yang digunakan untuk penurunan gradien. Secara konkret, misalkan $j$ menjadi kotak pembatas yang diprediksi, dan misalkan $i$ menjadi label kelas kebenaran dasar, maka $x_{j},y_{j},w_{j},h_{j}$ dilatih dengan penurunan gradien untuk mendekati kebenaran dasar, $p_{i}$ dilatih menuju $1$ , lainnya $p_{i'}$ dilatih menuju nol.

Jika sel tidak mengandung kebenaran dasar, maka hanya $c_{1},c_{2},\dots ,c_{B}$ dilatih dengan penurunan gradien untuk mendekati nol.

YOLOv2

Dirilis pada tahun 2016, YOLOv2 (juga dikenal sebagai YOLO9000)^[6]^[7] menyempurnakan model asli dengan menggabungkan normalisasi batch, pengklasifikasi resolusi yang lebih tinggi, dan menggunakan kotak jangkar untuk memprediksi kotak pembatas. Model ini dapat mendeteksi lebih dari 9000 kategori objek. Model ini juga dirilis di GitHub di bawah lisensi Apache 2.0.^[8]

YOLOv3

YOLOv3, diperkenalkan pada tahun 2018, hanya berisi perbaikan "bertahap", termasuk penggunaan jaringan backbone yang lebih kompleks, beberapa skala untuk deteksi, dan fungsi kerugian yang lebih canggih.^[9]

YOLOv4 dan seterusnya

Versi-versi YOLO berikutnya (v4, v5, dst.)^[10]^[11]^[12]^[13] telah dikembangkan oleh berbagai peneliti, yang selanjutnya meningkatkan kinerja dan memperkenalkan fitur-fitur baru. Versi-versi ini tidak secara resmi dikaitkan dengan penulis YOLO asli, tetapi dibangun berdasarkan karya mereka.^[5] Hingga tahun 2023, telah tersedia YOLOv8.^[2]

Lihat juga

Referensi

^ ^a ^b Redmon, Joseph; Divvala, Santosh; Girshick, Ross; Farhadi, Ali (2016-05-09). "You Only Look Once: Unified, Real-Time Object Detection". arΧiv:1506.02640 [cs.CV].
^ ^a ^b Terven, Juan; Córdova-Esparza, Diana-Margarita; Romero-González, Julio-Alejandro (2023-11-20). "A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS". Machine Learning and Knowledge Extraction (dalam bahasa Inggris). 5 (4): 1680–1716. arXiv:2304.00501 . doi:10.3390/make5040083 . ISSN 2504-4990.
^ ^a ^b Sermanet, Pierre; Eigen, David; Zhang, Xiang; Mathieu, Michael; Fergus, Rob; LeCun, Yann (2014-02-23), OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks, arXiv:1312.6229 
^ sermanet (2024-09-09), sermanet/OverFeat, diakses tanggal 2024-09-15
^ ^a ^b "YOLO: Real-Time Object Detection". pjreddie.com. Diakses tanggal 2024-09-12.
^ Redmon, Joseph; Farhadi, Ali (2016-12-25). "YOLO9000: Better, Faster, Stronger". arΧiv:1612.08242 [cs.CV].
^ "YOLOv2: Real-Time Object Detection". pjreddie.com. Diakses tanggal 2024-09-12.
^ Rémy, Philippe (2024-09-05), philipperemy/yolo-9000, diakses tanggal 2024-09-12
^ Redmon, Joseph; Farhadi, Ali (2018-04-08). "YOLOv3: An Incremental Improvement". arΧiv:1804.02767 [cs.CV].
^ Bochkovskiy, Alexey; Wang, Chien-Yao; Liao, Hong-Yuan Mark (2020-04-22). "YOLOv4: Optimal Speed and Accuracy of Object Detection". arΧiv:2004.10934 [cs.CV].
^ Wang, Chien-Yao; Bochkovskiy, Alexey; Liao, Hong-Yuan Mark (2021-02-21). "Scaled-YOLOv4: Scaling Cross Stage Partial Network". arΧiv:2011.08036 [cs.CV].
^ Li, Chuyi; Li, Lulu; Jiang, Hongliang; Weng, Kaiheng; Geng, Yifei; Li, Liang; Ke, Zaidan; Li, Qingyuan et al. (2022-09-07). "YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications". arΧiv:2209.02976 [cs.CV].
^ Wang, Chien-Yao; Bochkovskiy, Alexey; Liao, Hong-Yuan Mark (2022-07-06). "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors". arΧiv:2207.02696 [cs.CV].

Pranala luar

[:2-1] Redmon, Joseph; Divvala, Santosh; Girshick, Ross; Farhadi, Ali (2016-05-09). "You Only Look Once: Unified, Real-Time Object Detection". arΧiv:1506.02640 [cs.CV].

[:0-2] Terven, Juan; Córdova-Esparza, Diana-Margarita; Romero-González, Julio-Alejandro (2023-11-20). "A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS". Machine Learning and Knowledge Extraction (dalam bahasa Inggris). 5 (4): 1680–1716. arXiv:2304.00501 . doi:10.3390/make5040083 . ISSN 2504-4990.

[:3-3] Sermanet, Pierre; Eigen, David; Zhang, Xiang; Mathieu, Michael; Fergus, Rob; LeCun, Yann (2014-02-23), OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks, arXiv:1312.6229 

[4] sermanet (2024-09-09), sermanet/OverFeat, diakses tanggal 2024-09-15

[:1-5] "YOLO: Real-Time Object Detection". pjreddie.com. Diakses tanggal 2024-09-12.

[6] Redmon, Joseph; Farhadi, Ali (2016-12-25). "YOLO9000: Better, Faster, Stronger". arΧiv:1612.08242 [cs.CV].

[7] "YOLOv2: Real-Time Object Detection". pjreddie.com. Diakses tanggal 2024-09-12.

[8] Rémy, Philippe (2024-09-05), philipperemy/yolo-9000, diakses tanggal 2024-09-12

[9] Redmon, Joseph; Farhadi, Ali (2018-04-08). "YOLOv3: An Incremental Improvement". arΧiv:1804.02767 [cs.CV].

[10] Bochkovskiy, Alexey; Wang, Chien-Yao; Liao, Hong-Yuan Mark (2020-04-22). "YOLOv4: Optimal Speed and Accuracy of Object Detection". arΧiv:2004.10934 [cs.CV].

[11] Wang, Chien-Yao; Bochkovskiy, Alexey; Liao, Hong-Yuan Mark (2021-02-21). "Scaled-YOLOv4: Scaling Cross Stage Partial Network". arΧiv:2011.08036 [cs.CV].

[12] Li, Chuyi; Li, Lulu; Jiang, Hongliang; Weng, Kaiheng; Geng, Yifei; Li, Liang; Ke, Zaidan; Li, Qingyuan et al. (2022-09-07). "YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications". arΧiv:2209.02976 [cs.CV].

[13] Wang, Chien-Yao; Bochkovskiy, Alexey; Liao, Hong-Yuan Mark (2022-07-06). "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors". arΧiv:2207.02696 [cs.CV].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]