TEKNOFEST 2022 Ulaşımda Yapay Zekâ Yarışması

Amaç ve Konu

Uçan arabaların sensör ve kamera verileri kıymetlendirilerek, uçan arabaların çevresel farkındalığının yüksek olmasını sağlamak amacıyla araştırma çalışmaları yapılmaktadır. Bu kapsamda uçan arabaların karşılaşabileceği kazaları önlemek için alt-görüş kamera görüntüleri kullanarak nesnelerin tespit edilmesine ihtiyaç duyulmaktadır. Bu yarışmada göreviniz geliştireceğiniz Yapay Zekâ tabanlı nesne tespit sistemi ile uçan arabanın kamera verilerini kullanarak taşıt ve insan nesnelerini tespit etmektir. Ayrıca araçlar şehir içinde bulunan alanlara iniş-kalkış yaptıkları için görsel iniş asistanına ihtiyaç duymaktadır. Bu asistanın Şekil 1’de gösterildiği gibi Uçan Araba Park (UAP) ve Uçan Ambulans İniş (UAİ) alanlarını tespit etmesi gerekmektedir. UAP ve UAİ alanları tespit edildikten sonra bu alanların iniş için uygun olup olmadığı belirlenmelidir. Bu alanda insan, taşıt veya herhangi bir yabancı nesnenin olmadığı doğrulanmalıdır. Ayrıca uçan arabaların gece, gündüz ve zorlu hava şartlarında (yağmur, sis, kar) hizmet verdiği ve aracın kamerasında teknik görüntü problemlerinin (buğulanma, karıncalanma, odak bozukluğu vb.) olabileceği düşünülmelidir. Yarışmacılar modellerini kendi çekimleri ile ya da farklı kaynaklardan toplayarak oluşturdukları veri setlerini kullanarak eğitebilir ve test edebilirler. Yarışma esnasında değerlendirme için kullanılacak veri setine ait detaylı tanım (irtifa, kamera çözünürlüğü, minimum nesne boyutları vb. bilgiler) teknik şartnamede paylaşılacaktır. Ayrıca yarışmacılara örnek bir veri seti sağlanacaktır. Yarışma kapsamında yarışmacılar önceden kaydedilmiş görüntüler üzerinden nesne tespiti yapacaklardır. Yarışma esnasında test amaçlı kullanılacak videolar önceden etiketlenmiş olacak ve yarışmacılar verilen süre içerisinde yaptıkları doğru tespit miktarına göre puanlandırılacaklardır.

Takım Şeması

Takım, Teknofest 2022 Ulaşımda Yapay Zekâ Ön Tasarım Raporu’nda belirtilen yapısını korumak üzere, bir diş hekimi, bir bilgisayar mühendisi ve bir makine mühendisinden oluşmaktadır ve gelişen süreçte herhangi bir değişikliğe uğramamıştır. Bilgisayar mühendisi, yarışma alanındaki tecrübesi nedeniyle kaptan olarak belirlenmiştir. Takımda yer alan makine mühendisi, yarışma kapsamında örnek olarak paylaşılan veriler ile benzerlik taşıyan veri setlerinin toplanması, etiketlenmesi, daha önceki Teknofest Ulaşımda Yapay Zekâ Yarışması raporlarının incelenmesi ve kullanılan teknik yöntem ve metotlar dahilinde elde edinilen kazanımların belirlenmesi görevini yerine getirmektedir. Takımın diğer üyesi olan diş hekimi, veri setlerinin düzenlenmesi, temizlenmesi, yarışma şartlarına uygun hale getirilmesi ve kullanılması planlanlanan mimari yapının gereksinimlerini belirleme görevini yerine getirmektedir. Son olarak takım kaptanı olan bilgisayar mühendisi, mimari yapının geliştirilmesi, test edilmesi ve yarışma şart ve gereksinimlerini karşılama kriterlerine uygunluğunu kontrol etmekle görevlidir. Bu görev dağılımı sabit olmakla birlikte her takım üyesi diğer takım üyelerine yardımcı ve destek olabilmektedir.

Proje Mevcut Durum Değerlendirmesi

İlk olarak ön tasarım raporunda belirtilen ve kullanıma uygun görülen veri setleri [1][2][3][4][5], takım üyelerinden makine mühendisi tarafından toplanmış, bir araya getirilmiş ve etiketleme işlemleri planlandığı gibi gerçekleştirilmiştir. Bunun yanında, veri sayısını olabildiğince yüksek tutmak adına, etiketleme işleminin yarışma tarihine kadar devam ettirilmesi öngörülmektedir. Toplanan verilerin, teknik şartname [6] kurallarına uygunluğu kontrol edilmiş, özellikle yarışma verileri haricinde farklı veri setlerinden toplanan görüntülerden uygun bulunanlar veri setine dahil edilmiştir.

Geliştirilmesi planlanan model mimarisi (RetinaNet) [7] içinde yer alan ResNet [8] yapısının yerine, piramidal özellik hiyerarşisi sağlayan Image Cascade Network [9] mimarisi, deforme edilebilir ‘inception blokları’ [10] ile başarıyla oluşturulmuş ve test edilmiştir. RetinaNet mimarisine entegre edilen deforme edilebilir ağların mAP değerinde bir artışı desteklediği fakat bu değerin beklenilenden oldukça düşük (%2) bir artış sağladığı gözlemlenmiştir. Residual blokların ardından eklenen 1×1 konvolüsyonel katmanların, mAP değerlerini yükseltmesi beklenirken, azaltıcı bir etkisinin olması, bu evrede çıkarılan özniteliklerin model doğruluğunu ve tespitini olumsuz etkilediği anlaşılmıştır. Buna karşın RetinaNet mimarisi içerisinde yer alan ResNet yapısının Image Cascade Network ile değiştirilmesi (1.5x cascade levellerin kullanılması) model sonuçlarına olumlu yansımış ve mAP değerlerinde yukarı doğru bir yönelimi desteklemiştir. Bu noktadan yola çıkarak daha küçük (0.75x ve 0.50x) cascade levelleri eklenmiş ancak deforme edilebilir ağlardan elde edilen mAP kazancından daha az bir etki gözlemlenmiştir. Bunun nedeni veri setinde yer alan nesnelerin küçük olmasıdır, dolasıyla çözünürlüğü düşürmek her zaman optimal bir çözüm olarak tercih edilememiştir.

Test sonuçları incelendiğinde ise, geliştirilen modelin 4 farklı tür tespitinde bir fark gözlemlenmezken, başarı oranı %60 doğruluk sınırlarında kalmıştır. Bunun nedeni, aynı türe ait fakat farklı boyut ve şekillerde yer alan nesnelerin tespitinde, modelin her görüntüde benzer başarıyı gösterememesidir. Şekil 2’de örnek bir görsel eklenmiş ve ‘insan’ nesnesi olmayan yapılar ‘insan’ şeklinde etiketlenirken aynı zamanda iş araçları da ‘taşıt’ olarak etiketlenmemiştir. Özellikle aynı sahne görüntüleri üzerinde doğruluk değerlerindeki büyük farklılık (%30-%80), modele olan güveni azaltmış ve farklı çözümler aranmıştır. Geliştirilmesi planlanan modelin performansının değerlendirilmesi ve karşılaştırılması amacı ile eş zamanlı olarak kullanılan YOLOR [11] ve Faster R-CNN [12] model performanslarının çok daha iyi sonuç vermesi (%80~) farklı model seçimi ve çözüm yönteminin değiştirilmesi açısından değerlendirilmiş ve uygun bulunmuştur. Bu nedenle, mimari yapı ve metrik seçimlerinde farklı çözümlere yönelim sağlanmış, sonuç olarak ise YOLOR mimarisine birleşik ağlar eklenerek, halihazırda kabul edilebilir sonuçlar sunan modelin, ‘darknet’ [13] olarak yer alan kemik yapısındaki katmanlarda ağırlık sayısı sabit tutulmak şartı ile probleme uygun gizli katman tür dönüşümleri yapılmış, geliştirilmiş ve test edilmiştir. Yapılan değişiklikler ve modelin seçim nedeni ‘Algoritmalar’ bölümünde detaylandırılmıştır. Model sonuçları incelendiğinde, %87 oranında mAP değeri yakalanmıştır. Mimari yapıda yapılan değişiklikle beraber, özellikle veri setinin seçimi ve eşit bir şekilde eğitim test veri setlerine dağılımının yapılmasının, görüntülerin açısal olarak döndürülmesinin, görüntülere gürültü verilerinin eklenmesinin ve geometrik şekillere sahip nesne tanımlama algoritmalarının kullanılmasının problem çözümüne etkisinin [14] oldukça yüksek olduğu doğrulanmış ve etken parametre optimizasyonu bu etken dahilinde gerçekleştirilmiştir. Bu yöntemlerin etki oranının beklenilenden yüksek olmasının, görüntü boyutlarında yapılan azaltma ile bozulan görüntü yapısının benzerlik göstermesi, doğru yöntemlerin kullanıldığını doğrulamıştır.

Son olarak hali hazırda etiketlenmeye devam eden görüntüler eğitim ve doğrulama veri setlerine dahil edilmekte, model sonuçları değerlendirilerek mimari yapı gereksinimlerinin doğru bir şekilde geliştirildiği test edilmektedir. Yarışmanın bir sonraki aşaması olan simülasyon aşaması için, modelden elde edilen nesne konum bilgilerini istenilen formata dönüştürecek ve Teknofest Yarışma Kurulu tarafından bizlere iletilecek olan API ile görüntü adreslerini içeren json uzantılı dosyanın okunması ve görüntülerin birer birer çekilmesi ve bunun yanında, UAI ve UAP alanlarının görüntülerde tam halinin görünmeden önceki durumlarının ve bu alanlar üzerinde herhangi başka bir nesnenin bulunması halinde ‘inişe uygun değil’ olarak etiketlenmesi için hazırlanan python kodunda daha iyi sonuçlar elde etmek için geliştirmeler yapılmaktadır. ‘Özgünlük’ bölümünde detayları açıklanan yaklaşımların ve yöntemlerin, herhangi bir nesne tespit türünün yanlış tahmin edilmesi durumunun dolaylı olarak ‘iniş durumu’ etkenini de etkileyeceği hesaba katılarak, özellikle tespit edilen nesnelerin tür doğruluğunun maksimize edilmesi, birincil koşul olarak kabul edilmiştir. Sahip olunan sistem kaynaklarının kapasitesi dahilinde model eğitimleri gerçekleştirildiği için görüntüler orijinal boyutlarında değil, boyut indirgeme işlemi uygulandıktan sonra eğitime sokulmuştur. Bu yaklaşım büyük oranda bilgi kaybına neden olmakta ancak sahip olunan kaynaklar ile model eğitimine imkân sağlamaktadır. Şekil 3 ile eklenen görsel, mevcut durumda geliştirilmiş ve en iyi sonuçları sunan YOLOR mimarisi ile test edilmiş örnek bir görüntü üzerinde gerçekleştirilen etiketlemeyi göstermektedir.

Not: Farklı mimari sonuçlarının farklı görsellerle sunulması, farklı sahnelerdeki sonuçların sunulması için eklenmiştir. Aynı görüntü üzerinde, farklı model performansları daha önce açıklandığı gibi YOLOR mimarisinde en başarılı sonucu sunmuştur.

Algoritmalar ve Sistem Mimarisi

Veri Setleri

Ön tasarım raporunda seçilme nedenleri belirtilen VEDAI, AU-AIR, Okutama Actions, VisDrone ve VAID veri setlerinden eşit sayıda 500’er adet görüntü alınmıştır. Eşit sayıda görüntülerin alınma nedeni, farklı veri setlerin, konum, gölge, ışık, araç ve insan tipi vb. özelliklerinin model eğitiminde yanlılığa neden olmasını engellemektir. 2019 yılına ait yarışma veri etiketlerinde hatalar saptanmış ve CVAT (Computer Vision Annotation Tool) yardımcı aracı ile etiketlenerek eğitim setine dahil edilmiştir. Veri setleri ve etiket bilgileri hazırlandıktan sonra toplamda 8.800 adet görüntü %80-%20 olacak şekilde eğitim (7040) ve test (1760) veri setlerine ayrılmıştır. Bu işlem gerçekleştirilirken sahne halinde olarak gelen görüntü dizilerinde de aynı şekilde (%80-%20) oransal bir ayrım yapılarak [15], her sahne için eşit oranda öğrenme işlemi amaçlanmıştır. Yarışma veri setinde UAİ ve UAP alanlarının az sayıda ve sadece 2 sahne dizisinde yer alması, farklı ortamlarda bulunabilecek UAİ ve UAP alanlarının tespitini zorlaştırmaktadır. Bu nedenle, UAİ ve UAP alanı içeren görüntülerden bu alanlar kopyalanmış, eklenecek farklı görüntülerin, ışık, kontrast ve gölge değerlerine uygun olarak yerleştirilmesiyle beraber, sayıca diğer türler arasında oldukça az bir oranda bulunan bu alanların tespitinin iyileştirilmesi sağlanmıştır [16][17]. Kullanılan veri setlerinde deniz araçları, bisiklet, tren vb. araçların da fazla bulunmaması nedeniyle nesne sınıfları arasında sayısal olarak aşırı bir fark bulunmaktadır. Yarışma tarihine kadar eklenmesi planlanan görüntülerin, özellikle belirtilen nesne türlerinden daha fazla içermesine özen gösterilmektedir.

Algoritmalar

Gelişen süreçte RetinaNet mimarisinden istenilen sonuç elde edilememesinden dolayı, ön tasarım raporunda geliştirilecek olan RetinaNet mimarisi, YOLOR mimarisi ile değiştirilmiştir. YOLOR mimarisi ve mimaride yapılan değişiklikler aşağıda detaylı bir şekilde paylaşılmıştır. YOLO, konvolüsyonel sinir ağlarını (CNN) kullanarak nesne tespiti yapan bir algoritmadır ve görüntülerdeki nesneleri ve bu nesnelerin koordinatlarını aynı anda tespit etmektedir. YOLOR (You Only Learn One Representation), mimari ve model altyapısındaki farklılıklar nedeniyle diğer YOLO türlerinden farklı, nesne algılama için 2021 yılında çıkan bir nesne tanımlama algoritmasıdır. YOLOR, “örtülü bilgiyi ve açık bilgiyi birlikte kodlamak için birleşik bir ağ” olarak yayınlanmıştır. Paylaşılan makalede, sonuçların örtük bilgiyi kullanmanın faydasını gösterdiğini vurgulayarak, normal öğrenme veya bilinçli olarak öğrendiğiniz şeyler olarak nitelenen açık bilginin mantıksal çıkarımlarla elde edilebileceğine not düşülmüştür. Başkalarına yazılı ya da sözlü olarak anlatılması kolay olmayan bilgi ise örtük bilgi olarak nitelendirilmiştir. Açıklamalı veya iyi organize edilmiş net veriler veya görüntü veri tabanları sağlayarak sinir ağlarına açık bilgi verilmektedir. Model, bilgi kartları destesinden geçtikten sonra, artık görüntüleri ilgili tanımları veya “sınıfları” ile nesne tespitinde tecrübelenmektedir. Açık bilgi, sinir ağlarının sığ katmanlarından elde edilmekte ve bu bilgi doğrudan yapılması gereken gözlemlere karşılık gelmektedir. Bu yönüyle, RetinaNet yerine YOLOR mimarisinin seçilmesinin birinci nedeni bu özelliktir.

Örtük bilgi, YOLOR ile görevleri gerçekleştirirken makine öğrenimi modellerine etkili bir şekilde yardımcı olabilmektedir ve sinir ağları için, derin katmanlardaki özelliklerle elde edilmektedir. Gözlemlere karşılık gelmeyen ve tecrübe ile kazanılan bilgi, örtük bilgi olarak tanımlanmıştır. Özetle, sığ katmanlardan elde edilen özellikler “açık bilgi” olarak bilinirken, derin katmanlardan elde edilen özellikler ise “örtük bilgi” olarak adlandırılmaktadır. Açık model nesne türünü belirlemeye odaklanırken, örtülü model nesne özelliklerini de çıkarmaktadır. YOLOR mimarisi örtülü bilgiyi kullanmak için Manifold Alanı Azaltma, Çekirdek (Merkezi Nokta) Hizalama ve daha derin katmanlar kullanmaktadır. Manifold uzayı indirgeme, nesne türleri arasında poz tahmini ve sınıflandırma gibi çeşitli görevleri başarabilmemiz için manifold uzayının boyutlarının küçültülmesidir. Çekirdek Alanı Hizalaması ise, birden çok nesne tespiti yapan sinir ağlarında, çekirdek alanı yanlış hizalanması sorunu ile başa çıkmak için, çıktı özelliğinin ve örtük temsillerin hem toplamasını hem de çarpmasını gerçekleştirmektedir. Böylece merkezi nokta, bir ağın her bir çıktı merkezini hizalayacak şekilde çevrilebilmekte, döndürülebilmekte ve ölçeklenebilmektedir. Yarışma sürecinde gelinen aşamada, nesne çerçevelerinin doğru tespit edilmesine ve mAP değerinin yükseltilmesine büyük oranda ihtiyaç duyulması, YOLOR modelinin seçilme nedenlerinden birini oluşturmaktadır. Bunun anlamı, Özellik Piramit Ağları (FPN)’nda büyük ve küçük nesnelerin özelliklerini hizalamak için, bu özelliğin önemli olmasıdır. Ön tasarım raporunda belirtildiği gibi, RetinaNet mimarisine entegre edilmesi planlanan Image Cascade Network ve Deforme Edilebilir Ağlar ile ulaşılması planlanan hedef tam olarak bu probleme çözüm getirmek için önerilmiştir. Özellik piramitleri, farklı ölçeklerdeki nesneleri algılamak için tanıma sistemlerinde temel bileşenler olarak karşımıza çıkmaktadır. Bu nedenle, YOLOR mimarisi, daha önce belirlenen probleme özgü çözüm yöntemlerini ve benzer katman yapılarını barındırması nedeniyle çözüm mimarisi olarak RetinaNet yerine YOLOR seçilmiştir.

YOLOR mimarisi içerisinde kullanılan ‘Implicit Layer’ [18] katman sayısı öznitelik çıkarımının pekiştirilmesi için %50 oranla artırılmıştır ve bu kazancın kaybolmaması için bu katmandan sonra gelen katmanların önüne ‘Silence Layer’ [19] katmanları eklenmiştir. Ayrıca aktivasyon fonksiyonu problem için fazla esnek olduğu tespit edilen ‘mish’ [20] aktivasyon fonksiyonu yerine, ‘SiLU’ aktivasyon fonksiyonu [21] ile değiştirilerek, çözüm için görüntülerden elde edilen bilgi kazancı artırılmaya çalışılmıştır. Kayıp fonksiyonu olarak ise, normal ‘iou’ yerine, ‘ciou’ [22] fonksiyonu kullanılmıştır. YOLOR mimarisi kernel optimizasyonu gerçekleştirdiği için, hata hesaplamasının nesne merkezinden yapılmasının hem kayıp fonksiyonunun performansını görmek hem de model üzerindeki etkisini test etmek için seçilmiş ve beklendiği gibi diğer hata fonksiyonlarından daha iyi performans alınmıştır.

Özgünlük

YOLOR mimarisi yapısal olarak katmanlarda değişikliğe izin vermese de belirli katmanlarda, belirlenen katman için görüntü boyutlarında değişiklik yapılmadan eklenebilecek katmanlar, görüntülere ait çıkarılabilecek öznitelik oranını artırabilir ve problemin daha iyi öğrenilmesi sağlanabilir. Elbette bu yaklaşım modelin çalışma süresini uzatacaktır ancak halihazırda diğer nesne tanımlama modellerinden hızlı çalışması nedeniyle zamandan kayıp yaşanırken, doğru tespit edilen nesne ve nesne konum bilgilerinde kazanç sağlamaktadır. Mimari olarak yapılan değişiklikler şu şekildedir:

‘Darknet’ mimarisinde kullanılan ‘Implicit Layer’(Örtük Katman) sayısı yarı yarıya artırılmıştır. Çünkü yapılan testler örtük bilgi ile elde edinilen kazanımın açık bilgiden çok daha fazla olduğunu göstermektedir.
Tür etiketlerinin daha doğru tespitinin sağlanması amacı ile, girdiden katmanın çıktısının nasıl hesaplanacağını belirtmek yerine, katmanın çıktısının karşılamasını istediğimiz koşulları belirtebildiğimiz ‘Implicit Layer’ katmanları derinleştirilmiştir ve bu katmanlardan sonra ‘Silence Layer’ katmanları eklenerek, bu katmanlardan öğrenilen özniteliklerin kaybolması engellenmiştir.
Özdeşlik, hiperbolik tanjant ve softplus aktivasyon fonksiyonlarının birleşimi olan ‘mish’ aktivasyon fonksiyonları, sigmoid işlevini çarpma ile kullanan ‘SiLU’ aktivasyon fonksiyonu ile değiştirilmiştir. Bu yöntem aktivasyon fonksiyonunda esneklik sağlayarak problemin öğrenilmesini hızlandırmaktadır ancak zaman olarak süreci uzatmaktadır. Mish fonksiyonu daha esnek bir algoritma olmasıyla beraber daha fazla süreden kayıp olacağı için SiLU algoritmasının kullanılmasının zaman ve doğruluk oranlarını dengelemesi sağlanmaktadır.
Sonuncu, ancak en önemli katkı, veri setlerinde yer alan görüntülerin histogram grafikleri çıkarılmış ve nesne yoğunluğunun birikim gösterdiği belirli bölgeler belirlendikten sonra, görüntülerin ışık ve kontrast değerlerinin o bölgelere uygun olarak tüm görsellere uygulanması ile hem veri setinin iyileştirilmesi ve problemin çözümü için farklılık yaratan özelliklerin azaltılması, hem de mimari sonuçların doğruluk oranlarının artırımı sağlanmıştır.

Sonuç ve İnceleme

Yarışma sürecinde mimari yapı olarak değişikliğe gidilmesinin zamandan kaybı artıracağı düşünüldüğü için, geliştirilen RetinaNet mimarisi ile bu mimari yerine tercih edilen YOLOR ve diğer deneme modellerinde etkin özellik gösteren yapılar haricinde tüm parametreler eşit tutulmuş ve hızlı bir karşılaştırma gerçekleştirilmiştir. Bunun nedeni mimari seçimin istenilen seviyede doğruluk oranına ulaştırılabilmesidir. Bu bağlamda, batch_size, learning_rate, epoch_size, activation_function ve loss_function değerleri ile karşılaştırma sonuçları aşağıda paylaşılmış ve çıkarımlar aktarılmıştır.

Tablo 1. Hiperparametre Tablosu
Parametreler	RetinaNet	Faster R-CNN	YoloR
Batch size	10	10	10
Loss function	Focal Loss	Multitask	cIoU
Epoch size	50	50	50
Learning rate	0.0001	0.0001	0.0001
Activation function	Sigmoid	ReLU	SiLU

Yukarıda verilen parametre değerleri, farklı görüntü boyutlarında eğitilen ve sonuçları değerlendirilen modeller için sabit tutulmuştur. ‘Epoch size’ ve ‘Batch size’ değerleri eğitim için kullanılan kaynakların sağladığı imkân dahilinde seçilebilecek en yüksek değerler olarak belirlenmiştir. Değerlendirmeler sonrasında, ortak hiperparametre değerleri kullanılarak farklı görüntü boyutlarında deneme sonuçlarında en iyi model (YOLOR) seçilmiş, değerlendirme sonrasında, hiperparametreler sadece seçilen mimari için optimum değerlere sabitlenmiş ve yeniden eğitilmiştir. 312×312 görüntü boyutlarında verilen görüntüler için, RetinaNet ile eğitilen görüntülerin küçük nesneleri tespit etme konusunda başarılı olduğu ancak herhangi bir türe ait olmayan birçok nesneyi de bir tür olarak etiketlediği gözlemlenmiştir. Buna karşın Faster R-CNN mimarisinin farklı tür ve boyutlardaki cisimlerde eşit performans gösterdiği saptanmıştır.

Tablo 2. Görüntüler İçin Model Sonuçları (312×312)
Model	mAP₅₀Eğitim	mAP₅₀ Test	mAP₇₅ Eğitim	mAP₇₅ Test
RetinaNet	68.1 %	51.3 %	48.7 %	35.9 %
Faster R-CNN	69.7 %	69.1 %	52.4 %	49.6 %
YoloR	85.5 %	77.3 %	60.3 %	48.8 %

Bu mimaride görülen eksikler, modelin çok uzun bir sürede eğitilmesine rağmen performans olarak istenilen başarı oranlarını sunmamış olması olarak tespit edilmiştir. YOLOR modeli eğitim süresi olarak Faster R-CNN mimarisinden daha kısa sürede eğitilmiştir.

Tablo 3. Görüntüler İçin Model Sonuçları (832×832)
Model	mAP₅₀Eğitim	mAP₅₀ Test	mAP₇₅ Eğitim	mAP₇₅ Test
RetinaNet	62.2 %	56.1 %	58.3 %	42.1 %
Faster R-CNN	84.6 %	67.2 %	53.2 %	48.0 %
YoloR	96.7 %	84.3 %	77.0 %	72.3 %

Tablo 2.’de verilen değerler görüntü boyu küçültülerek eğitilen modellerin performansını karşılaştırmaktadır. Büyük başarı oranı ile YOLOR mimarisinin üstünlüğü göze çarpmaktadır, ancak bu tablo ile elde edilen sonuçların desteklenmesi için farklı görüntü boyutlarında da aynı performansın elde edilmesi gerektiği unutulmamalıdır. Eğitim ve test veri setleri tür çeşitlilik oranı eşit tutularak eğitilen model sonuçları genel olarak test sonuçlarında daha düşük değerler çıkarmıştır. Bunun sebebi, görüntüler içerisinde yer alan nesne türlerinin sayısı arasındaki fark olarak göze çarpmaktadır. Dolayısıyla, Tablo 2.’dan elde edinilen bilgiler ışığında veri setinde çeşitli tür oranları için eğitim ve test veri setlerinde hem veri artırımı hem de farklı nesne sınıflarının sayısı arasındaki farkın azaltılmasına yönelik müdahale yapılmıştır. Daha sonra RetinaNet üzerinde daha düşük cascade levelleri ile deforme edilebilir ağlar eklenmiştir. Faster R-CNN mimarisinde sadece parametre optimizasyonu gerçekleştirilmiştir. YOLOR mimarisinde ise, ‘darknet’ ağına daha derin implicit katmanları ve silence katmanları eklenmiş, aktivasyon fonksiyonu SiLU olarak değiştirilmiştir. Veri setleri, her türden eşit sayıda olmasa da oransal olarak eğitim ve test setlerinde eşit dağılım gösterecek şekilde yeniden düzenlenmiş ve veri sayısı artırılarak modeller güncellenmiş olarak yeniden eğitilmiştir. Tablo 3’te verilen sonuçlar son olarak geliştirilen ve elde edilen sonuçları barındırmaktadır. Sonuçlar incelendiğinde, YOLO mimarisinde yapılan değişikliklerin katkısı açık bir şekilde gözlemlenirken aynı etki Faster R-CNN ve RetinaNet mimarilerinde aynı etkiyi yaratmamıştır. Buradan her mimarinin kendine özgü bir yapısı olduğu ve farklı problemlerde farklı performans göstermelerinin sadece yapısal değişikliğe bağlı olmadığı anlaşılmıştır. YOLO mimari sonuçları, yapılan değişikliklerin tek tek yapılarak etkisi ölçüldüğünde oransal olarak birbirine yakın oranda katkı sağladığı ancak veri setinde yapılan düzenlemenin en büyük etkiye sahip olduğu gözlemlenmiştir. Böylece düzenli hazırlanmış ve etki noktaları doğru düşünülmüş bir veri setinin model performansına etkisi daha iyi anlaşılmıştır.

Referanslar

downloads.greyc.fr/vedai/
bozcani.github.io/auairdataset
github.com/miquelmarti/Okutama-Action
github.com/VisDrone/VisDrone-Dataset
vision.ee.ccu.edu.tw/aerialimage/
cdn.teknofest.org/media/upload/userFormUpload/Ulasimda_Yapay_Zeka_Yarismasi_Teknik_Sartname_cpN3C.pdf
Lin, T., Goyal, P., Girshick, R.B., He, K., & Dollár, P. (2017). Focal Loss for Dense Object Detection. 2017 IEEE International Conference on Computer Vision (ICCV), 2999-3007.
He, Kaiming et al. “Deep Residual Learning for Image Recognition.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016): 770-778.
Azimi, Seyed Majid et al. “Towards Multi-class Object Detection in Unconstrained Remote Sensing Imagery.” ACCV (2018).
Dai, Jifeng et al. “Deformable Convolutional Networks.” 2017 IEEE International Conference on Computer Vision (ICCV) (2017): 764-773.
Wang, Chien-Yao et al. “You Only Learn One Representation: Unified Network for Multiple Tasks.” ArXiv abs/2105.04206 (2021): n. pag.
Ren, Shaoqing et al. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.” IEEE Transactions on Pattern Analysis and Machine Intelligence 39 (2015): 1137-1149.
Redmon, Joseph. “Darknet: Open source neural networks in c.” (2013): 2018.
Radovic, Matija, Offei Adarkwa, and Qiaosong Wang. “Object recognition in aerial images using convolutional neural networks.” Journal of Imaging 3.2 (2017): 21.
machinelearningmastery.com/train-test-split-for-evaluating-machine-learning-algorithms/
Shorten, Connor and Taghi M. Khoshgoftaar. “A survey on Image Data Augmentation for Deep Learning.” Journal of Big Data 6 (2019): 1-48.
Perez, Luis and Jason Wang. “The Effectiveness of Data Augmentation in Image Classification using Deep Learning.” ArXiv abs/1712.04621 (2017): n. pag.
Zhang, Qianggong et al. “Implicitly Defined Layers in Neural Networks.” ArXiv abs/2003.01822 (2020): n. pag.
github.com/WongKinYiu/yolor
Misra, Diganta. “Mish: A Self Regularized Non-Monotonic Neural Activation Function.” ArXiv abs/1908.08681 (2019): n. pag.
Elfwing, Stefan et al. “Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning.” Neural networks : the official journal of the International Neural Network Society 107 (2018): 3-11 .
Zheng, Zhaohui et al. “Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression.” AAAI (2020).