Masterarbeit : Design und Vergleich von Fehlerfunktionen für einen Objektdetektor in Benutzeroberflächen

Studiengänge: Informatik, Informationstechnik

Hintergrund:

Benutzeroberflächen sind reich an visuellen Eigenschaften, wie Symbolen, Texten, Farbkombinationen und räumlichen Beziehungen. Diese Eigenschaften sind zurzeit nicht in einem frei Verfügbaren Modell repräsentiert. Benutzeroberflächen haben für Objekterkennung, im Vergleich zu natürlichen Bildern, verschiedene Herausforderungen:

Wenige Klassen, wie Text, Buttons und Cards, sind überrepräsentiert
Wenige Klassen, wie spezielle Icons, sind unterrepräsentiert
UIs haben eine geringe Farbvielfalt
Objekte überlappen nicht (sind nur ineinander verschachtelt)
Klassen müssen nicht Skaleninvariant sein (Ein Icon wird ähnlich groß auf verschiedenen Benutzeroberflächen sein)
Einige Klassen können nicht rotiert werden (B. Pfeil links, Header, Footer)
Verhältnis von Höhe zu Breite (Eher Rechteckige Objekte)
Viele kleine Objekte

Dies führt dazu, dass aktuelle Fehlerfunktionen und Data Augmentation Pipelines nicht optimal funktionieren.

Hypothese: Eine speziell designte Fehlerfunktion für Objekterkennung für Benutzeroberflächen erhöht die Accuracy.

Bestrafung von Bounding Box Überlappungen
Berücksichtigung von Skalen
Berücksichtigen von Klassen Ungleichheiten
One-Stage, Two-Stage und Anchor-Free Object Erkennern

Ihre Aufgabe

Trainieren von verschieden Objekterkennungen auf einen UI Dataset mit Standard Fehlerfunktionen und Data Augmentation Pipelines
- One-Stage (RetinaNet)
- Two-Stage (Faster R-CNN)
- Anchor-Free (CenterNet, CenterNet2 oder FCOS)
Anwenden aktueller Fehlerfunktionen, wie Equalization Loss oder Focal Loss
Anpassung von Hyperparametern, wie Anchor Boxen
Entwickeln einer Data Augmentation Pipeline und Fehlerfunktion unter Berücksichtigung aller Eigenschaften
Evaluierung und Implementierung
Wissenschaftliche Aufbereitung und Dokumentation

Wir bieten

Intensive Betreuung
Arbeiten mit Start Up
Eine angenehme Arbeitsatmosphäre und konstruktive Zusammenarbeit

Wir erwarten

Selbstständiges Denken und Arbeiten
Kenntnisse in Python (Tensorflow oder Keras)
Kenntnisse neuronaler Netze

Neugierig? Kontaktieren Sie bitte: Dominik Klotz dominik.klotz@askyourui.com Yexu Zhou zhou@teco.edu

Referenz:

[1] Equalization Loss fo Long-Tailed Object Recognition: https://arxiv.org/pdf/2003.05176.pdf

[2] Focal Loss for Dense Object Detection: https://arxiv.org/pdf/1708.02002.pdf

[3] Faster R-CNN: https://arxiv.org/abs/1506.01497

[4] FCOS: Fully Convolutional One-Stage Object Detection: https://arxiv.org/abs/1904.01355

[5] CenterNet: Keypoint Triplets for Object Detection: https://arxiv.org/abs/1904.08189

[6] Feature Pyramid Networks for Object Detection: https://arxiv.org/abs/1612.03144

[7] Object as Points: https://arxiv.org/abs/1904.07850

[8] End-to-End Object Detection with Transformers: https://arxiv.org/abs/2005.12872