Masterarbeit : Design und Vergleich von Fehlerfunktionen für einen Objektdetektor in Benutzeroberflächen

Studiengänge: Informatik, Informationstechnik

Hintergrund:

Benutzeroberflächen sind reich an visuellen Eigenschaften, wie Symbolen, Texten, Farbkombinationen und räumlichen Beziehungen. Diese Eigenschaften sind zurzeit nicht in einem frei Verfügbaren Modell repräsentiert. Benutzeroberflächen haben für Objekterkennung, im Vergleich zu natürlichen Bildern, verschiedene Herausforderungen:

  1. Wenige Klassen, wie Text, Buttons und Cards, sind überrepräsentiert
  2. Wenige Klassen, wie spezielle Icons, sind unterrepräsentiert
  3. UIs haben eine geringe Farbvielfalt
  4. Objekte überlappen nicht (sind nur ineinander verschachtelt)
  5. Klassen müssen nicht Skaleninvariant sein (Ein Icon wird ähnlich groß auf verschiedenen Benutzeroberflächen sein)
  6. Einige Klassen können nicht rotiert werden (B. Pfeil links, Header, Footer)
  7. Verhältnis von Höhe zu Breite (Eher Rechteckige Objekte)
  8. Viele kleine Objekte

Dies führt dazu, dass aktuelle Fehlerfunktionen und Data Augmentation Pipelines nicht optimal funktionieren.

Hypothese: Eine speziell designte Fehlerfunktion für Objekterkennung für Benutzeroberflächen erhöht die Accuracy.

  • Bestrafung von Bounding Box Überlappungen
  • Berücksichtigung von Skalen
  • Berücksichtigen von Klassen Ungleichheiten
  • One-Stage, Two-Stage und Anchor-Free Object Erkennern

Ihre Aufgabe

  • Trainieren von verschieden Objekterkennungen auf einen UI Dataset mit Standard Fehlerfunktionen und Data Augmentation Pipelines
    • One-Stage (RetinaNet)
    • Two-Stage (Faster R-CNN)
    • Anchor-Free  (CenterNet, CenterNet2 oder FCOS)
  • Anwenden aktueller Fehlerfunktionen, wie Equalization Loss oder Focal Loss
  • Anpassung von Hyperparametern, wie Anchor Boxen
  • Entwickeln einer Data Augmentation Pipeline und Fehlerfunktion unter Berücksichtigung aller Eigenschaften
  • Evaluierung und Implementierung
  • Wissenschaftliche Aufbereitung und Dokumentation

Wir bieten

  • Intensive Betreuung
  • Arbeiten mit Start Up
  • Eine angenehme Arbeitsatmosphäre und konstruktive Zusammenarbeit

Wir erwarten

  • Selbstständiges Denken und Arbeiten
  • Kenntnisse in Python (Tensorflow oder Keras)
  • Kenntnisse neuronaler Netze

Neugierig? Kontaktieren Sie bitte:  Yexu Zhou        zhou@teco.edu Dominik Klotz  dominik.klotz@askyourui.com

Referenz:

[1] Equalization Loss fo Long-Tailed Object Recognition: https://arxiv.org/pdf/2003.05176.pdf

[2] Focal Loss for Dense Object Detection: https://arxiv.org/pdf/1708.02002.pdf

[3] Faster R-CNN: https://arxiv.org/abs/1506.01497

[4] FCOS: Fully Convolutional One-Stage Object Detection: https://arxiv.org/abs/1904.01355

[5] CenterNet: Keypoint Triplets for Object Detection: https://arxiv.org/abs/1904.08189

[6] Feature Pyramid Networks for Object Detection: https://arxiv.org/abs/1612.03144

[7] Object as Points: https://arxiv.org/abs/1904.07850

[8] End-to-End Object Detection with Transformers: https://arxiv.org/abs/2005.12872