Semantische Suche

Freitag, 2. Oktober 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 9. Oktober 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Fei Chen
Titel Anforderung-zu- Quelltextrückverfolgbarkeit mittels Wort- und Quelltexteinbettungen
Vortragstyp Masterarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Rückverfolgbarkeitsinformationen helfen Entwickler beim Verständnis von Softwaresystemen und dienen als Grundlage für weitere Techniken wie der Abdeckungsanalyse. In dieser Arbeit wird untersucht, wie Einbettungen für die automatische Rückverfolgbarkeit zwischen Anforderungen und Quelltext eingesetzt werden können. Dazu werden verschiedene Möglichkeiten betrachtet, die Anforderungen und den Quelltext mit Einbettungen zu repräsentieren und anschließend aufeinander abzubilden, um Rückverfolgbarkeitsverbindungen zwischen ihnen zu erzeugen. Für eine Klasse existieren beispielsweise viele Optionen, welche Informationen bzw. welche Klassenelemente zur Berechnung einer Quelltexteinbettung berücksichtigt werden. Für die Abbildung werden zwischen den Einbettungen durch eine Metrik Ähnlichkeitswerte berechnet, mit deren Hilfe Aussagen über die Existenz einer Rückverfolgbarkeitsverbindung zwischen ihren repräsentierten Artefakten getroffen werden können.

In der Evaluation wurden die verschiedenen Möglichkeiten für die Einbettung und Abbildung untereinander und mit anderen Arbeiten verglichen. Bezüglich des F1-Wertes erzeugen Quelltexteinbettungen mit Klassennamen, Methodensignaturen und -kommentaren sowie Abbildungsverfahren, die die Word Mover’s Distance als Ähnlichkeitsmetrik nutzen, die besten projektübergreifenden Ergebnisse. Das beste Verfahren erreicht auf dem Projekt LibEST, welches aus 14 Quelltext- und 52 Anforderungsartefakten besteht, einen F1-Wert von 60,1%. Die beste projektübergreifende Konfiguration erzielt einen durchschnittlichen F1-Wert von 39%.

Vortragende(r) Timo Januschke
Titel Bestimmung der semantischen Funktion von Quelltextabschnitten
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Rückverfolgbarkeitsinformationen zwischen Quelltext und Anforderungen ermöglichen es Werkzeugen Programmierer besser bei der Navigation und der Bearbeitung von Quelltext zu unterstützen. Um solche Verbindungen automatisiert herstellen zu können, muss die Semantik der Anforderungen und des Quelltextes verstanden werden. Im Rahmen dieser Arbeit wird ein Verfahren zur Beschreibung der geteilten Semantik von Gruppierungen von Programmelementen entwickelt. Das Verfahren basiert auf dem statistischen Themenmodell LDA und erzeugt eine Menge von Schlagwörtern als Beschreibung dieser Semantik. Es werden natürlichsprachliche Inhalte im Quelltext der Gruppierungen analysiert und genutzt, um das Modell zu trainieren. Um Unsicherheiten in der Wahl der Parameter von LDA auszugleichen und die Robustheit der Schlagwortmenge zu verbessern, werden mehrere LDA-Modelle kombiniert. Das entwickelte Verfahren wurde im Rahmen einer Nutzerstudie evaluiert. Insgesamt wurde eine durchschnittliche Ausbeute von 0.73 und ein durchschnittlicher F1-Wert von 0.56 erreicht.

Freitag, 9. Oktober 2020, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) David Monschein
Titel Enabling Consistency between Software Artefacts for Software Adaption and Evolution
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus
Kurzfassung Nowadays, software systems are evolving at a pace never seen before. As a result, emerging inconsistencies between different software artifacts are almost inevitable. Currently, there are already approaches for automated consistency maintenance between source code and architecture models. However, these approaches have various limitations. Therefore, in this thesis, we present a comprehensive approach for supporting the consistency preservation between software artifacts with special focus on software evolution and adaptation. At design-time, source code analysis and consistency rules are used, while at run-time, monitoring data is used as input for a transformation pipeline. In contrast to already existing approaches, the automated derivation of the system composition is supported. Ultimately, self-validations were included as a central component of the approach. In a case study based evaluation the accuracy of the models and the performance of the approach was measured. In addition, the scalability of the transformations within the pipeline was investigated.

Freitag, 23. Oktober 2020, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Caspar Friedrich Maximilian Nagy
Titel Efficient Pruning of N-gram Corpora for Culturomics using Language Models
Vortragstyp Bachelorarbeit
Betreuer(in) Jens Willkomm
Vortragsmodus
Kurzfassung Big data technology pushes the frontiers of science. A particularly interesting application of it is culturomics. It uses big data techniques to accurately quantify and observe language and culture over time. A milestone to enable this kind of analysis in a traditionally humanistic field was the effort around the Google Books project. The scanned books were then transformed into a so called N-gram corpus, that contains the frequency of words and their combinations over time. Unfortunately this corpus is enormous in size of over 2 terabytes of storage. This makes handling, storing and querying the corpus difficult. In this bachelor thesis, we introduce a novel technique to reduce the storage requirements of N-gram corpora. It uses Natural Language Processing to estimate the counts of N-grams. Our approach is able to prune around 30% more effective than state-of-the-art methods.
Vortragende(r) Sophie Schulz
Titel Linking Software Architecture Documentation and Models
Vortragstyp Masterarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung In der Softwareentwicklung ist die Konsistenz zwischen Artefakten ein wichtiges Thema.

Diese Arbeit schlägt eine Struktur zur Erkennung von korrespondierenden und fehlenden Elementen zwischen einer Dokumentation und einem formalen Modell vor.

Zunächst identifiziert und extrahiert der Ansatz die im Text beschriebenen Modell-instanzen und -beziehungen. Dann verbindet der Ansatz diese Textelemente mit ihren entsprechenden Gegenstücken im Modell. Diese Verknüpfungen sind mit Trace-Links vergleichbar. Der Ansatz erlaubt jedoch die Abstufung dieser Links. Darüber hinaus werden Empfehlungen für Elemente generiert, die nicht im Modell enthalten sind.

Der Ansatz identifiziert Modellnamen und -typen mit einem F1-Wert von über 54%. 60% der empfohlenen Instanzen stimmen mit den in der Benutzerstudie gefundenen Instanzen überein. Bei der Identifizierung von Beziehungen und dem Erstellen von Verknüpfungen erzielte der Ansatz vielversprechende Ergebnisse. Die Ergebnisse können durch zukünftige Arbeiten verbessert werden. Dies ist realisierbar da der Entwurf eine einfache Erweiterung des Ansatzes erlaubt.

Freitag, 6. November 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 13. November 2020, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dominik Fuchß
Titel Assessing Hypotheses in Multi-Agent Systems for Natural Language Processing
Vortragstyp Masterarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung In Multi-Agenten Systemen (MAS) arbeiten verschiedene Agenten an einem gemeinsamen Problem.

Auch im Bereich der natürlichen Sprachverarbeitung (NLP) werden solche Systeme verwendet. Agenten eines MAS für natürliche Sprache können neben Ergebnissen auch Ergebnisse mit Konfidenzen, s.g. Hypothesen generieren. Diese Hypothesen spiegeln die Mehrdeutigkeit der natürlichen Sprache wider. Sind Agenten abhängig voneinander, so kann eine falsche Hypothese schnell zu einer Fehlerfortpflanzung in die Hypothesen der abhängigen Agenten führen. Die Exploration von Hypothesen bietet die Chance, die Ergebnisse von Agenten zu verbessern. Diese Arbeit verbessert die Ergebnisse von Agenten eines MAS für NLP durch eine kontrollierte Exploration des Hypothesen-Suchraums. Hierfür wird ein Framework zur Exploration und Bewertung von Hypothesen entwickelt. In einer Evaluation mit drei Agenten konnten vielversprechende Ergebnisse hinsichtlich der Verbesserung erzielt werden. So konnte etwa mit der Top-X Exploration eine durchschnittliche Verbesserung des F1-Maßes des Topic-Detection-Agenten von ursprünglich 40% auf jetzt 49% erreicht werden.

Vortragende(r) Lukas Hennig
Titel Describing Consistency Relations of Multiple Models with Commonalities
Vortragstyp Masterarbeit
Betreuer(in) Heiko Klare
Vortragsmodus
Kurzfassung Die Spezifikation eines software-intensiven Systems umfasst eine Vielzahl von Artefakten. Diese Artefakte sind nicht unabhängig voneinander, sondern stellen die gleichen Elemente des Systems in unterschiedlichen Kontexten und Repräsentationen dar.

In dieser Arbeit wurde im Rahmen einer Fallstudie ein neuer Ansatz untersucht, mit dem sich diese Überschneidungen von Artefakten konsistent halten lassen. Die Idee ist es, die Gemeinsamkeiten der Artefakte explizit zu modellieren und Änderungen über ein Zwischenmodell dieser Gemeinsamkeiten zwischen Artefakten zu übertragen. Der Ansatz verspricht eine bessere Verständlichkeit der Abhängigkeiten zwischen Artefakten und löst einige Probleme bisheriger Ansätze für deren Konsistenzerhaltung.

Für die Umsetzung der Fallstudie wurde eine Sprache weiterentwickelt, mit der sich die Gemeinsamkeiten und deren Manifestationen in den verschiedenen Artefakten ausdrücken lassen. Wir konnten einige grundlegende Funktionalitäten der Sprache ergänzen und damit 64% der Konsistenzbeziehungen in unserer Fallstudie umsetzen. Für die restlichen Konsistenzbeziehungen müssen weitere Anpassungen an der Sprache vorgenommen werden. Für die Evaluation der generellen Anwendbarkeit des Ansatzes sind zusätzliche Fallstudien nötig.

Freitag, 20. November 2020, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Benjamin Acar
Titel Skalierung der SVDD für große Datenmengen
Vortragstyp Proposal
Betreuer(in) Adrian Englhardt
Vortragsmodus
Kurzfassung Ausreißerkennung beschäftigt sich damit, ungewöhnliche Beobachtungen in Daten zu finden. Weit verbreitet ist dabei der Einsatz von maschinellen Lernverfahren, wie beispielsweise des 1-Klassen Klassifikators „Support Vector Data Description“ (SVDD). Ein Problem des SVDD Klassifikators ist allerdings, dass SVDD schlecht mit steigender Anzahl an Beobachtungen skaliert. Vorausgehende Arbeiten zeigen, dass während des Trainings einer SVDD nicht alle Objekte des Datensatzes benötigt werden. Es zeigt sich hierbei, dass vor allem jene, die sich am Rand der Verteilung befinden, von Interesse sind. Welche Objekte genau gewählt werden sollten und wie sich eine solche Reduktion letztlich auf die Qualität des Ergebnisses auswirkt, wird in den vorausgehenden Arbeiten bislang ausschließlich auf heuristischer Ebene behandelt. In dieser Arbeit entwickeln wir einen neuen Ansatz, um SVDD schneller zu trainieren. Wir geben dabei konkrete, analytisch berechnete Fehlerschranken an und ermöglichen es somit dem Nutzer, den Kompromiss zwischen Laufzeit und Ergebnis-Qualität selbst zu adjustieren.

Freitag, 27. November 2020, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Danner
Titel Entwurf einer Domänenontologie mit automatischer Erweiterung
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Das manuelle Erstellen von Rückverfolgbarkeitsinformationen ist aufwendig. Deshalb ist es das Ziel des Projekts INDIRECT, Rückverfolgbarkeitsinformationen aus Anforderungen und Quelltext automatisch zu generieren. Um dies zu unterstützen wird eine Ontologie benötigt, welche Domäneninformationen aus den Anforderungen enthält.

Im Rahmen dieser Arbeit wurde eine Domänenontologie und ein Werkzeug entwickelt, welches die Ontologie mit Informationen aus Anforderungen erweitert. Dabei lag der Fokus darauf, möglichst nur korrekte Informationen in die Ontologie zu übernehmen. Die Struktur der entworfenen Domänenontologie orientiert sich an den verschiedenen Klassen von Anforderungen, indem analysiert wurde, welche Art von Informationen diese jeweils enthalten. Das Werkzeug zu Erweiterung basiert auf manuell gefertigten Mustern, welche Strukturen in Abhängigkeitsbäumen von Sätzen aus Anforderungen darstellen. Mit ihnen werden Instanzen von Klassen und Relationen aus der Domänenontologie identiziert, welche in den Anforderungen vorkommen. Das Werkzeug wurde auf einem Korpus von Anforderungen aus verschiedenen Projekten aus unterschiedlichen Domänen mithilfe eines Goldstandards evaluiert. Das Verfahren zeigte sich als nicht erfolgreich, da nur eine geringe Präzision erreicht wurde. So wurde bei der Extraktion von Klasseninstanzen eine Präzision von 0,21 und ein F1-Maß von 0,09 erreicht, sowie eine Präzision von 0,09 und ein F1-Maß von 0,06 bei der Extraktion von Relationsinstanzen.

Freitag, 11. Dezember 2020, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Haiko Thiessen
Titel Detecting Outlying Time-Series with Global Alignment Kernels
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus
Kurzfassung Using outlier detection algorithms, e.g., Support Vector Data Description (SVDD), for detecting outlying time-series usually requires extracting domain-specific attributes. However, this indirect way needs expert knowledge, making SVDD impractical for many real-world use cases. Incorporating "Global Alignment Kernels" directly into SVDD to compute the distance between time-series data bypasses the attribute-extraction step and makes the application of SVDD independent of the underlying domain.

In this work, we propose a new time-series outlier detection algorithm, combining "Global Alignment Kernels" and SVDD. Its outlier detection capabilities will be evaluated on synthetic data as well as on real-world data sets. Additionally, our approach's performance will be compared to state-of-the-art methods for outlier detection, especially with regard to the types of detected outliers.

Vortragende(r) Patrick Ehrler
Titel Meta-Modeling the Feature Space
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Feature Selection is an important process in Machine Learning to improve model training times and complexity. One state-of-the art approach is Wrapper Feature Selection where subsets of features are evaluated. Because we can not evaluate all 2^n subsets an appropriate search strategy is vital.

Bayesian Optimization has already been successfully used in the context of hyperparameter optimization and very specific Feature Selection contexts. We want to look on how to use Bayesian Optimization for Feature Selection and discuss its limitations and possible solutions.

Vortragende(r) Philipp Weinmann
Titel Tuning of Explainable Artificial Intelligence (XAI) tools in the field of text analysis
Vortragstyp Proposal
Betreuer(in) Clemens Müssener
Vortragsmodus
Kurzfassung Philipp Weinmann will present his plan for his Bachelor thesis with the title: Tuning of Explainable Artificial Intelligence (XAI) tools in the field of text analysis: He will present a global introduction to explainers for Artificial Intelligence in the context of NLP. We will then explore in details one of these tools: Shap, a perturbation based local explainer and talk about evaluating shap-explanations.

Donnerstag, 17. Dezember 2020, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Luc Mercatoris
Titel Erklärbare k-Portfolios von SAT-Solvern
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Das SAT-Problem ist eines der wohl bekanntesten NP-vollständigen Probleme. Hierbei handelt es sich um die Problemstellung, ob für eine gegebene aussagenlogische Formel G eine Variablenbelegung existiert, sodass G erfüllt ist.

Zum Lösen des SAT-Problems gibt es eine Vielzahl an unterschiedlichen Ansätzen, sogenannte SAT-Solver. Wie sich herausgestellt hat, ist die Performance der verschiedenen Solver jedoch stark von den jeweiligen Instanzen abhängig, für die es das SAT-Problem zu lösen gilt.

Deshalb interessiert man sich für Mengen von Solvern, die sich möglichst gut ergänzen, sogenannte Portfolios. Auf einem Portfolio wird dann mithilfe von Features der gegebenen Instanz eine Auswahl getroffen, welcher Solver wahrscheinlich der Beste ist.

Studien zeigen, dass solche Portfolios in ihrer Performance einzelnen Solvern weit überlegen sind, weshalb diese genauer untersucht werden sollten. Hauptaugenmerk der Arbeit liegt auf der Auswahl an möglichst kleinen Portfolios und auf kleinen Mengen von Instanzfeatures und der daraus resultierenden Performance.

Freitag, 18. Dezember 2020, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jonas Kasper
Titel Ausgestaltung von Data-Science Methoden zur Bearbeitung ungelöster Mathematik-Probleme
Vortragstyp Bachelorarbeit
Betreuer(in) Klemens Böhm
Vortragsmodus
Kurzfassung In der Mathematik gibt es unzählige ungelöste Probleme, welche die Wissenschaft beschäftigen.

Dabei stellen sie eine wichtige Aufgabe und Herausforderung dar. Und es wird stetig versucht ihrer Lösung Schritt für Schritt näher zu kommen.

Unter diesen bisher noch ungelösten Problemen der Mathematik ist auch das sogenannte „Frankl-Conjecture“ (ebenfalls bekannt unter dem Namen „Union-Closed Set Conjecture“). Diese Vermutung besagt, dass für jede, unter Vereinigung abgeschlossene Familie von Mengen, ein Element existiert, welches in mindestens der Hälfte der Familien-Mengen enthalten ist.

Auch diese Arbeit hat das Ziel der Lösung dieses Problems Schritt für Schritt näher zu kommen, oder zumindest hilfreiche neue Werkzeuge für eine spätere Lösung bereitzustellen.

Dafür wurde versucht eine Bearbeitung mit Hilfe von Data-Science-Methoden durchzuführen. Dies geschah, indem zunächst möglichst viele Beispiele für das Conjecture zufällig generiert wurden. Anschließend konnten diese generierten Beispiele betrachtet und weiter analysiert werden.

Freitag, 18. Dezember 2020, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Patrick Treyer
Titel Extraction of Performance Models from Microservice Applications based on Tracing Information
Vortragstyp Masterarbeit
Betreuer(in) Emre Taşpolatoğlu
Vortragsmodus
Kurzfassung A recent trend in the development of enterprise systems constitutes the design of software projects as microservices. When migrating monolithic systems, architectural performance models can provide a valuable contribution.

In this thesis, we present an approach for the automatic extraction of performance models based on tracing information. The extracted performance models reconstruct architecture, internal structure, control flow as well as usage scenarios of the system and can therefore support the migration process by simulations. The thesis includes an analysis of current standards in the field of distributed tracing, covering both the integration and the granularity of the extracted data. The architecture of our extraction process allows a flexible, vendor-independent adaptation according to the own system landscape. We also provide an evaluation of our approach, which includes aspects concerning the integration of tracing mechanisms, the examination of the extracted model elements as well as the deviation between model predictions and measurements on the real system.

Freitag, 1. Januar 2021, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 1. Januar 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 1. Januar 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 8. Januar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Elena Schediwie
Titel Local Outlier Factor for Feature‐evolving Data Streams
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus
Kurzfassung In high-volume data streams it is often unpractical to monitor all observations -- often we are only interested in deviations from the normal operation. Detecting outlying observations in data streams is an active area of research.

However, most approaches assume that the data's dimensionality, i.e., the number of attributes, stays constant over time. This assumption is unjustified in many real-world use cases, such as sensor networks or computer cluster monitoring. Feature-evolving data streams do not impose this restriction and thereby pose additional challenges.

In this thesis, we extend the well-known Local Outlier Factor (LOF) algorithm for outlier detection from the static case to the feature-evolving setting. Our algorithm combines subspace projection techniques with an appropriate index structure using only bounded computational resources. By discarding old observations our approach also deals with concept drift. We evaluate our approach against the respective state-of-the-art methods in the static case, the streaming case, and the feature-evolving case.

Donnerstag, 21. Januar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 29. Januar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nico Denner
Titel Theory-Guided Data Science for Lithium-Ion Battery Modeling
Vortragstyp Proposal
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Lithium-ion batteries are driving innovation in the evolution of electromobility and renewable energy. These complex, dynamic systems require reliable and accurate monitoring through Battery Management Systems to ensure the safety and longevity of battery cells. Therefore an accurate prediction of the battery voltage is essential which is currently realized by so-called Equivalent Circuit (EC) Models.

Although state-of-the-art approaches deliver good results, they are hard to train due to the high number of variables, lacking the ability to generalize, and need to make many simplifying assumptions. In contrast to theory-based models, purely data-driven approaches require large datasets and are often unable to produce physically consistent results. Theory-Guided Data Science (TGDS) aims at using scientific knowledge to improve the effectiveness of Data Science models in scientific discovery. This concept has been very successful in several domains including climate science and material research.

Our work is the first one to apply TGDS to battery systems by working together closely with domain experts. We compare the performance of different TGDS approaches against each other as well as against the two baselines using only theory-based EC-Models and black-box Machine Learning models.

Freitag, 29. Januar 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Thomas Lieb
Titel Automatic Context-Based Policy Generation from Usage- and Misusage-Diagrams
Vortragstyp Masterarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus
Kurzfassung In systems with a very dynamic process like Industry 4.0, contexts of all

participating entities often change and a lot of data exchange happens with external organizations such as suppliers or producers which brings concern about unauthorized data access. This creates the need for access control systems to be able to handle such a combination of a highly dynamic system and the arising concern about the security of data. In many situations the decision for access control depends on the context information of the requester. Another problem of dynamic system is that the manual development of access policies can be time consuming and expensive. Approaches using automated policy generation have shown to reduce this effort. In this master thesis we introduce a concept which combines context based model-driven security with automated policy generation and evaluate if it is a suitable option for the creation of access control systems and if it can reduce the effort in policy generation. The approach makes use of usage and misusage diagrams which are on a high architectural abstraction level to derive and combine access policies for data elements which are located on a lower abstraction level.

Vortragende(r) Erik Weinstock
Titel Traceability of Telemetry Data in Hybrid Architectures
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus
Kurzfassung With the rise of Software-as-a-Service products, the software development landscape transformed to a more agile and data-driven environment. The amount of telemetry data, collected from the users actions, is rapidly increasing and with it the possibilities but also the challenges of using the collected data for quality improvement purposes.

LogMeIn Inc. is a global company offering Software-as-a-Service solutions for remote collaboration and IT management. An example product is GoToMeeting which allows to create and join virtual meeting rooms.

This Master’s Thesis presents the JoinTracer approach which enables the telemetry-data-based traceability of GoToMeeting join-flows of the GoToMeeting architecture. The approach combines new mechanics and already existing traceability techniques from different traceability communities to leverage synergies and to enable the traceability of individual join-flows. In this work, the JoinTracer approach is designed and implemented as well as evaluated regarding the functionality, performance and acceptance. The results are discussed to analyze the future development and the applicability of this approach to other contexts as well.

Freitag, 5. Februar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Florian Leiser
Titel Modeling Dynamic Systems using Slope Constraints: An Application Analysis of Gas Turbines
Vortragstyp Proposal
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung In energy studies, researchers build models for dynamic systems to predict the produced electrical output precisely. Since experiments are expensive, the researchers rely on simulations of surrogate models. These models use differential equations that can provide decent results but are computationally expensive. Further, transition phases, which occur when an input change results in a delayed change in output, are modeled individually and therefore lacking generalizability.

Current research includes Data Science approaches that need large amounts of data, which are costly when performing scientific experiments. Theory-Guided Data Science aims to combine Data Science approaches with domain knowledge to reduce the amount of data needed while predicting the output precisely.

However, even state-of-the-art Theory-Guided Data Science approaches lack the possibility to model the slopes occuring in the transition phases. In this thesis we aim to close this gap by proposing a new loss constraint that represents both transition and stationary phases. Our method is compared with theoretical and Data Science approaches on synthetic and real world data.

Freitag, 12. Februar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tom George
Titel Monitoring Complex Systems with Domain Knowledge: Adapting Contextual Bandits to Tracing Data
Vortragstyp Proposal
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Monitoring in complex computing systems is crucial to detect malicious states or errors in program execution. Due to the computational complexity, it is not feasible to monitor all data streams in practice. We are interested in monitoring pairs of highly correlated data streams. However we can not compute the measure of correlation for every pair of data streams at each timestep.

Picking highly correlated pairs, while exploring potentially higher correlated ones is an instance of the exploration / exploitation problem. Bandit algorithms are a family of online learning algorithms that aim to optimize sequential decision making and balance exploration and exploitation. A contextual bandit additional uses contextual information to decide better.

In our work we want to use a contextual bandit algorithm to keep an overview over highly correlated pairs of data streams. The context in our work contains information about the state of the system, given as execution traces. A key part of our work is to explore and evaluate different representations of the knowledge encapsulated in traces. Also we adapt state-of-the-art contextual bandit algorithms to the use case of correlation monitoring.

Freitag, 19. Februar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mohamed Amine Chalghoum
Titel A comparative study of subgroup discovery methods
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus
Kurzfassung Subgroup discovery is a data mining technique that is used to extract interesting relationships in a dataset related to to a target variable. These relationships are described in the form of rules. Multiple SD techniques have been developed over the years. This thesis establishes a comparative study between a number of these techniques in order to identify the state-of-the-art methods. It also analyses the effects discretization has on them as a preprocessing step . Furthermore, it investigates the effect of hyperparameter optimization on these methods.

Our analysis showed that PRIM, DSSD, Best Interval and FSSD outperformed the other subgroup discovery methods evaluated in this study and are to be considered state-of-the-art . It also shows that discretization offers an efficiency improvement on methods that do not employ internal discretization. It has a negative impact on the quality of subgroups generated by methods that perform it internally. The results finally demonstrates that Apriori-SD and SD-Algorithm were the most positively affected by the hyperparameter optimization.

Freitag, 19. Februar 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nico Peter
Titel Model-Based Rule Engine for the Reconstruction of Component-Based Software Architectures for Quality Prediction
Vortragstyp Masterarbeit
Betreuer(in) Yves Kirschner
Vortragsmodus
Kurzfassung With architecture models, software developers and architects are able to enhance their documentation and communication, perform architecture analysis, design decisions and finally with PCM, can start quality predictions. However, the manual creation of component architecture models for complex systems is difficult and time consuming. Instead, the automatic generation of architecture models out of existing projects saves time and effort. For this purpose, a new approach is proposed which uses technology specific rule artifacts and a rule engine that transforms the source code of software projects into a model representation, applies the given rules and then automatically generates a static software architecture model. The resulting architecture model is then usable for quality prediction purposes inside the PCM context. The concepts for this approach are presented and a software system is developed, which can be easily extended with new rule artifacts to be useful for a broader range of technologies used in different projects. With the implementation of a prototype, the collection of technology specific rule sets and an evaluation including different reference systems the proposed functionality is proven and a solid foundation for future improvements is given.

Freitag, 26. Februar 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Aleksandr Eismont
Titel Predicting System Dependencies from Tracing Data Instead of Computing Them
Vortragstyp Proposal
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung The concept of Artificial Intelligence for IT Operations combines big data and machine learning methods to replace a broad range of IT operations including availability and performance monitoring of services. In large-scale distributed cloud infrastructures a service is deployed on different separate nodes. As the size of the infrastructure increases in production, the analysis of metrics parameters becomes computationally expensive. We address the problem by proposing a method to predict dependencies between metrics parameters of system components instead of computing them. To predict the dependencies we use time windowing with different aggregation methods and distributed tracing data that contain detailed information for the system execution workflow. In this bachelor thesis, we inspect the different representations of distributed traces from simple counting of events to more complex graph representations. We compare them with each other and evaluate the performance of such methods.

Freitag, 26. Februar 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 12. März 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 12. März 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Youheng Lü
Titel Auswahl von SAT Instanzen zur Evaluation von Solvern
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Das schnelle und effiziente Lösen von SAT-Instanzen ist für viele Bereiche relevant, zum Beispiel Kryptografie, Scheduling-Algorithmen oder formale Verifikation von Algorithmen. Um die Geschwindigkeit von SAT-Solvern zu evaluieren, gibt es die SAT Competition, in der verschiedene Solver gegeneinander antreten, um Hunderte von SAT-Instanzen zu lösen. Da dies viel Zeit beansprucht, möchten wir eine Methode vorschlagen, die die Anzahl der Instanzen verringert. Indem wir die Instanzen nach Eigenschaften und Laufzeiten clustern, möchten wir eine Benchmark erstellen, die deutlich weniger Instanzen beinhaltet, aber wenig Informationsverlust bietet. Diese evaluieren wir am Ende mithilfe einer „Benchmark“ Competition, wo wir vergleichen, ob die Sieger der SAT Competition auch die „Benchmark“ Competition gewinnen. Zusätzlich möchten wir in dieser Bachelorarbeit auch herausfinden, welche Instanzeigenschaften eine besondere Rolle beim Clustering spielen und ob ein Clustering von Solvern relevant ist.

Freitag, 19. März 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Peter Christos Digas
Titel Untersuchung des Datenaustauschs zwischen Java und Javascript-basierten Modell-getriebenen Modellierungswerkzeugen
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Kühn
Vortragsmodus
Kurzfassung Derzeit ist es nicht möglich, Modellinstanzen in eine geeignete Form zu (de)serialisieren, dass diese zwischen Java und JavaScript korrekt ausgetauscht werden können. Außerdem wurde noch nicht untersucht, welche Anforderungen es an die Werkzeuge der Modell-getriebenen Softwareentwicklung gibt und welche Werkzeuge sich nach diesen Anforderungen eignen und welche Lücken es gibt. Auch wurde noch nicht untersucht, welches Datenaustauschformat sich für den Austausch von Modellinstanzen bei der Problemstellung eignet, oder wie Modellinstanzen zwischen Java und JavaScript auf Korrektheit validiert und die Äquivalenz bei ausgetauschten Modellinstanzen zwischen den Modellierungswerkzeugen auf Seite von Java und JavaScript geprüft werden kann. Das Ziel dieser Arbeit ist es deshalb, die Werkzeuge und Datenaustauschformate zu untersuchen, geeignete Modell-getriebene Werkzeuge auf Seite von Java und JavaScript auszuwählen und dabei ein ein geeignetes Datenaustauschformat für den Austausch von Modellinstanzen zu verwenden, um eine Modell-getriebene Brücke zwischen den beiden Plattformen Java und Javascript herzustellen. Dazu werden Modellierungswerkzeuge auf Seite von Java und JavaScript sowie Datenaustauschformate nach objektiven Kriterien hin bewertet und auf Grund dieser Erkenntnisse für die Modell-getriebene Brücke zwischen Java und JavaScript ausgewählt. Auch wird die Modell-getriebene Brücke konzeptioniert und konkret auf den Plattformen Java und JavaScript implementiert. Diese Brücke wird dabei durch geeignete Tests und Experimente validiert. Insbesondere wird dabei die Korrektheit und Darstellung der Konzepte validiert. Außerdem wird dabei gezeigt, dass Modellinstanzen nahezu fehlerfrei und ohne Unterschiede (de)serialisiert und ausgetauscht werden können. Zusätzlich wird die Zeit gemessen, welche die Modellierungswerkzeuge zum Serialisieren und Deserialisieren von Modellinstanzen einer bestimmten Größe und Komplexität benötigen.

Freitag, 26. März 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Fabian Müller
Titel Rekonstruktion von Komponentenmodellen für Qualitätsvorhersagen auf der Grundlage heterogener Artefakte in der Softwareentwicklung
Vortragstyp Masterarbeit
Betreuer(in) Yves Kirschner
Vortragsmodus
Kurzfassung Moderne Softwaresysteme werden oftmals nicht mehr als monolithische Anwendungen konstruiert. Verteilte Architekturen liegen im Trend. Der Einsatz von Technologien wie Docker und Spring bringt, neben dem Quelltext, zusätzliche Konfigurationsdateien mit ein. Eine Rekonstruktion der Softwarearchitektur nur anhand des Quelltextes wird dadurch erschwert. Zu Beginn dieser Arbeit wurden einige wissenschaftliche Arbeiten untersucht, die sich mit dem Thema Rekonstruktion von Softwarearchitekturen beschäftigen. Jedoch konnte keine Arbeit gefunden werden, welche sowohl heterogene Softwareartefakte unterstützt als auch ein für die Qualitätsvorhersage geeignetes Modell generiert.

Aufgrund dessen stellt diese Arbeit einen neuen Ansatz vor, der mehrere heterogene Softwareartefakte zur Rekonstruktion eines Architekturmodells miteinbezieht. Genauer wird in dieser Arbeit der Ansatz als Prototyp für die Artefakte Java-Quelltext, Dockerfiles, Docker-Compose-Dateien sowie Spring-Konfigurationsdateien umgesetzt. Als Zielmodell kommt das Palladio-Komponentenmodell zum Einsatz, welches sich für Analysen und Simulationen hinsichtlich Performanz und Verlässlichkeit eignet. Es wird näher untersucht, inwiefern die Informationen der Artefakte zusammengeführt werden können. Der Ansatz sieht es vor, die Artefakte zuerst in Modelle zu transformieren. Für diese Transformationen werden zwei unterschiedliche Vorgehensweisen betrachtet. Zuerst soll Java-Quelltext mithilfe von JDT in ein bestehendes Metamodell übertragen werden. Für die übrigen Artefakte wird eine Xtext-Grammatik vorgeschlagen, welche ein passendes Metamodell erzeugen kann. Die Architektur des Ansatzes wurde außerdem so gestaltet, dass eine Anpassung oder Erweiterung bezüglich der unterstützten Artefakte einfach möglich ist.

Zum Abschluss wird die prototypische Implementierung beschrieben und evaluiert. Dafür wurden zwei Fallstudien ausgewählt und mithilfe des Prototyps das Architekturmodell der Projekte extrahiert. Die Ergebnisse wurden anhand von vorher definierten Metriken anschließend untersucht. Dadurch konnte gezeigt werden, dass der Ansatz funktioniert und durch die heterogenen Artefakte ein Mehrwert zur Rekonstruktion des Architekturmodells beigetragen werden kann.

Freitag, 9. April 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nico Denner
Titel Theory-Guided Data Science for Battery Voltage Prediction: A Systematic Guideline
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Purely data-driven Data Science approaches tend to underperform when applied to scientific problems, especially when there is little data available. Theory-guided Data Science (TGDS) incorporates existing problem specific domain knowledge in order to increase the performance of Data Science models. It has already proved to be successful in scientific disciplines like climate science or material research.

Although there exist many TGDS methods, they are often not comparable with each other, because they were originally applied to different types of problems. Also, it is not clear how much domain knowledge they require. There currently exist no clear guidelines on how to choose the most suitable TGDS method when confronted with a concrete problem.

Our work is the first one to compare multiple TGDS methods on a time series prediction task. We establish a clear guideline by evaluating the performance and required domain knowledge of each method in the context of lithium-ion battery voltage prediction. As a result, our work could serve as a starting point on how to select the right TGDS method when confronted with a concrete problem.

Freitag, 9. April 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Daniel Milbaier
Titel Measuring the Privacy Loss with Smart Meters
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus
Kurzfassung The rapid growth of renewable energy sources and the increased sales in

electric vehicels contribute to a more volatile power grid. Energy suppliers rely on data to predict the demand and to manage the grid accordingly. The rollout of smart meters could provide the necessary data. But on the other hand, smart meters can leak sensitive information about the customer. Several solution were proposed to mitigate this problem. Some depend on privacy measures to calculate the degree of privacy one could expect from a solution. This bachelor thesis constructs a set of experiments which help to analyse some privacy measures and thereby determine, whether the value of a privacy measure increases or decreases with an increase in privacy.

Freitag, 16. April 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Patrick Ehrler
Titel Feature Selection using Bayesian Optimization
Vortragstyp Bachelorarbeit
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Datasets, like gene profiles from cancer patients, can have a large number of features. In order to apply prediction techniques, a lot of computing time and memory is needed. A solution to this problem is to reduce the number of features, whereby the main challenge is to still receive a satisfactory prediction performance afterwards. There are many state-of-the-art feature selection techniques, but they all have their limitations. We use Bayesian optimization, a technique to optimize expensive black-box-functions, and apply it to the problem of feature selection. Thereby, we face the challenge to adjust the standard optimization procedure to work with a discrete-valued search space, but also to find a way to optimize the acquisition function efficiently.

Overall, we propose 10 different Bayesian optimization feature selection approaches and evaluate their performance experimentally on 28 OpenML classification datasets. We do not only compare the approaches among themselves, but also to 9 state-of-the-art feature selection approaches. Our results state that especially four of our approaches perform well and can compete to most state-of-the-art approaches in terms of prediction performance. In terms of runtime, all our approaches do not perform outstandingly good, but similar to some filter and wrapper approaches.

Freitag, 23. April 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Michael Tobias
Titel Evaluierung architektureller Datenflussanalyse mittels Fallstudie anhand Corona-Warn-App
Vortragstyp Bachelorarbeit
Betreuer(in) Stephan Seifermann
Vortragsmodus
Kurzfassung Die Wahrung von Vertraulichkeit ist essentiell für moderne Softwaresysteme. Eine Überprüfung auf Probleme bereits während der Entwurfsphase ermöglicht eine effiziente Fehlerbehebung. Mit dem datenzentrierten Palladio-Komponenten-Modell (DPCM) ist eine solche Prüfung möglich. Im Rahmen der Arbeit soll der Ansatz über eine realistische Fallstudie anhand der Corona-Warn-App evaluiert werden. Dazu müssen zunächst aus den Entwurfsdokumenten Vertraulichkeitsanforderungen extrahiert werden, um anschließend deren Einhaltung prüfen zu können. Um den Ansprüchen an ein systematisches und nachvollziehbares Vorgehen bei der Evaluierung zu genügen, wird zunächst ein Prozess zur Anforderungsextraktion konzipiert. Die Evaluation des DPCM findet anschließend für die Qualitätseigenschaften der Ausdrucksmächtigkeit und Genauigkeit statt. Das Ergebnis der Arbeit besteht aus einem Katalog von Vertraulichkeitsanforderungen für die Corona-Warn-App, dem entwickelten Extraktionsprozess, sowie initialen Ergebnissen für die Evaluation des DPCM.
Vortragende(r) Steffen Schmitt
Titel Implementierung eines Authority-Mechanismus für UI-Elemente auf Basis von Eclipse E4
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus
Kurzfassung Durch die Verwendung von Software-Anwendungen in verschiedenen Kontexten entsteht eine überladene Benutzeroberfläche. Zur Unterteilung der Benutzeroberfläche wird ein Authority-Mechanismus verwendet. Die bisherigen Konzepte für einen Authority-Mechanismus sind entweder nicht in Eclipse 4 RCP umsetzbar oder erfüllen nicht die Anforderungen, die von der Industrie an einen Authority-Mechanismus gestellt werden. Diese Lücke wird mit einem Konzept für einen dynamischen Authority-Mechanismus geschlossen. Durch eine Implementierung des Authority-Mechanismus in einer bestehenden Software-Anwendungen aus der Industrie wird die Kompatibilität des Konzeptes mit den Anforderungen bestätigt.

Donnerstag, 29. April 2021, 16:33 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 30. April 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Benjamin Acar
Titel Skalierung der SVDD: Sampling mit Fehlerschranken
Vortragstyp Masterarbeit
Betreuer(in) Adrian Englhardt
Vortragsmodus
Kurzfassung Ausreißerkennung beschäftigt sich damit, ungewöhnliche Beobachtungen in Daten zu finden. Weit verbreitet ist dabei der Einsatz von maschinellen Lernverfahren, wie beispielsweise des 1-Klassen Klassifikators „Support Vector Data Description“ (SVDD). Ein Problem des SVDD Klassifikators ist allerdings, dass die SVDD schlecht mit steigender Anzahl an Beobachtungen skaliert. Vorausgehende Arbeiten zeigen, dass während des Trainings einer SVDD nicht alle Objekte des Datensatzes benötigt werden. Es zeigt sich hierbei, dass vor allem jene, die sich am Rand der Verteilung befinden, von Interesse sind. Welche Objekte genau gewählt werden sollten und wie sich eine solche Reduktion letztlich auf die Qualität des Ergebnisses auswirkt, wird in den vorausgehenden Arbeiten bislang ausschließlich auf heuristischer Ebene behandelt. In dieser Arbeit entwickeln wir einen neuen Ansatz, um die SVDD schneller zu trainieren. Wir geben dabei konkrete, analytisch berechnete Fehlerschranken an und ermöglichen es somit dem Nutzer, den Kompromiss zwischen Laufzeit und Ergebnis-Qualität selbst zu adjustieren.

Freitag, 30. April 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Joshua Gleitze
Titel Methodology for Evaluating a Domain-Specific Model Transformation Language
Vortragstyp Masterarbeit
Betreuer(in) Heiko Klare
Vortragsmodus
Kurzfassung Sobald ein System durch mehrere Modelle beschrieben wird, können sich diese verschiedenen Beschreibungen auch gegenseitig widersprechen. Modelltransformationen sind ein geeignetes Mittel, um das selbst dann zu vermeiden, wenn die Modelle von mehreren Parteien parallel bearbeitet werden. Es gibt mittlerweile reichhaltige Forschungsergebnisse dazu, Änderungen zwischen zwei Modellen zu transformieren. Allerdings ist die Herausforderung, Modelltransformationen zwischen mehr als zwei Modellen zu entwickeln, bislang unzureichend gelöst. Die Gemeinsamkeiten-Sprache ist eine deklarative, domänenspezifische Programmiersprache, mit der multidirektionale Modelltransformationen programmiert werden können, indem bidirektionale Abbildungsspezifikationen kombiniert werden. Da sie bis jetzt jedoch nicht empirisch validiert wurde, stellt es eine offene Frage dar, ob die Sprache dazu geeignet ist, realistische Modelltransformationen zu entwickeln, und welche Vorteile die Sprache gegenüber einer alternativen Programmiersprache für Modelltransformationen bietet.

In dieser Abschlussarbeit entwerfe ich eine Fallstudie, mit der die Gemeinsamkeiten-Sprache evaluiert wird. Ich bespreche die Methodik und die Validität dieser Fallstudie. Weiterhin präsentiere ich Kongruenz, eine neue Eigenschaft für bidirektionale Modelltransformationen. Sie stellt sicher, dass die beiden Richtungen einer Transformation zueinander kompatibel sind. Ich leite aus praktischen Beispielen ab, warum wir erwarten können, dass Transformationen normalerweise kongruent sein werden. Daraufhin diskutiere ich die Entwurfsentscheidungen hinter einer Teststrategie, mit der zwei Modelltransformations- Implementierungen, die beide dieselbe Konsistenzspezifikation umsetzen, getestet werden können. Die Teststrategie beinhaltet auch einen praktischen Einsatzzweck von Kongruenz. Zuletzt stelle ich Verbesserungen der Gemeinsamkeiten-Sprache vor.

Die Beiträge dieser Abschlussarbeit ermöglichen gemeinsam, eine Fallstudie zu Programmiersprachen für Modelltransformationen umzusetzen. Damit kann ein besseres Verständnis der Vorteile dieser Sprachen erzielt werden. Kongruenz kann die Benutzerfreundlichkeit beliebiger Modelltransformationen verbessern und könnte sich als nützlich herausstellen, um Modelltransformations-Netzwerke zu konstruieren. Die Teststrategie kann auf beliebige Akzeptanztests für Modelltransformationen angewendet werden.

Vortragende(r) Jonas Lehmann
Titel Modellierung und Simulation von verketteten Ausfallszenarien in Palladio
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Krach
Vortragsmodus
Kurzfassung Heutige emergente und verteilte Softwaresysteme sollen auch bei Teilausfällen ein bestimmtes Minimum an Funktionalität bereitstellen. Die Nachweisbarkeit von Reaktionen auf Fehlerszenarien ist deshalb bereits in frühen Phasen der Entwicklung essenziell. Denn so lassen sich Aussagen über die Zuverlässigkeit und Resilienz an leichtgewichtigen Modellen statt teuren Experimenten treffen.

Bisherige Performance-Analysen im Palladio-Komponenten-Modell (PCM) modellieren Ausfälle stochastisch und verhindern es so, bestimmte Fehlerauftritte gezielt zu untersuchen. Die, im Rahmen dieser Arbeit bereitgestellte Modellierung von verketteten Ausfallszenarien erlaubt eine explizite Szenariendefinition und integriert probabilistisch abhängige Fehlerauftritte in das PCM. Durch Anpassungen am Palladio-Plugin SimuLizar ist es nun außerdem möglich, die erstellten Modelle in der Simulation auszuwerten.

Am Fallbeispiel eines Lastverteilungssystems konnte die Evaluation einerseits die technische Funktionalität der Implementierung validieren. Zusätzlich wird gezeigt, dass der Ansatz eine Einordnung verschiedener Entwurfsalternativen von LoadBalancern ermöglicht, wodurch die Entscheidungsfindung in der System-Entwicklung unterstützt werden kann.

Vortragende(r) Moritz Gstür
Titel Vergleich von Reverse-Engineering-Ansätzen für Software-Architekturen
Vortragstyp Bachelorarbeit
Betreuer(in) Yves Kirschner
Vortragsmodus
Kurzfassung Diese Arbeit dient der Ermittlung der Vergleichbarkeit und des Funktionsumfanges verfügbarer Reverse-Engineering-Ansätze für Software-Architekturen. Ziel der Arbeit war insbesondere die Feststellung der Eignung der Ansätze für die Rückgewinnung Komponenten- und Microservice-basierter Software-Architekturen. Hierfür wurden acht Ansätze auf 22 Fallstudien angewandt und die Ergebnisse zur Identifikation von Stärken, Problemen und Einschränkungen der Ansätze genutzt. Es konnte gezeigt werden, dass ein Vergleich der Ansätze aufgrund der Heterogenität der Ergebnisse nicht durchführbar ist. Eine Erkennung der Abhängigkeiten von Microservices sowie eine eindeutige Identifikation bestehender Komponenten und ihrer Schnittstellen war mithilfe der Ansätze nicht möglich.

Freitag, 7. Mai 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Elena Schediwie
Titel Bachelorarbeit: Local Outlier Factor for Feature‐evolving Data Streams
Vortragstyp Bachelorarbeit
Betreuer(in) Florian Kalinke
Vortragsmodus
Kurzfassung Outlier detection is a core task of data stream analysis. As such, many algorithms targeting this problem exist, but tend to treat the data as so-called row stream, i.e., observations arrive one at a time with a fixed number of features. However, real-world data often has the form of a feature-evolving stream: Consider the task of analyzing network data in a data center - here, nodes may be added and removed at any time, changing the features of the observed stream. While highly relevant, most existing outlier detection algorithms are not applicable in this setting. Further, increasing the number of features, resulting in high-dimensional data, poses a different set of problems, usually summarized as "the curse of dimensionality".

In this thesis, we propose FeLOF, addressing this challenging setting of outlier detection in feature-evolving and high-dimensional data. Our algorithms extends the well-known Local Outlier Factor algorithm to the feature-evolving stream setting. We employ a variation of StreamHash random hashing projections to create a lower-dimensional feature space embedding, thereby mitigating the effects of the curse of dimensionality. To address non-stationary data distributions, we employ a sliding window approach. FeLOF utilizes efficient data structures to speed up search queries and data updates.

Extensive experiments show that our algorithm achieves state-of-the-art outlier detection performance in the static, row stream and feature-evolving stream settings on real-world benchmark data. Additionally, we provide an evaluation of our StreamHash adaptation, demonstrating its ability to cope with sparsely populated high-dimensional data.

Freitag, 7. Mai 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Gilbert Groten
Titel Automatisches Auflösen von Abkürzungen in Quelltext
Vortragstyp Masterarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Abgekürzte Quelltextbezeichner stellen ein Hindernis bei der Gewinnung von Informationen aus Quelltext dar. Im Rahmen dieser Arbeit werden Abkürzungsauflösungsverfahren entwickelt, um diese abgekürzten Quelltextbezeichner zu den gemeinten, nicht abgekürzten Begriffen aufzulösen. Zum einen wird die Entscheidung für den besten Auflösungskandidaten mittels worteinbettungsbasierten Ähnlichkeitsfunktionen getroffen. Zum anderen werden Trigramm-Grammatiken verwendet, um die Wahrscheinlichkeit eines Auflösungskandidaten zu bestimmen. Die im Rahmen dieser Arbeit entwickelten Verfahren bauen auf zwei Verfahren auf, welche von Alatawi et al. entwickelt wurden. In diesen werden statistische Eigenschaften von Quelltextabkürzungen, sowie Uni- und Bigramm-Grammatiken verwendet, um die Auflösung einer Abkürzung zu bestimmen. Das präziseste der im Rahmen dieser Arbeit entwickelten Verfahren (das Trigramm-basierte) löst auf einem Beispielquelltext, evaluiert gegen eine von Alatawi et al. bereitgestellte Musterlösung, 70,33% der abgekürzten Quelltextbezeichner richtig auf, und ist damit 3,30 Prozentpunkte besser als das nachimplementierte, präziseste Verfahren von Alatawi et al.
Vortragende(r) Niklas Ewald
Titel Identifikation von Rückverfolgbarkeitsverbindungen zwischen Anforderungen mittels Sprachmodellen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Die Rückverfolgbarkeit zwischen Anforderungen ist ein wichtiger Teil der Softwareentwicklung. Zusammenhänge werden dokumentiert und können für Aufgaben wie Auswirkungs- oder Abdeckungsanalysen verwendet werden. Da das Identifizieren von Rückverfolgbarkeitsverbindungen von Hand zeitaufwändig und fehleranfällig ist, ist es hilfreich, wenn automatische Verfahren eingesetzt werden können. Anforderungen werden häufig während der Entwicklung verfeinert. Entstehende Anforderungen lassen sich zu den ursprünglichen Anforderungen zurückverfolgen. Die entstehenden Anforderungen befinden sich auf einem anderen Abstraktionslevel. Dies erschwert die automatische Identifizierung von Rückverfolgbarkeitsverbindungen. Auf großen Textkorpora trainierte Sprachmodelle stellen eine mögliche Lösung für dieses Problem dar. In dieser Arbeit wurden drei auf Sprachmodellen basierende Verfahren entwickelt und verglichen: Feinanpassung einer Klassifikationsschicht, Ausnutzen der Ähnlichkeit der jeweiligen Satzeinbettungen und eine Erweiterung des zweiten Verfahrens, bei dem zusätzlich zunächst Cluster gebildet werden. Es wurden sechs öffentlich verfügbare Datensätze verwendet, um die Verfahren zu evaluieren. Von den drei Verfahren erreichen jeweils das Sprachmodell mit Klassifikationsschicht und das Ausnutzen der Ähnlichkeit zwischen Satzeinbettungen für drei Datensätze die besten Ergebnisse, die aber hinter den Ergebnissen von anderen aktuellen Verfahren zurückbleiben. Das feinangepasste Sprachmodell mit Klassifikationsschicht erzielt eine Ausbeute von bis zu 0,96 bei einer eher geringen Präzision von 0,01 bis 0,26.

Freitag, 14. Mai 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nobel Liaw
Titel Cost-Efficient Evaluation of ML Classifiers With Feature Attribution Annotations (Proposal)
Vortragstyp Bachelorarbeit
Betreuer(in) Moritz Renftle
Vortragsmodus
Kurzfassung Conventional evaluation of an ML classifier uses test data to estimate its expected loss. For "cognitive" ML tasks like image or text classification, this requires that experts annotate a large and representative test data set, which can be expensive.

In this thesis, we explore another approach for estimating the expected loss of an ML classifier. The aim is to enhance test data with additional expert knowledge. Inspired by recent feature attribution techniques, such as LIME or Saliency Maps, the idea is that experts annotate inputs not only with desired classes, but also with desired feature attributions. We then explore different methods to derive a large conventional test data set based on few such feature attribution annotations. We empirically evaluate the loss estimates of our approach against ground-truth estimates on large existing test data sets, with a focus on the tradeoff between the number of expert annotations and the achieved estimation accuracy.

Vortragende(r) Luc Mercatoris
Titel Erklärbare k-Portfolios von SAT-Solvern (Verteidigung)
Vortragstyp Bachelorarbeit
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Das SAT-Problem ist ein bekanntes NP-vollständiges Problem aus der theoretischen Informatik. Es handelt es sich um die Problemstellung, ob für eine gegebene aussagenlogische Formel G eine Variablenbelegung existiert, sodass G erfüllt ist.

Portfolio-basierte Methoden zum Lösen von SAT-Instanzen nutzen die komplementäre Stärke von einer Menge von verschiedenen SAT-Algorithmen aus. Hierbei wird aus einer gegebenen Menge von Algorithmen, dem sogenannten Portfolio, mittels eines Vorhersagemodells derjenige Algorithmus ausgewählt, der die bestmögliche Performance für die betrachtete SAT-Instanz verspricht.

In dieser Arbeit interessieren wir uns besonders für erklärbare Portfolios, sprich für Portfolios, für die man nachvollziehen kann, wie die Vorhersage zu ihrem Ergebnis kommt. Gute Erklärbarkeit resultiert einerseits aus einer geringen Größe des Portfolios, andererseits aus einer reduzierten Komplexität des Vorhersagemodells.

Im Vordergrund der Arbeit liegt das effiziente Finden von kleinen Portfolios aus einer größeren Menge von Algorithmen, sowie den Einfluss der Portfoliogröße auf die Performance des Portfolios.

Vortragende(r) Jonathan Bechtle
Titel Evaluation of Automated Feature Generation Methods
Vortragstyp Masterarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus
Kurzfassung Manual feature engineering is a time consuming and costly activity, when developing new Machine Learning applications, as it involves manual labor of a domain expert. Therefore, efforts have been made to automate the feature generation process. However, there exists no large benchmark of these Automated Feature Generation methods. It is therefore not obvious which method performs well in combination with specific Machine Learning models and what the strengths and weaknesses of these methods are.

In this thesis we present an evaluation framework for Automated Feature Generation methods, that is integrated into the scikit-learn framework for Python. We integrate nine Automated Feature Generation methods into this framework. We further evaluate the methods on 91 datasets for classification problems. The datasets in our evaluation have up to 58 features and 12,958 observations. As Machine Learning models we investigate five models including state of the art models like XGBoost.

Freitag, 21. Mai 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Haiko Thiessen
Titel Detecting Outlying Time-Series with Global Alignment Kernels (Defense)
Vortragstyp Masterarbeit
Betreuer(in) Florian Kalinke
Vortragsmodus
Kurzfassung Detecting outlying time-series poses two challenges: First, labeled training data is rare, as it is costly and error-prone to obtain. Second, algorithms usually rely on distance metrics, which are not readily applicable to time-series data. To address the first challenge, one usually employs unsupervised algorithms. To address the second challenge, existing algorithms employ a feature-extraction step and apply the distance metrics to the extracted features instead. However, feature extraction requires expert knowledge, rendering this approach also costly and time-consuming.

In this thesis, we propose GAK-SVDD. We combine the well-known SVDD algorithm to detect outliers in an unsupervised fashion with Global Alignment Kernels (GAK), bypassing the feature-extraction step. We evaluate GAK-SVDD's performance on 28 standard benchmark data sets and show that it is on par with its closest competitors. Comparing GAK with a DTW-based kernel, GAK improves the median Balanced Accuracy by 4%. Additionally, we extend our method to the active learning setting and examine the combination of GAK and domain-independent attributes.

Vortragende(r) Kuan Yang
Titel Efficient Verification of Data-Value-Aware Process Models
Vortragstyp Bachelorarbeit
Betreuer(in) Elaheh Ordoni
Vortragsmodus
Kurzfassung Verification methods detect unexpected behavior of business process models before their execution. In many process models, verification depends on data values. A data value is a value in the domain of a data object, e.g., $1000 as the price of a product. However, verification of process models with data values often leads to state-space explosion. This problem is more serious when the domain of data objects is large. The existing works to tackle this problem often abstract the domain of data objects. However, the abstraction may lead to a wrong diagnosis when process elements modify the value of data objects.

In this thesis, we provide a novel approach to enable verification of process models with data values, so-called data-value-aware process models. A distinctive of our approach is to support modification of data values while preserving the verification results. We show the functionality of our approach by conducting the verification of a real-world application: the German 4G spectrum auction model.

Freitag, 21. Mai 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Fabian Scheytt
Titel Ein modellbasierter Ansatz zur Bewertung der Vollständigkeit von verzahnten Sicherheits- und Risikoanalysen für E/E-Architekturen
Vortragstyp Masterarbeit
Betreuer(in) Emre Taşpolatoğlu
Vortragsmodus
Kurzfassung Die Cybersicherheit bereits in frühen Entwicklungsphasen zu betrachten, gewinnt in der Automobilindustrie zunehmend an Relevanz, um immer komplexer werdende Fahrzeuge gegen Angriffe abzusichern. Welche Teile eines Systemmodells in einer modellbasierten Sicherheitsbetrachtung bereits analysiert wurden, ist nicht eindeutig und meist nur händisch mit Expertenwissen zu ermitteln. Bestehende Ansätze liefern in der frühen Konzeptphase bestenfalls unvollständige Ergebnisse, da das Systemmodell nur skizzenhaft existiert. In dieser Arbeit wurde ein Konzept vorgestellt, mit dem Sicherheitsbetrachtungen bereits in der frühen Konzeptphase durch eine Metrik auf Vollständigkeit bewertet werden können. Dazu werden aus Systemzusammenhängen Elemente bestimmt, die in einer vollständigen Sicherheitsbetrachtung enthalten sein müssen. Diese Erwartung wird daraufhin mit der tatsächlichen Sicherheitsbetrachtung verglichen, um den Grad der Vollständigkeit zu bestimmen. Das Konzept wurde prototypisch implementiert und dessen Anwendbarkeit anhand einer Fallstudie aus dem EVITA Projekt evaluiert.

Freitag, 11. Juni 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Philipp Weinmann
Titel Tuning of Explainable ArtificialIntelligence (XAI) tools in the field of textanalysis
Vortragstyp Bachelorarbeit
Betreuer(in) Clemens Müssener
Vortragsmodus
Kurzfassung The goal of this bachelor thesis was to analyse classification results using a 2017 published method called shap. Explaining how an artificial neural network makes a decision is an interdisciplinary research subject combining computer science, math, psychology and philosophy. We analysed these explanations from a psychological standpoint and after presenting our findings we will propose a method to improve the interpretability of text explanations using text-hierarchies, without loosing much/any accuracy. Secondary, the goal was to test out a framework developed to analyse a multitude of explanation methods. This Framework will be presented next to our findings and how to use it to create your own analysis. This Bachelor thesis is addressed at people familiar with artificial neural networks and other machine learning methods.

Freitag, 18. Juni 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Aleksandr Eismont
Titel Integrating Structured Background Information into Time-Series Data Monitoring of Complex Systems
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Monitoring of time series data is increasingly important due to massive data generated by complex systems, such as industrial production lines, meteorological sensor networks, or cloud computing centers. Typical time series monitoring tasks include: future value forecasting, detecting of outliers or computing the dependencies.

However, the already existing methods for time series monitoring tend to ignore the background information such as relationships between components or process structure that is available for almost any complex system. Such background information gives a context to the time series data, and can potentially improve the performance of time series monitoring tasks.

In this bachelor thesis, we show how to incorporate structured background information to improve three different time series monitoring tasks. We perform the experiments on the data from the cloud computing center, where we extract background information from system traces. Additionally, we investigate different representations and quality of background information and conclude that its usefulness is independent from a concrete time series monitoring task.

Freitag, 25. Juni 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nobel Liaw
Titel Cost-Efficient Evaluation of ML Classifiers With Feature Attribution Annotations (Final BA Presentation)
Vortragstyp Bachelorarbeit
Betreuer(in) Moritz Renftle
Vortragsmodus
Kurzfassung To evaluate the loss of cognitive ML models, e.g., text or image classifier, accurately, one usually needs a lot of test data which are annotated manually by experts. In order to estimate accurately, the test data should be representative or else it would be hard to assess whether a model overfits, i.e., it uses spurious features of the images significantly to decide on its predictions.With techniques such as Feature Attribution, one can then compare important features that the model sees with their own expectations and can therefore be more confident whether or not he should trust the model. In this work, we propose a method that estimates the loss of image classifiers based on Feature-Attribution techniques. We use the classic approach for loss estimate as our benchmark to evaluate our proposed method. At the end of this work, our analysis reveals that our proposed method seems to have a similar loss estimate to that of the classic approach with a good image classifer and a representative test data. Based on our experiment, we expect that our proposed method could give a better loss estimate than the classic approach in cases where one has a biased test data and an image classifier which overfits.

Freitag, 25. Juni 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Julian Roßkothen
Titel Analyse von KI-Ansätzen für das Trainieren virtueller Roboter mit Gedächtnis
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus
Kurzfassung In dieser Arbeit werden mehrere rekurrente neuronale Netze verglichen.

Es werden LSTMs, GRUs, CTRNNs und Elman Netze untersucht. Die Netze werden dabei untersucht sich einen Punkt zu merken und anschließend nach dem Punkt mit einem virtuellen Roboterarm zu greifen.

Bei LSTM, GRU und Elman Netzen wird auch untersucht wie die Netze die Aufgabe lösen, wenn jedes Neuron nur auf den eigenen Speicher zugreifen kann.

Dabei hat sich herausgestellt, dass LSTMs und GRUs deutlich besser bei den Experimenten bewertet werden als CTRNNs und Elman Netze. Außerdem werden die Rechenzeit und der Zusammenhang zwischen der Anzahl der zu trainierenden Parameter und der Ergebnisse der Experimente verglichen.

Vortragende(r) Lukas Bach
Titel Automatically detecting Performance Regressions
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus
Kurzfassung One of the most important aspects of software engineering is system performance. Common approaches to verify acceptable performance include running load tests on deployed software. However, complicated workflows and requirements like the necessity of deployments and extensive manual analysis of load test results cause tests to be performed very late in the development process, making feedback on potential performance regressions available much later after they were introduced.

With this thesis, we propose PeReDeS, an approach that integrates into the development cycle of modern software projects, and explicitly models an automated performance regression detection system that provides feedback quickly and reduces manual effort for setup and load test analysis. PeReDeS is embedded into pipelines for continuous integration, manages the load test execution and lifecycle, processes load test results and makes feedback available to the authoring developer via reports on the coding platform. We further propose a method for detecting deviations in performance on load test results, based on Welch's t-test. The method is adapted to suit the context of performance regression detection, and is integrated into the PeReDeS detection pipeline. We further implemented our approach and evaluated it with an user study and a data-driven study to evaluate the usability and accuracy of our method.

Vortragende(r) Jan Wittler
Titel Derivation of Change Sequences from State-Based File Differences for Delta-Based Model Consistency
Vortragstyp Masterarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus
Kurzfassung In view-based software development, views may share concepts and thus contain redundant or dependent information. Keeping the individual views synchronized is a crucial property to avoid inconsistencies in the system. In approaches based on a Single Underlying Model (SUM), inconsistencies are avoided by establishing the SUM as a single source of truth from which views are projected. To synchronize updates from views to the SUM, delta-based consistency preservation is commonly applied. This requires the views to provide fine-grained change sequences which are used to incrementally update the SUM. However, the functionality of providing these change sequences is rarely found in real-world applications. Instead, only state-based differences are persisted. Therefore, it is desirable to also support views which provide state-based differences in delta-based consistency preservation. This can be achieved by estimating the fine-grained change sequences from the state-based differences.

This thesis evaluates the quality of estimated change sequences in the context of model consistency preservation. To derive such sequences, matching elements across the compared models need to be identified and their differences need to be computed. We evaluate a sequence derivation strategy that matches elements based on their unique identifier and one that establishes a similarity metric between elements based on the elements’ features. As an evaluation baseline, different test suites are created. Each test consists of an initial and changed version of both a UML class diagram and consistent Java source code. Using the different strategies, we derive and propagate change sequences based on the state-based difference of the UML view and evaluate the outcome in both domains. The results show that the identity-based matching strategy is able to derive the correct change sequence in almost all (97 %) of the considered cases. For the similarity-based matching strategy we identify two reoccurring error patterns across different test suites. To address these patterns, we provide an extended similarity-based matching strategy that is able to reduce the occurrence frequency of the error patterns while introducing almost no performance overhead.

Freitag, 2. Juli 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 9. Juli 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dennis Grötzinger
Titel Exploring The Robustness Of The Natural Language Inference Capabilties Of T5
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Large language models like T5 perform excellently on various NLI benchmarks. However, it has been shown that even small changes in the structure of these tasks can significantly reduce accuracy. I build upon this insight and explore how robust the NLI skills of T5 are in three scenarios. First, I show that T5 is robust to some variations in the MNLI pattern, while others degenerate performance significantly. Second, I observe that some other patterns that T5 was trained on can be substituted for the MNLI pattern and still achieve good results. Third, I demonstrate that the MNLI pattern translate well to other NLI datasets, even improving accuracy by 13% in the case of RTE. All things considered, I conclude that the robustness of the NLI skills of T5 really depend on which alterations are applied.

Freitag, 16. Juli 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Florian Leiser
Titel Modelling Dynamical Systems using Transition Constraints
Vortragstyp Masterarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Despite promising performance of data science approaches in various applications, in industrial research and development the results can be often unsatisfactory due to the costly experiments that lead to small datasets to work with. Theory-guided Data Science (TGDS) can solve the problem insufficient data by incorporating existing industrial domain knowledge with data science approaches.

In dynamical systems, like gas turbines, transition phases occur after a change in the input control signal. The domain knowledge about the steepness of these transitions can potentially help with the modeling of such systems using the data science approaches. There already exist TGDS approaches that use the information about the limits of the values. However it is currently not clear how to incorporate the information about the steepness of the transitions with them.

In this thesis, we develop three different TGDS approaches to include these transition constraints in recurrent neural networks (RNNs) to improve the modeling of input-output behavior of dynamical systems. We evaluate the approaches on synthetic and real time series data by varying data availability and different degrees of steepness. We conclude that the TGDS approaches are especially helpful for flat transitions and provide a guideline on how to use the available transition constraints in real world problems. Finally, we discuss the required degree of domain knowledge and intellectual implementation effort of each approach.

Freitag, 23. Juli 2021, 11:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tom George
Titel Augmenting Bandit Algorithms with Domain Knowledge
Vortragstyp Masterarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Bandit algorithms are a family of algorithms that efficiently solve sequential decision problems, like monitoring in a cloud computing system, news recommendations or clinical trials. In such problems there is a trade of between exploring new options and exploiting presumably good ones and bandit algorithms provide theoretical guarantees while being practical.

While some approaches use additional information about the current state of the environment, bandit algorithms tend to ignore domain knowledge that can’t be extracted from data. It is not clear how to incorporate domain knowledge into bandit algorithms and how much improvement this yields.

In this masters thesis we propose two ways to augment bandit algorithms with domain knowledge: a push approach, which influences the distribution of arms to deal with non-stationarity as well as a group approach, which propagates feedback between similar arms. We conduct synthetic and real world experiments to examine the usefulness of our approaches. Additionally we evaluate the effect of incomplete and incorrect domain knowledge. We show that the group approach helps to reduce exploration time, especially for small number of iterations and plays, and that the push approach outperforms contextual and non-contextual baselines for large context spaces.

Vortragende(r) Youheng Lü
Titel Auswahl von SAT-Instanzen zur Evaluation von Solvern
Vortragstyp Bachelorarbeit
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Das schnelle und effiziente Lösen von SAT-Instanzen ist für viele Bereiche relevant, zum Beispiel Kryptografie, Scheduling oder formale Verifikationen. Um die Geschwindigkeit von SAT-Solvern zu evaluieren, gibt es SAT-Instanzenmengen, die die Solver lösen müssen. Diese Instanzenmengen (Benchmarks) bestehen aus Hunderten von unterschiedlichen Instanzen. Um ein repräsentatives Ergebnis zu erhalten, muss eine Benchmark viele unterschiedliche Instanzen haben, da unterschiedliche Solver auf unterschiedlichen Instanzen gut sind. Wir gehen aber davon aus, dass wir Benchmarks erstellen können, die kleiner als die aktuellen Benchmarks sind, die immer noch repräsentative Ergebnisse liefern.

In unserer Arbeit stellen wir einen Ansatz vor, der aus einer gegebenen repräsentativen Benchmark eine kleinere Teilmenge wählt, die als repräsentative Benchmark dienen soll. Wir definieren dabei, dass eine Benchmark repräsentativ ist, wenn der Graph der Laufzeiten ein festgelegtes Ähnlichkeitsmaß gegenüber der ursprünglichen Benchmark überschreitet. Wir haben hierbei einen BeamSearch-Algorithmus erforscht. Am Ende stellen wir allerdings fest, dass eine zufällige Auswahl besser ist und eine zufällige Auswahl von 10 % der Instanzen ausreicht, um eine repräsentative Benchmark zu liefern.

Freitag, 23. Juli 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nicolas Boltz
Titel Architectural Uncertainty Analysis for Access Control Scenarios in Industry 4.0
Vortragstyp Masterarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus
Kurzfassung In this thesis, we present our approach to handle uncertainty in access control during design time. We propose the concept of trust as a composition of environmental factors that impact the validity of and consequently trust in access control properties. We use fuzzy inference systems as a way of defining how environmental factors are combined. These trust values are than used by an analysis process to identify issues which can result from a lack of trust.

We extend an existing data flow diagram approach with our concept of trust. Our approach of adding knowledge to a software architecture model and providing a way to analyze model instances for access control violations shall enable software architects to increase the quality of models and further verify access control requirements under uncertainty. We evaluate the applicability based on the availability, the accuracy and the scalability regarding the execution time.

Vortragende(r) Haris Dzogovic
Titel Evaluating architecture-based performance prediction for MPI-based systems
Vortragstyp Bachelorarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus
Kurzfassung One research field of High Performance Computing (HPC) is computing clusters. Computing clusters are distributed memory systems where different machines are connected through a network. To enable the machines to communicate with each other they need the ability to pass messages to each other through the network. The Message Passing Interface (MPI) is the standard in implementing parallel systems for distributed memory systems. To enable software architects in predicting the performance of MPI-based systems several approaches have been proposed. However, those approaches depend either on an existing implementation of a program or are tailored for specific programming languages or use cases. In our approach, we use the Palladio Component Model (PCM) that allows us to model component-based architectures and to predict the performance of the modeled system. We modeled different MPI functions in the PCM that serve as reusable patterns and a communicator that is required for the MPI functions. The expected benefit is to provide patterns for different MPI functions that allow a precise modelation of MPI-based systems in the PCM. And to obtain a precise performance prediction of a PCM instance.

Freitag, 30. Juli 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 20. August 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Martin Lange
Titel Quantitative Evaluation of the Expected Antagonism of Explainability and Privacy
Vortragstyp Bachelorarbeit
Betreuer(in) Clemens Müssener
Vortragsmodus
Kurzfassung Explainable artificial intelligence (XAI) offers a reasoning behind a model's behavior.

For many explainers this proposed reasoning gives us more information about the inner workings of the model or even about the training data. Since data privacy is becoming an important issue the question arises whether explainers can leak private data. It is unclear what private data can be obtained from different kinds of explanation. In this thesis I adapt three privacy attacks in machine learning to the field of XAI: model extraction, membership inference and training data extraction. The different kinds of explainers are sorted into these categories argumentatively and I present specific use cases how an attacker can obtain private data from an explanation. I demonstrate membership inference and training data extraction for two specific explainers in experiments. Thus, privacy can be breached with the help of explainers.

Freitag, 10. September 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Martin Armbruster
Titel Commit-Based Continuous Integration of Performance Models
Vortragstyp Masterarbeit
Betreuer(in) Manar Mazkatli
Vortragsmodus
Kurzfassung Architecture-level performance models, for instance, the PCM, allow performance predictions to evaluate and compare design alternatives. However, software architectures drift over time so that initially created performance models are out-to-date fast due to the required manual high effort to keep them up-to-date.

To close the gap between the development and having up-to-date performance models, the Continuous Integration of Performance Models (CIPM) approach has been proposed. It incorporates automatically executed activities into a Continuous Integration pipeline and is realized with Vitruvius combining Java and the PCM. As a consequence, changes from a commit are extracted to incrementally update the models in the VSUM. To estimate the resource demand in the PCM, the CIPM approach adaptively instruments and monitors the source code.

In previous work, parts of the CIPM pipeline were prototypically implemented and partly evaluated with artificial projects. A pipeline combining the incremental model update and the adaptive instrumentation is absent. Therefore, this thesis presents the combined pipeline adapting and extending the existing implementations. The evaluation is performed with the TeaStore and indicates the correct model update and instrumentation. Nevertheless, there is a gap towards the calibration pipeline.

Vortragende(r) Sina Schmitt
Titel Einfluss meta-kognitiver Strategien auf die Schlussfolgerungsfähigkeiten neuronaler Sprachmodelle
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Die meta-kognitive Strategie "laut nachzudenken" kann auf neuronale Sprachmodelle übertragen werden, wie Betz et al. zeigen: Ein vortrainiertes Sprachmodell ist besser in der Lage, deduktive Schlussfolgerungsprobleme zu lösen, wenn es zuvor dynamische Problemelaborationen generiert. Das Sprachmodell verwendet auf dem Datensatz von Betz et al. eine einfache Heuristik für seine Antwortvorhersage, die es mithilfe der selbst generierten Kontexterweiterungen effektiver einsetzen kann. In dieser Arbeit untersuche ich, wie dynamische Kontexterweiterungen die Performanz eines neuronalen Sprachmodells beeinflussen, wenn es nicht auf eine solche Heuristik zurückgreifen kann. Ich überprüfe (i) die Schlussfolgerungsfähigkeiten eines vortrainierten neuronalen Sprachmodells im Zero-Shot Setting, (ii) den Einfluss verschiedener vorgegebener Kontexterweiterungen auf die Zero-Shot-Performanz und (iii) die Fähigkeiten des Sprachmodells, selbst effektive Kontexterweiterungen zu generieren und zu nutzen.

Freitag, 17. September 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tanja Fenn
Titel Change Detection in High Dimensional Data Streams
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung The data collected in many real-world scenarios such as environmental analysis, manufacturing, and e-commerce are high-dimensional and come as a stream, i.e., data properties evolve over time – a phenomenon known as "concept drift". This brings numerous challenges: data-driven models become outdated, and one is typically interested in detecting specific events, e.g., the critical wear and tear of industrial machines. Hence, it is crucial to detect change, i.e., concept drift, to design a reliable and adaptive predictive system for streaming data. However, existing techniques can only detect "when" a drift occurs and neglect the fact that various drifts may occur in different dimensions, i.e., they do not detect "where" a drift occurs. This is particularly problematic when data streams are high-dimensional.

The goal of this Master’s thesis is to develop and evaluate a framework to efficiently and effectively detect “when” and “where” concept drift occurs in high-dimensional data streams. We introduce stream autoencoder windowing (SAW), an approach based on the online training of an autoencoder, while monitoring its reconstruction error via a sliding window of adaptive size. We will evaluate the performance of our method against synthetic data, in which the characteristics of drifts are known. We then show how our method improves the accuracy of existing classifiers for predictive systems compared to benchmarks on real data streams.

Vortragende(r) Wenrui Zhou
Titel Outlier Analysis in Live Systems from Application Logs
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Modern computer applications tend to generate massive amounts of logs and have become so complex that it is often difficult to explain why applications failed. Locating outliers in application logs can help explain application failures. Outlier detection in application logs is challenging because (1) the log is unstructured text streaming data. (2) labeling application logs is labor-intensive and inefficient.

Logs are similar to natural languages. Recent deep learning algorithm Transformer Neural Network has shown outstanding performance in Natural Language Processing (NLP) tasks. Based on these, we adapt Transformer Neural Network to detect outliers from applications logs In an unsupervised way. We compared our algorithm against state-of-the-art log outlier detection algorithms on three widely used benchmark datasets. Our algorithm outperformed state-of-the-art log outlier detection algorithms.

Freitag, 24. September 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 24. September 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Montag, 11. Oktober 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Lena Witterauf
Titel DomainML: A modular framework for domain knowledge-guided machine learning
Vortragstyp Masterarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus
Kurzfassung Standard, data-driven machine learning approaches learn relevant patterns solely from data. In some fields however, learning only from data is not sufficient. A prominent example for this is healthcare, where the problem of data insufficiency for rare diseases is tackled by integrating high-quality domain knowledge into the machine learning process.

Despite the existing work in the healthcare context, making general observations about the impact of domain knowledge is difficult, as different publications use different knowledge types, prediction tasks and model architectures. It further remains unclear if the findings in healthcare are transferable to other use-cases, as well as how much intellectual effort this requires.

With this Thesis we introduce DomainML, a modular framework to evaluate the impact of domain knowledge on different data science tasks. We demonstrate the transferability and flexibility of DomainML by applying the concepts from healthcare to a cloud system monitoring. We then observe how domain knowledge impacts the model’s prediction performance across both domains, and suggest how DomainML could further be used to refine both the given domain knowledge as well as the quality of the underlying dataset.

Freitag, 15. Oktober 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Bjarne Sauer
Titel Analyse von Entwurfsentscheidungen in natürlichsprachiger Softwaredokumentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Die Klassifikation von Entwurfsentscheidungen in natürlichsprachiger Softwaredokumentation ermöglichen bessere Implementierungs- und Wartungsprozesse und die Erstellung konsistenter Dokumentationsartefakte. Das in dieser Arbeit entwickelte Klassifikationsschema für Entwurfsentscheidungen erweitert bestehende Ansätze, um klar umrissene Klassen festzulegen und Entwurfsentscheidungen vollständig abzubilden. Das Schema wurde in einem iterativen Prozess die Passform des Klassifikationsschemas durch die Anwendung auf die reale Softwarearchitekturdokumentation von 17 Fallstudien verbessert und validiert. In einem zweiten Teil wird eine Anwendungsmöglichkeit des entwickelten Klassifikationsschemas eröffnet, indem in einer Proof-of-Concept-Implementierung untersucht wird, mit welchen Ansätzen Entwurfsentscheidungen identifiziert und klassifiziert werden können. Durch die Evaluation mit statistischen Maßen wird gezeigt, welche Methoden zur Textvorverarbeitung, zur Überführung in Vektorrepräsentationen und welche Lernalgorithmen besonders für diese Klassifikation geeignet sind.
Vortragende(r) Ian Winter
Titel Komposition von Trace Link Recovery Ansätzen
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Das Erstellen von Trace-Links die beispielsweise Dokumentation mit Entwurfsmodellen verknüpfen ist ein wertvoller Bestandteil der Softwareentwicklung. Da ein manuelles Herauslesen der Trace-Links oft nicht praktikabel ist, sollte dieser Prozess automatisiert werden. Es existieren schon viele verschiedene Ansätze der Trace-Link-Recovery, welche jedoch unterschiedliche Stärken und schwächen haben. In dieser Arbeit wird untersucht, ob die Stärken unterschiedlicher Recovery-Ansätze durch Komposition verknüpft werden können, um ggf. die Schwächen auszugleichen. Dazu habe ich mehrere einfache Kompositionen implementiert und deren Ergebnisse ausgewertet. Dazu wird Ausbeute, Präzision, F1 und F2 verschiedener Kompositionen in drei Fallstudien ermittelt und mit denen der Basis-Ansätze verglichen.

Freitag, 15. Oktober 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Oliver Liu
Titel Design Space Evaluation for Confidentiality under Architectural Uncertainty
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus
Kurzfassung In the early stages of developing a software architecture, many properties of the final system are yet unknown, or difficult to determine. There may be multiple viable architectures, but uncertainty about which architecture performs the best. Software architects can use Design Space Exploration to evaluate quality properties of architecture candidates to find the optimal solution.

Design Space Exploration can be a resource intensive process. An architecture candidate may feature certain properties which disqualify it from consideration as an optimal candidate, regardless of its quality metrics. An example for this would be confidentiality violations in data flows introduced by certain components or combinations of components in the architecture. If these properties can be identified early, quality evaluation can be skipped and the candidate discarded, saving resources.

Currently, analyses for identifying such properties are performed disjunct from the design space exploration process. Optimal candidates are determined first, and analyses are then applied to singular architecture candidates. Our approach augments the PerOpteryx design space exploration pipeline with an additional architecture candidate filter stage, which allows existing generic candidate analyses to be integrated into the DSE process. This enables automatic execution of analyses on architecture candidates during DSE, and early discarding of unwanted candidates before quality evaluation takes place.

We use our filter stage to perform data flow confidentiality analyses on architecture candidates, and further provide a set of example analyses that can be used with the filter. We evaluate our approach by running PerOpteryx on case studies with our filter enabled. Our results indicate that the filter stage works as expected, able to analyze architecture candidates and skip quality evaluation for unwanted candidates.

Vortragende(r) Johannes Häring
Titel Enabling the Information Transfer between Architecture and Source Code for Security Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus
Kurzfassung Many software systems have to be designed and developed in a way that specific security requirements are guaranteed. Security can be specified on different views of the software system that contain different kinds of information about the software system. Therefore, a security analysis on one view must assume security properties of other views. A security analysis on another view can be used to verify these assumptions. We provide an approach for enabling the information transfer between a static architecture analysis and a static, lattice-based source code analysis. This approach can be used to reduce the assumptions in a component-based architecture model. In this approach, requirements under which information can be transferred between the two security analyses are provided. We consider the architecture and source code security analysis as black boxes. Therefore, the information transfer between the security analyses is based on a megamodel consisting of the architecture model, the source code model, and the source code analysis results. The feasibility of this approach is evaluated in a case study using Java Object-sensitive ANAlysis and Confidentiality4CBSE. The evaluation shows that information can be transferred between an architecture and a source code analysis. The information transfer reveals new security violations which are not found using only one security analysis.

Freitag, 22. Oktober 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Marco Kugler
Titel Entwurfszeitanalyse der Fehlerpropagation in komponentenbasierten selbst-adaptiven Software-Systemen
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Krach
Vortragsmodus
Kurzfassung Fehlerzustände in Software oder Hardware führen zu Abweichungen bezüglich der bereitgestellten Daten und der Verarbeitungszeit oder direkt zu einem kompletten Ausfall eines Service an einer Software-Komponente. Diese Abweichung von dem korrekten Service führt wiederum dazu, dass andere Komponenten, die diesen inkorrekten Service in Anspruch nehmen, ihren Service ebenfalls nicht korrekt bereitstellen können. Der entstandene Fehler propagiert durch das System, kombiniert sich mit anderen Fehlern, transformiert zu anderen Fehlerarten und hat letztendlich mehr oder weniger schwere Auswirkungen auf den System-Kontext, falls die Propagation nicht durch geeignete Maßnahmen unterbunden wird. Besonders bei sicherheitskritischen Systemen ist es deshalb notwendig die Auswirkungen der möglichen Fehler im System zu analysieren.

Die in der Arbeit entwickelte Erweiterung des Palladio-Konzeptes ermöglicht es, diese Analyse schon zur Entwurfszeit anhand eines Modells durchzuführen. Mithilfe der Erweiterung kann analysiert werden, wie oft und in welchem Verhältnis ein Fehler aufgetreten ist, welche Fehlervorkommen miteinander korrelieren und wie schwerwiegend die Auswirkungen der aufgetretenen Fehler für den Systemkontext waren. Neben der Analyse der Fehlerpropagation ermöglicht die Erweiterung die Modellierung von Systemen, die auf das Vorkommen eines Fehlers im Sinne einer Rekonfiguration reagieren. Das Konzept wurde anhand eines sicherheitskritischen Systems aus der Domäne der autonomen Fahrzeuge validiert.

Vortragende(r) Daniel Stengel
Titel Verfeinerung von Zugriffskontrollrichtlinien unter Berücksichtigung von Ungewissheit in der Entwurfszeit
Vortragstyp Masterarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus
Kurzfassung In unserer vernetzten und digitalisierten Welt findet ein zunehmender Austausch von Daten statt. Um die persönlichen Daten von Nutzern zu schützen, werden rechtliche Vorgaben in Form von obligatorischen Richtlinien für den Datenaustausch beschlossen. Diese sind in natürlicher Sprache verfasst und werden oft erst zu späten Entwurfs-Phasen der Softwareentwicklung berücksichtigt. Der fehlende Einbezug von Richtlinien, schon während der Entwurfs-Phase, kann zu unberücksichtigten Lücken der Vertraulichkeit führen. Diese müssen dann oft unter höheren Aufwänden in späteren Anpassungen behoben werden. Eine Verfeinerung der Richtlinien, die bereits zur Entwurfszeit von Software ansetzt, kann einem Softwarearchitekten frühzeitig Hinweise auf kritische Eigenschaften oder Verletzungen der Software liefern und hilft diese zu vermeiden. Das Ziel dieser Arbeit ist es, einen Verfeinerungsansatz trotz Ungewissheiten durch mangelnde Informationen zu entwickeln. Die Erkennung und Einordnung von Ungewissheiten erfolgt basierend auf einer Taxonomie von Ungewissheit. Der Verfeinerungsprozess analysiert verschiedene Abstraktionsebenen einer Softwarearchitektur, angefangen bei der Systemebene, über einzelne Komponenten hin zu Aufrufen von Diensten und deren Schnittstellen. Mögliche Verletzungen der eingegebenen Richtlinien werden durch die Erstellung eines Zugriffskontrollgraphen, der Dekomposition des Graphen und der Identifikation einzelner Serviceaufrufe festgestellt. Die identifizierten, kritischen Elemente der Softwarearchitektur werden ausgegeben.

Freitag, 22. Oktober 2021, 14:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jan Hirschmann
Titel Schematisierung von Entwurfsentscheidungen in natürlichsprachiger Softwarearchitekturdokumentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung In dieser Arbeit wird ein Schema entwickelt, um Architekturentscheidungen aus Softwarearchitekturdokumentationen einzuordnen. Somit solldas Einordnen und Wiederverwenden von Entscheidungen in Softwarearchitekturdokumentation erleichtert werden.

In meinem Ansatz wird ein Schema zur Einordnung entwickelt, das sich an aktuelle Literatur anlehnt und drei grundsätzliche Arten von Entscheidungen unterscheidet: Existenzentscheidungen, Eigenschaftenentscheidungen und Umgebungsentscheidungen. Zur Evaluation wurden Open-Source-Softwareprojekte mit natürlichsprachiger Softwarearchitekturdokumentationen betrachtet und iterativ überprüft, wo das aktuelle Schema verbessert werden kann. Zum Schluss wird vorgestellt, welche der Entscheidungsklassen sich im Palladio Component Model abbilden lassen.

Freitag, 29. Oktober 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Klevia Ulqinaku
Titel Analysis and Visualization of Semantics from Massive Document Directories
Vortragstyp Bachelorarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Research papers are commonly classified into categories, and we can see the existing contributions as a massive document directory, with sub-folders. However, research typically evolves at an extremely fast pace; consider for instance the field of computer science. It can be difficult to categorize individual research papers, or to understand how research communities relate to each other.

In this thesis we will analyze and visualize semantics from massive document directories. The results will be displayed using the arXiv corpus, which contains domain-specific (computer science) papers of the past thirty years. The analysis will illustrate and give insight about past trends of document directories and how their relationships evolve over time.

Freitag, 29. Oktober 2021, 14:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 5. November 2021, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Haßberg
Titel Development of an Active Learning Approach for One Class Classification using Bayesian Uncertainty
Vortragstyp Proposal
Betreuer(in) Bela Böhnke
Vortragsmodus
Kurzfassung HYBRID: This Proposal will be online AND in the seminar room 348.

When working with large data sets, in many situations one has to deals with a large set data from a single class and only few negative examples from other classes. Learning classifiers, which can assign data points to one of the groups, is known as one-class classification (OCC) or outlier detection.

The objective of this thesis is to develop and evaluate an active learning process to train an OCC. The process uses domain knowledge to reasonably adopt a prior distribution. Knowing that prior distribution, query strategies will be evaluated, which consider the certainty, more detailed the uncertainty, of the estimated class membership scorings. The integration of the prior distribution and the estimation of uncertainty, will be modeled using a gaussian process.

Freitag, 5. November 2021, 12:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Frederik Scheiderbauer
Titel Automatisiertes Black-Box Software Testing mit neuartigen neuronalen Netzen
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus
Kurzfassung Das Testen von Softwareprojekten ist mit einem hohen Arbeitsaufwand verbunden, dies betrifft insbesondere die grafische Benutzeroberfläche.

Verfahren der künstlichen Intelligenz auf der Grundlage neuronaler Netzwerke können genutzt werden, um viele der besonders aufwändigen Aufgaben schneller oder sogar besser zu lösen als herkömmliche Methoden. In dieser Arbeit wird ein neuartiges neuronales Netzwerk auf seine Fähigkeit hin untersucht, eine Software allein anhand der Pixeldaten ihrer Benutzeroberfläche zu testen. Des Weiteren wird ein Framework entwickelt, welches mithilfe von leistungsfähigen GPUs den Trainingsvorgang deutlich beschleunigen kann.

Freitag, 12. November 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Li Mingyi
Titel On the Converge of Monte Carlo Dependency Estimators
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Estimating dependency is essential for data analysis. For example in biological analysis, knowing the correlation between groups of proteins and genes may help predict genes functions, which makes cure discovery easier.

The recently introduced Monte Carlo Dependency Estimation (MCDE) framework defines the dependency between a set of variables as the expected value of a stochastic process performed on them. In practice, this expected value is approximated with an estimator which iteratively performs a set of Monte Carlo simulations. In this thesis, we propose several alternative estimators to approximate this expected value. They function in a more dynamic way and also leverage information from previous approximation iterations. Using both probability theory and experiments, we show that our new estimators converge much faster than the original one.

Freitag, 12. November 2021, 12:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Maximilian Georg
Titel Review of dependency estimation with focus on data efficiency
Vortragstyp Proposal
Betreuer(in) Bela Böhnke
Vortragsmodus
Kurzfassung In our data-driven world, large amounts of data are collected in all kinds of environments. That is why data analysis rises in importance. How different variables influence each other is a significant part of knowledge discovery and allows strategic decisions based on this knowledge. Therefore, high-quality dependency estimation should be accessible to a variety of people. Many dependency estimation algorithms are difficult to use in a real-world setting. In addition, most of these dependency estimation algorithms need large data sets to return a good estimation. In practice, gathering this amount of data may be costly, especially when the data is collected in experiments with high costs for materials or infrastructure. I will do a comparison of different state-of-the-art dependency estimation algorithms. A list of 14 different criteria I but together, will be used to determine how promising the algorithm is. This study focuses especially on data efficiency and uncertainty of the dependency estimation algorithms. An algorithm with a high data efficiency can give a good estimation with a small amount of data. A degree of uncertainty helps to interpret the result of the estimator. This allows better decision-making in practice. The comparison includes a theoretical analysis and conducting different experiments with dependency estimation algorithms that performed well in the theoretical analysis.
Vortragende(r) Karl Rubel
Titel Umsetzung einer architekturellen Informationsflussanalyse auf Basis des Palladio-Komponentenmodells
Vortragstyp Bachelorarbeit
Betreuer(in) Christopher Gerking
Vortragsmodus
Kurzfassung Es ist essentiell, dass Softwaresysteme die Vertraulichkeit von Informationen gewährleisten. Das Palladio Component Model (PCM) bietet bereits Werkzeuge zur Beschreibung von Softwarearchitekturen mit dem Ziel der Vorhersage von Qualitätseigenschaften. Es bietet allerdings keine unmittelbare Unterstützung zur Untersuchung der Vertraulichkeit von Dienstbeschreibungen auf Architekturebene. In dieser Arbeit wird eine Analysetechnik zur Überprüfung einer im PCM modellierten Architektur auf Vertraulichkeitseigenschaften entwickelt. Diese Analyse beruht auf der Untersuchung der im PCM erstellen Dienstbeschreibungen. In der Konzeption wird eine vorhandene Analysetechnik als Grundlage herangezogen und für die Verwendung mit dem PCM adaptiert. Dabei wird die Fragestellung nach der Vertraulichkeit durch Modelltransformation auf eine durch Model Checking überprüfbare Eigenschaft reduziert. Die Genauigkeit und Performance des Ansatzes werden anhand einer Fallstudie evaluiert. Durch die entwickelte Analysetechnik wird es Softwarearchitekten ermöglicht, frühzeitig auf Architekturebene eine Vertraulichkeitsanalyse auf komponentenbasierten Modellen durchzuführen.

Freitag, 12. November 2021, 12:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Hermann Krumrey
Titel Automatische Klassifikation von GitHub-Projekten nach Anwendungsbereichen
Vortragstyp Masterarbeit
Betreuer(in) Yves Kirschner
Vortragsmodus
Kurzfassung GitHub ist eine der beliebtesten Plattformen für kollaboratives Entwickeln von Software-Projekten und ist eine wertvolle Ressource für Software-Entwickler. Die große Anzahl von Projekten, welche auf diesem Dienst zu finden sind, erschwert allerdings die Suche nach relevanten Projekten. Um die Auffindbarkeit von Projekten auf GitHub zu verbessern, wäre es nützlich, wenn diese in Kategorien klassifiziert wären. Diese Informationen könnten in einer Suchmaschine oder einem Empfehlungssystem verwendet werden. Manuelle Klassifikation aller Projekte ist allerdings wegen der großen Anzahl von Projekten nicht praktikabel. Daher ist ein automatisches Klassifikationssystem wünschenswert. Diese Arbeit befasst sich mit der Problematik, ein automatisches Klassifikationssystem für GitHub-Projekte zu entwickeln. Bei der vorgestellten Lösung werden GitHub-Topics verwendet, welches manuelle Klassifikation von GitHub-Projekten sind, welche von den Eigentümern der Projekte vorgenommen wurden. Diese klassifizierten Projekte werden als Trainingsdaten für ein überwachtes Klassifikationssystem verwendet. Somit entfällt die Notwendigkeit, manuell Trainingsdaten zu erstellen. Dies ermöglicht die Klassifikation mit flexiblen Klassenhierarchien. Im Kontext dieser Arbeit wurde ein Software-Projekt entwickelt, welches die Möglichkeit bietet, Trainingsdaten mithilfe der GitHub-API basierend auf GitHub-Topics zu generieren und anschließend mit diesen ein Klassifikationssystem zu trainieren. Durch einen modularen Ansatz können für den Zweck der Klassifikation eine Vielzahl von Vektorisierungs- und Vorhersagemethoden zum Einsatz kommen. Neue Implementierungen solcher Verfahren können ebenfalls leicht eingebunden werden. Das Projekt bietet zudem Schnittstellen für externe Programme, welche es ermöglicht, einen bereits trainierten Klassifikator für weiterführende Zwecke zu verwenden. Die Klassifikationsleistung des untersuchten Ansatzes bietet für Klassenhierarchien, welche sich gut auf GitHub-Topics abbilden lassen, eine bessere Klassifikationsleistung als vorherige Arbeiten. Bei Klassenhierarchien, wo dies nicht der Fall ist, die Klassifikationsleistung hingegen schlechter.
Vortragende(r) Moritz Halm
Titel The hW-inference Algorithm: Theory and Application
Vortragstyp Masterarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus
Kurzfassung Active inference-Alogrithmen konstruieren ein Modell einer als black box gegebenen Software durch interaktives Testen. hW-inference ist ein solcher active inference Algorithmus, welcher insbesonder Modelle von Software lernen kann ohne sie währendessen neu zu starten. Die gelernten Modelle sind endliche Zustandsautomaten mit Eingaben und Ausgaben (Mealy Automaten).

Der theoretische Teil der Arbeit behandelt das bislang ungelöste Problem, einen formalen Beweis für die Korrektheit von hW-inference zu finden. Im praktischen Teil schlagen wir heuristische Optimierungen vor, die die Anzahl der zum Lernen benötigten Eingaben verringern. Diese Heuristiken sind potentiell auch für anderen Lern- oder Testverfahren von endlichen Zustandsautomaten relevant. Endliche Zustandsautomaten sind außerdem ein verbreitetes Modell, das zum automatisiertem Testen von Anwendungen mit graphischen Benutzeroberflächen (GUIs) verwendet wird. Wir erötern, dass mit active inference-Algorithmen besonders präzise Modelle existierender GUI-Anwendugnen gelernt werden können. Insbesondere können dabei interne, nicht sichtbare Zustände der Anwendung unterschieden werden. Die Anwendung wird außerdem bereits durch den interkativen inference-Prozess gründlich getestet. Wir evaluieren diesen Ansatz in einer Fallstudie mit hW-inference.

Freitag, 26. November 2021, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 10. Dezember 2021, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Anton Winter
Titel Information Content of Targeted Disturbances in the Electrical Grid
Vortragstyp Proposal
Betreuer(in) Bela Böhnke
Vortragsmodus
Kurzfassung A power grid has to ensure high voltage quality, i.e., the voltage should be stable at all times. Poor voltage quality stresses all connected devices, leading to damage, misbehavior, and accelerated aging. So-called Smart Transformers (ST) can prevent blackouts in the case of a problem in a higher voltage grid. STs need information about the “voltage sensitivity”, i.e., how a newly added or removed node or the change of the signal formed voltages will change the grids voltage. To measure voltage sensitivity, STs periodically introduce targeted disturbances into the electricity grid. Observing the resulting voltage change gives indications about the voltage sensitivity. The goal of my thesis is, to find out if it is possible to predict the Voltage Sensitivity with feeding less (or even no) disturbances into the grid.

Freitag, 17. Dezember 2021, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jonas Zoll
Titel Injection Molding Simulation based on Graph Neural Networks
Vortragstyp Proposal
Betreuer(in) Moritz Renftle
Vortragsmodus
Kurzfassung Injection molding simulations are important tools for the development of new injection molds. Existing simulations mostly are numerical solvers based on the finite element method. These solvers are reliable and precise, but very computionally expensive even on simple part geometries. In this thesis, we aim to develop a faster injection molding simulation based on Graph Neural Networks (GNNs). Our approach learns a simulation as a composition of three functions: an encoder, a processor and a decoder. The encoder takes in a graph representation of a 3D geometry of a mold part and returns a numeric embedding of each node and edge in the graph. The processor updates the embeddings of each node multiple times based on its neighbors. The decoder then decodes the final embeddings of each node into physically meaningful variables, say, the fill time of the node. The envisioned GNN architecture has two interesting properties: (i) it is applicable to any kind of material, geometry and injection process parameters, and (ii) it works without a “time integrator”, i.e., it predicts the final result without intermediate steps. We plan to evaluate our architecture by its accuracy and runtime when predicting node properties. We further plan to interpret the learned GNNs from a physical perspective.

Freitag, 14. Januar 2022, 12:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Philipp Schumacher
Titel Ein Datensatz handgezeichneter UML-Klassendiagramme für maschinelle Lernverfahren
Vortragstyp Bachelorarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus online
Kurzfassung Klassendiagramme ermöglichen die grafische Modellierung eines Softwaresystems.

Insbesondere zu Beginn von Softwareprojekten entstehen diese als handgezeichnete Skizzen auf nicht-digitalen Eingabegeräten wie Papier oder Whiteboards. Das Festhalten von Skizzen dieser Art ist folglich auf eine fotografische Lösung beschränkt. Eine digitale Weiterverarbeitung einer auf einem Bild gesicherten Klassendiagrammskizze ist ohne manuelle Rekonstruktion in ein maschinell verarbeitbares Diagramm nicht möglich.

Maschinelle Lernverfahren können durch eine Skizzenerkennung eine automatisierte Transformation in ein digitales Modell gewährleisten. Voraussetzung für diese Verfahren sind annotierte Trainingsdaten. Für UML-Klassendiagramme sind solche bislang nicht veröffentlicht.

Diese Arbeit beschäftigt sich mit der Erstellung eines Datensatzes annotierter UML-Klassendiagrammskizzen für maschinelle Lernverfahren. Hierfür wird eine Datenerhebung, ein Werkzeug für das Annotieren von UML-Klassendiagrammen und eine Konvertierung der Daten in ein Eingabeformat für das maschinelle Lernen präsentiert. Der annotierte Datensatz wird im Anschluss anhand seiner Vielfältigkeit, Detailtiefe und Größe bewertet. Zur weiteren Evaluation wird der Einsatz des Datensatzes an einem maschinellen Lernverfahren validiert. Das Lernverfahren ist nach dem Training der Daten in der Lage, Knoten mit einem F1-Maß von über 99%, Textpositionen mit einem F1-Maß von über 87% und Kanten mit einem F1-Maß von über 71% zu erkennen. Die Evaluation zeigt folglich, dass sich der Datensatz für den Einsatz maschineller Lernverfahren eignet.

Vortragende(r) Dennis Bäuml
Titel Entwicklung zuverlässiger KI-basierter Software-Systeme in Anwesenheit von Unsicherheit
Vortragstyp Masterarbeit
Betreuer(in) Max Scheerer
Vortragsmodus online
Kurzfassung Die rapide Zunahme der Rechenleistung heutiger Computer hat die Nutzung von KI in alltäglichen Anwendungen wesentlich erleichtert. Aufgrund der statistischen Natur von KI besteht deshalb eine gewisse Unsicherheit. Diese Unsicherheit kann direkten Einfluss auf die Zuverlässigkeit eines Software-Systems haben. Im Rahmen der Arbeit „Entwicklung zuverlässiger KI-basierter Software-Systeme in Anwesenheit von Unsicherheit“ wird ein Vorgehen präsentiert, das solche Problematiken auf Architekturebene analysieren kann. Das Vorgehen nutzt dafür modellbasierte Qualitätsanalysen, welche im Kontext von Palladio realisiert wurde. Zusätzlich wird ein Vorgehen zur Sensitivitätsanalyse vorgestellt, um ein KI-Netz anhand von veränderten Unsicherheiten abzutasten. Mithilfe dieser Werkzeuge kann eine Zuverlässigkeitsvorhersage auf dem Modell des Software-Systems getätigt werden. Dabei konnte für zwei Unterschiedliche KI-Netze gezeigt werden, dass deren Sensitivitätsmodelle direkten Einfluss auf die Zuverlässigkeit des gesamten Software-Systems haben. Durch den Einsatz von Architekturvorlagen konnte auch gezeigt werden, dass die ebenfalls Einfluss auf die Zuverlässigkeit des gesamten Software-Systems haben.

Freitag, 21. Januar 2022, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Hombücher
Titel Canonical Monte Carlo Dependency Estimation
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Dependency estimation is a crucial task in data analysis and finds applications in, e.g., data understanding, feature selection and clustering. This thesis focuses on Canonical Dependency Analysis, i.e., the task of estimating the dependency between two random vectors, each consisting of an arbitrary amount of random variables. This task is particularly difficult when (1) the dimensionality of those vectors is high, and (2) the dependency is non-linear. We propose Canonical Monte Carlo Dependency Estimation (cMCDE), an extension of Monte Carlo Dependency Estimation (MCDE, Fouché 2019) to solve this task. Using Monte Carlo simulations, cMCDE estimates dependency based on the average discrepancy between empirical conditional distributions. We show that cMCDE inherits the useful properties of MCDE and compare it to existing competitors. We also propose and apply a method to leverage cMCDE for selecting features from very high-dimensional features spaces, demonstrating cMCDE’s practical relevance.

Freitag, 21. Januar 2022, 12:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Fatma Chebbi
Titel Architecture Extraction for Message-Based Systems from Dynamic Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Snigdha Singh
Vortragsmodus online
Kurzfassung Distributed message-based microservice systems architecture has seen considerable evolution in recent years, making them easier to extend, reuse and manage. But, the challenge lies in the fact that such software systems are constituted of components that are more and more autonomous, distributed, and are deployed with different technologies. On the one hand such systems through their flexible architecture provide a lot of advantages. On the other hand, they are more likely to be changed fast and thus make their architecture less reliable and up-to-date. Architecture reconstruction method can support to obtain the updated architecture at different phases of development life cycle for software systems. However, the existing architecture reconstruction methods do not support the extraction for message-based microservice systems. In our work we try to handle this problem by extending an existing approach of architecture model extraction of message-based microservice systems from their tracing data (source code instrumented) in a way that such systems can be supported. Through our approach, we provide a way to automatically extract performance models for message-based microservice systems through dynamic analysis. We then evaluate our approach with the comparison of extracted model with the manual model with statistical metrics such as precision, recall and F1-score in order to find out the accuracy of our extracted model.
Vortragende(r) Jan-Philipp Töberg
Titel Modelling and Enforcing Access Control Requirements for Smart Contracts
Vortragstyp Masterarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Smart contracts are software systems employing the underlying blockchain technology to handle transactions in a decentralized and immutable manner. Due to the immutability of the blockchain, smart contracts cannot be upgraded after their initial deploy. Therefore, reasoning about a contract’s security aspects needs to happen before the deployment. One common vulnerability for smart contracts is improper access control, which enables entities to modify data or employ functionality they are prohibited from accessing. Due to the nature of the blockchain, access to data, represented through state variables, can only be achieved by employing the contract’s functions. To correctly restrict access on the source code level, we improve the approach by Reiche et al. who enforce access control policies based on a model on the architectural level.

This work aims at correctly enforcing role-based access control (RBAC) policies for Solidity smart contract systems on the architectural and source code level. We extend the standard RBAC model by Sandhu, Ferraiolo, and Kuhn to also incorporate insecure information flows and authorization constraints for roles. We create a metamodel to capture the concepts necessary to describe and enforce RBAC policies on the architectural level. The policies are enforced in the source code by translating the model elements to formal specifications. For this purpose, an automatic code generator is implemented. To reason about the implemented smart contracts on the source code level, tools like solc-verify and Slither are employed and extended. Furthermore, we outline the development process resulting from the presented approach. To evaluate our approach and uncover problems and limitations, we employ a case study using the three smart contract software systems Augur, Fizzy and Palinodia. Additionally, we apply a metamodel coverage analysis to reason about the metamodel’s and the generator’s completeness. Furthermore, we provide an argumentation concerning the approach’s correct enforcement. This evaluation shows how a correct enforcement can be achieved under certain assumptions and when information flows are not considered. The presented approach can detect 100% of manually introduced violations during the case study to the underlying RBAC policies. Additionally, the metamodel is expressive enough to describe RBAC policies and contains no unnecessary elements, since approximately 90% of the created metamodel are covered by the implemented generator. We identify and describe limitations like oracles or public variables.

Freitag, 28. Januar 2022, 12:00 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Felix Rittler
Titel Entwicklung und Analyse von Auto-Encodern für GUI-basiertes Software-Testing durch KI
Vortragstyp Masterarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus online
Kurzfassung Das Testen von Software über deren graphischen Benutzeroberflächen wird mit zunehmender Komplexität der Software (und damit einhergehender Variabilität in der Benutzeroberfläche) aufwendiger. Rein manuelles Testen durch den Entwickler und das Schreiben von Testfällen sind oft nicht mehr möglich. Daher sind neue Ansätze aus dem Bereich des maschinellen Lernens erforderlich, um diese Arbeiten zu erleichtern. Ein Lösungsansatz kann der Einsatz neuronaler Netze sein, die am Forschungszentrum Informatik (FZI) entwickelt werden. Als Eingabedaten sollen dabei Zustände einer graphischen Benutzeroberfläche als Bild dienen, welche jedoch zu komplex sind, um in Echtzeit von diesen Netzen verarbeitet zu werden. In dieser Masterarbeit wurde untersucht, inwiefern eine Kompression der Daten durch den Encoder-Teil von Autoencodern stattfinden kann. Hierzu wurden vier verschiedene Autoencoder-Architekturen entwickelt und analysiert, inwiefern sie sich für diesen Zweck eignen. Um die Autoencoder zu trainieren, wurde ein Trainingsdatengenerator in Rust unter Verwendung von dort vorhandenen GUI-Toolkits als Mock-Applikation einer realen GUI entwickelt. Der Trainingsdatengenerator eignet sich sehr gut zum Training der Autoencoder, da er sehr passgenau Trainingsdaten generieren kann. Aufgrund des frühen Stadiums der verwendeten Werkzeuge traten jedoch während der Entwicklung Fehler auf, die die Entwicklung hemmten. Für diese wurden Workarounds entwickelt, die teilweise die Handhabung des Generators erschweren. Darüber hinaus lässt sich feststellen, dass der Aufwand zur exakten Nachbildung einer Applikation als Mock sehr hoch ist.

Bezüglich der Kompression von Informationen über Benutzeroberflächen durch die Autoencoder waren die Ergebnisse dagegen vielversprechend, da die Testdaten auch in hoher Auflösung von 900 x 935 Pixeln mit hoher Genauigkeit rekonstruiert werden konnten. Erste Experimente ergaben, dass die Autoencoder darüber hinaus Fähigkeiten entwickeln, Applikationen mit ähnlichem Farbschema oder ähnlicher Designsprache zu kodieren und wiederzugeben. Ein erstes Fazit über die Fähigkeiten zur Generalisierung fällt daher ebenso positiv aus. Die Genauigkeit der Reproduktion sinkt, wenn die Eingabe farblich oder designtechnisch stark von den Trainingsdaten abweicht.

Freitag, 4. Februar 2022, 12:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Atilla Ateş
Titel Konsistenzerhaltung von Feature-Modellen durch externe Sichten
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus online
Kurzfassung Bei der Produktlinienentwicklung werden Software-Produktlinien(SPLs) meistens Featureorientiert strukturiert und organisiert. Um die gemeinsamen und variablen Merkmale der Produkte einer Produktlinie darzustellen, können Feature-Modelle verwendet werden. Ein Software-Werkzeug zum Erstellen und Editieren von Feature-Modellen ist FeatureIDE, welche die Zustände der Feature-Modelle als Dateien der Extensible Markup Language (XML) persistiert. Bei der Entwicklung von Software-Systemen existieren allerdings mehrere unterschiedliche Artefakte. Diese können sich Informationen mit den Feature-Modellen teilen. Um diese Artefakte und Modelle gemeinsam automatisch evolvieren zu können, werden Konsistenzerhaltungsansätze benötigt. Solche Ansätze sind jedoch nicht mit den persistierten XML-Dateien kompatibel.

In dieser Arbeit implementieren wir eine bidirektionale Modell-zu-Text-Transformation, welche die als XML-Dateien persistierten Zustände der FeatureIDE-Modelle in geeignete Modellrepräsentationen überführt, um daraus feingranulare Änderungssequenzen abzuleiten. Diese können zur deltabasierten Konsistenzerhaltung verwendet werden. Für die Modellrepräsentation verwenden wir ein bestehendes Metamodell für Variabilität. Zur Ableitung der Änderungssequenzen wird ein existierendes Konsistenzerhaltungsframework eingesetzt. Wir validieren die Korrektheit der Transformation mithilfe von Round-Trip-Tests. Dabei zeigen wir, dass die in dieser Arbeit implementierte Transformation alle geteilten Informationen zwischen FeatureIDE und dem Variabilitäts-Metamodell korrekt transformiert. Zudem können mithilfe der in dieser Arbeit implementierten Transformation und mit dem verwendeten Konsistenzerhatlungsframework zu 94,44% korrekte feingranulare Änderungssequenzen aus den als XML-Datei persistierten Zuständen der FeatureIDE-Modelle abgeleitet werden.

Freitag, 11. Februar 2022, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Li Mingyi
Titel Generalized Monte Carlo Dependency Estimation with improved Convergence
Vortragstyp Bachelorarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung Quantifying dependencies among variables is a fundamental task in data analysis. It allows to understand data and to identify the variables required to answer specific questions. Recent studies have positioned Monte Carlo Dependency Estimation (MCDE) as a state-of-the-art tool in this field.

MCDE quantifies dependencies as the average discrepancy between marginal and conditional distributions. In practice, this value is approximated with a dependency estimator. However, the original implementation of this estimator converges rather slowly, which leads to suboptimal results in terms of statistical power. Moreover, MCDE is only able to quantify dependencies among univariate random variables, but not multivariate ones. In this thesis, we make 2 major improvements to MCDE. First, we propose 4 new dependency estimators with faster convergence. We show that MCDE equipped with these new estimators achieves higher statistical power. Second, we generalize MCDE to GMCDE (Generalized Monte Carlo Dependency Estimation) to quantify dependencies among multivariate random variables. We show that GMCDE inherits all the desirable properties of MCDE and demonstrate its superiority against the state-of-the-art dependency measures with experiments.

Freitag, 11. Februar 2022, 12:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Kevin Haag
Titel Automated Classification of Software Engineering Papers along Content Facets
Vortragstyp Bachelorarbeit
Betreuer(in) Angelika Kaplan
Vortragsmodus online
Kurzfassung With existing search strategies, specific paper contents can only be searched indirectly. Keywords are used to describe the searched content as accurately as possible but many of the results are not related to what was searched for. A classification of these contents, if automated, could extend the search process and thereby allow to specify the searched content directly and enhance current state of scholarly communication.

In this thesis, we investigated the automatic classification of scientific papers in the Software Engineering domain. In doing so, a classification scheme of paper contents with regard to Research Object, Statement, and Evidence was consolidated. We then investigate in a comparative analysis the machine learning algorithms Naïve Bayes, Support Vector Machine, Multi-Layer Perceptron, Logistic Regression, Decision Tree, and BERT applied to the classification task.

Freitag, 25. Februar 2022, 11:30 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Maximilian Georg
Titel Review of data efficient dependency estimation
Vortragstyp Proposal
Betreuer(in) Bela Böhnke
Vortragsmodus online
Kurzfassung The amount and complexity of data collected in the industry is increasing, and data analysis rises in importance. Dependency estimation is a significant part of knowledge discovery and allows strategic decisions based on this information.

There are multiple examples that highlight the importance of dependency estimation, like knowing there exists a correlation between the regular dose of a drug and the health of a patient helps to understand the impact of a newly manufactured drug. Knowing how the case material, brand, and condition of a watch influences the price on an online marketplace can help to buy watches at a good price. Material sciences can also use dependency estimation to predict many properties of a material before it is synthesized in the lab, so fewer experiments are necessary.

Many dependency estimation algorithms require a large amount of data for a good estimation. But data can be expensive, as an example experiments in material sciences, consume material and take time and energy. As we have the challenge of expensive data collection, algorithms need to be data efficient. But there is a trade-off between the amount of data and the quality of the estimation. With a lack of data comes an uncertainty of the estimation. However, the algorithms do not always quantify this uncertainty. As a result, we do not know if we can rely on the estimation or if we need more data for an accurate estimation.

In this bachelor's thesis we compare different state-of-the-art dependency estimation algorithms using a list of criteria addressing these challenges and more. We partly developed the criteria our self as well as took them from relevant publications. The existing publications formulated many of the criteria only qualitative, part of this thesis is to make these criteria measurable quantitative, where possible, and come up with a systematic approach of comparison for the rest.

From 14 selected criteria, we focus on criteria concerning data efficiency and uncertainty estimation, because they are essential for lowering the cost of dependency estimation, but we will also check other criteria relevant for the application of algorithms. As a result, we will rank the algorithms in the different aspects given by the criteria, and thereby identify potential for improvement of the current algorithms.

We do this in two steps, first we check general criteria in a qualitative analysis. For this we check if the algorithm is capable of guided sampling, if it is an anytime algorithm and if it uses incremental computation to enable early stopping, which all leads to more data efficiency.

We also conduct a quantitative analysis on well-established and representative datasets for the dependency estimation algorithms, that performed well in the qualitative analysis. In these experiments we evaluate more criteria: The robustness, which is necessary for error-prone data, the efficiency which saves time in the computation, the convergence which guarantees we get an accurate estimation with enough data, and consistency which ensures we can rely on an estimation.

Freitag, 18. März 2022, 12:00 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Niko Benkler
Titel Architecture-based Uncertainty Impact Analysis for Confidentiality
Vortragstyp Masterarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus online
Kurzfassung In times of highly interconnected systems, confidentiality becomes a crucial security quality attribute. As fixing confidentiality breaches becomes costly the later they are found, software architects should address confidentiality early in the design time. During the architectural design process, software architects take Architectural Design Decisions (ADDs) to handle the degrees of freedom, i.e. uncertainty. However, ADDs are often subjected to assumptions and unknown or imprecise information. Assumptions may turn out to be wrong so they have to be revised which re-introduces uncertainty. Thus, the presence of uncertainty at design time prevents from drawing precise conclusions about the confidentiality of the system. It is, therefore, necessary to assess the impact of uncertainties at the architectural level before making a statement about confidentiality. To address this, we make the following contributions: First, we propose a novel uncertainty categorization approach to assess the impact of uncertainties in software architectures. Based on that, we provide an uncertainty template that enables software architects to structurally derive types of uncertainties and their impact on architectural element types for a domain of interest. Second, we provide an Uncertainty Impact Analysis (UIA) that enables software architects to specify which architectural elements are directly affected by uncertainties. Based on structural propagation rules, the tool automatically derives further architectural elements which are potentially affected. Using the large-scale open-source contract tracing application called Corona Warn App (CWA) as a case study, we show that the UIA achieves 100% recall while maintaining 44%-91% precision when analyzing the impact of uncertainties on architectural elements.

Freitag, 1. April 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Felix Griesau
Titel Data-Preparation for Machine-Learning Based Static Code Analysis
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus online
Kurzfassung Static Code Analysis (SCA) has become an integral part of modern software development, especially since the rise of automation in the form of CI/CD. It is an ongoing question of how machine learning can best help improve SCA's state and thus facilitate maintainable, correct, and secure software. However, machine learning needs a solid foundation to learn on. This thesis proposes an approach to build that foundation by mining data on software issues from real-world code. We show how we used that concept to analyze over 4000 software packages and generate over two million issue samples. Additionally, we propose a method for refining this data and apply it to an existing machine learning SCA approach.
Vortragende(r) Patrick Spiesberger
Titel Verfeinerung des Angreifermodells und Fähigkeiten in einer Angriffspfadgenerierung
Vortragstyp Bachelorarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus online
Kurzfassung Eine Möglichkeit zur Wahrung der Vertraulichkeit in der Software-Entwicklung ist die frühzeitige Erkennung von potentiellen Schwachstellen und einer darauf folgenden Eindämmung von möglichen Angriffspfaden. Durch Analysen anhand von Software-Architektur Modellen können frühzeitig Angriffspunkte gefunden und bereits vor der Implementierung behoben werden. Dadurch verbessert sich nicht nur die Wahrung von Vertraulichkeit, sondern erhöht auch die Qualität der Software und verhindert kostenintensive Nachbesserungen in späteren Phasen. Im Rahmen dieser Arbeit wird eine Erweiterung hinsichtlich der Vertraulichkeit des Palladio-Komponenten-Modells (PCM) Angreifermodell verfeinert, welches den Umgang mit zusammengesetzten Komponenten ermöglicht, Randfälle der attributbasierten Zugriffskontrolle (ABAC) betrachtet und die Modellierung und Analyse weiterer Aspekte der Mitigation erlaubt. Die Evaluation erfolgte mithilfe einer dafür angepassten Fallstudie, welche eine mobile Anwendung zum Buchen von Flügen modelliert. Das Ergebnis der Evaluation ergab ein zufriedenstellendes F1-Maß.

Freitag, 22. April 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Hatem Nouri
Titel On the Utility of Privacy Measures for Battery-Based Load Hiding
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus in Präsenz
Kurzfassung Hybrid presentation : https://kit-lecture.zoom.us/j/67744231815

Battery based load hiding gained a lot of popularity in recent years as an attempt to guarantee a certain degree of privacy for users in smart grids. Our work evaluates a set of the most common privacy measures for BBLH. For this purpose we define logical natural requirements and score how well each privacy measure complies to each requirement. We achieve this by scoring the response for load profile altering (e.g. noise addition) using measures of displacement. We also investigate the stability of privacy measures toward load profile length and number of bins using specific synthetic data experiments. Results show that certain private measures fail badly to one or many requirements and therefore should be avoided.

Vortragende(r) Niels Modry
Titel Theory-guided Load Disaggregation in an Industrial Environment
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus in Präsenz
Kurzfassung The goal of Load Disaggregation (or Non-intrusive Load Monitoring) is to infer the energy consumption of individual appliances from their aggregated consumption. This facilitates energy savings and efficient energy management, especially in the industrial sector.

However, previous research showed that Load Disaggregation underperforms in the industrial setting compared to the household setting. Also, the domain knowledge available about industrial processes remains unused.

The objective of this thesis was to improve load disaggregation algorithms by incorporating domain knowledge in an industrial setting. First, we identified and formalized several domain knowledge types that exist in the industry. Then, we proposed various ways to incorporate them into the Load Disaggregation algorithms, including Theory-Guided Ensembling, Theory-Guided Postprocessing, and Theory-Guided Architecture. Finally, we implemented and evaluated the proposed methods.

Freitag, 29. April 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Sebastian Weber
Titel Co-Simulation von Hardware und Software im Palladio Komponentenmodell
Vortragstyp Masterarbeit
Betreuer(in) Jörg Henß
Vortragsmodus online
Kurzfassung Das Palladio Komponentenmodell (PCM) ermöglicht die Modellierung und Simulation der Qualitätseigenschaften eines Systems aus komponentenbasierter Software und für die Ausführung gewählter Hardware. Stehen dabei bereits Teile des Systems zur Verfügung können diese in die Co-Simulation von Workload, Software und Hardware integriert werden, um weitere Anwendungsgebiete für das PCM zu ermöglichen oder die Anwendung in bestehenden zu verbessern.

Die Beiträge dieser Arbeit sind das Erarbeiten von sechs verschiedenen Ansätzen zur Anpassung des PCM für unterschiedliche Anwendungsgebiete und deren Einstufung anhand von Bewertungskriterien. Für den dabei vielversprechendsten Ansatz wurde ein detailliertes Konzept entwickelt und prototypisch umgesetzt. Dieser Ansatz, ein Modell im PCM mittels einer feingranularen Hardwaresimulation zu parametrisieren, wird in Form des Prototyps bezüglich seiner Umsetzbarkeit, Erweiterbarkeit und Vollständigkeit evaluiert. Die Evaluation der prototypischen Umsetzung erfolgt unter anderem anhand der Kriterien Benutzbarkeit, Genauigkeit und Performance, die in Relation zum PCM betrachtet werden. Der Prototyp ermöglicht die Ausführung einer Hardwaresimulation mit im PCM spezifizierten Parametern, die Extraktion dabei gemessener Leistungsmerkmale und deren direkte Verwendung in einer Simulation des PCM.

Vortragende(r) Jonas Koch
Titel Verbesserung von Worteinbettungs-basierter Rückverfolgbarkeitsanalyse durch Konzeptwissen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus in Präsenz
Kurzfassung Anforderungsrückverfolgbarkeit, also das Auffinden von Umsetzungen oder Beschreibungen von Anforderungen in anderen Software-Artefakten, spielt eine wichtige Rolle bei der Pflege und Weiterentwicklung großer Softwaresysteme. So können automatisierte Anforderungsrückverfolgungsverfahren beispielsweise dabei helfen Implementierungen von Anforderungen zu finden. Bei diesen Verfahren können allerdings Probleme auftreten, wenn Anforderung und Quelltextstelle viele unterschiedliche Worte enthalten. In dieser Arbeit wird untersucht, ob die Performanz des automatisierten Anforderungsrückverfolgungsverfahrens FTLR durch Einbindung von hinter den Begriffen der Anforderungen stehenden Konzepten und Themen zu Anforderungen verbessert werden kann. Hierfür wurden mehrere Verfahren zur Konzeptanreicherung sowie verschiedene Einbindungen der gefundenen Konzepte in FTLR entworfen und analysiert. Hierzu wurden Konzepte durch den Einsatz von Informationen aus Wissensgraphen und Verfahren zur Themenmodellierung/Themenbeschriftung angereicht. Durch die Einbindung der gefundenen Konzepte verbesserte sich der MAP-Wert um bis zu 4 % und der F1-Wert um bis zu 3,8 %.

Freitag, 29. April 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Anton Winter
Titel Reducing Measurements of Voltage Sensitivity via Uncertainty-Aware Predictions
Vortragstyp Bachelorarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung Due to the energy transition towards weather-dependent electricity sources like wind and solar energy, as well as new notable loads like electric vehicle charging, the voltage quality of the electrical grid suffers. So-called Smart Transformers (ST) can use Voltage Sensitivity (VS) information to control voltage, frequency, and phase in order to enhance the voltage quality. Acquiring this VS information is currently costly, since you have to synthetically create an output variability in the grid, disturbing the grid even further. In this thesis, I propose a method based on Kalman Filters and Neural Networks to predict the VS, while giving a confidence interval of my prediction at any given time. The data for my prediction derives from a grid simulation provided by Dr. De Carne from the research center Energy Lab 2.0.
Vortragende(r) Thomas Frank
Titel Tabular Data Augmentation for Mixed Data
Vortragstyp Proposal
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung Augmentation techniques can be helpful, for instance, to improve the performance of a weak predictor or to satisfy privacy constraints. Our plan is to devise and compare augmentation pipelines on mixed data.
Vortragende(r) Elizaveta Danilova
Titel Wichtigkeit von Merkmalen für die Klassifikation von SAT-Instanzen (Proposal)
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus in Präsenz
Kurzfassung SAT gehört zu den wichtigsten NP-schweren Problemen der theoretischen Informatik, weshalb die Forschung vor allem daran interessiert ist, besonders effiziente Lösungsverfahren dafür zu finden. Deswegen wird eine Klassifizierung vorgenommen, indem ähnliche Probleminstanzen zu Instanzfamilien gruppiert werden, die man mithilfe von Verfahren des maschinellen Lernens automatisieren will. Die Bachelorarbeit beschäftigt sich unter anderem mit folgenden Themen: Mit welchen (wichtigsten) Eigenschaften kann eine Instanz einer bestimmten Familie zugeordnet werden? Wie erstellt man einen guten Klassifikator für dieses Problem? Welche Gemeinsamkeiten haben Instanzen, die oft fehlklassifiziert werden? Wie sieht eine sinnvolle Familieneinteilung aus?

Freitag, 6. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Patrick Deubel
Titel Investigating Variational Autoencoders and Mixture Density Recurrent Neural Networks for Code Coverage Maximization
Vortragstyp Masterarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus online
Kurzfassung Graphical User Interfaces (GUIs) are a common interface to control software. Testing the graphical elements of GUIs is time-consuming for a human tester because it requires interacting with each element, in each possible state that the GUI can be in. Instead, automated approaches are desired, but they often require many interactions with the software to improve their method. For computationally-intensive tasks, this can become infeasible. In this thesis, I investigate the usage of a reinforcement learning (RL) framework for the task of automatically maximizing the code coverage of desktop GUI software using mouse clicks. The framework leverages two neural networks to construct a simulation of the software. An additional third neural network controls the software and is trained on the simulation. This avoids the possibly costly interactions with the actual software. Further, to evaluate the approach, I developed a desktop GUI software on which the trained networks try to maximize the code coverage. The results show that the approach achieves a higher coverage compared to a random tester when considering a limited amount of interactions. However, for longer interaction sequences, it stagnates, while the random tester increases the coverage further, and surpasses the investigated approach. Still, in comparison, both do not reach a high coverage percentage. Only random testers, that use a list of clickable widgets for the interaction selection, achieved values of over 90% in my evaluation.
Vortragende(r) Daniel Jungkind
Titel Wissensanreicherung von Begriffen im Quelltext
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus in Präsenz
Kurzfassung Anforderungsrückverfolgung spielt im Bereich der Softwarewartung eine große Rolle. Worteinbettungsbasierte Verfahren zur Anforderungsrückverfolgung nutzen Wörter, die in Anforderungen und Quelltext vorkommen, um Rückverfolgbarkeitsverbindungen herzustellen. Semantisch äquivalente aber sprachlich unterschiedliche Formulierungen können dies erschweren. Wissen über derartige semantische Zusammenhänge zwischen verschiedenen Begriffen kann helfen, die Rückverfolgbarkeit zu verbessern. Diese Arbeit hat zum Ziel, in Quelltext vorkommende natürlichsprachliche Begriffe mit Wissen in Form von semantisch verwandten Begriffen anzureichern, um worteinbettungsbasierte Anforderungsrückverfolgung zu verbessern. Hierzu werden zunächst DBpedia-Artikel bestimmt, welche den Bedeutungen der Begriffe im Quelltext entsprechen. Daraufhin werden die Verbindungen dieser DBpedia-Artikel zu weiteren Artikeln dazu genutzt, um Begriffe zu identifizieren, die das gemeinsame Thema der Eingabe beschreiben. Hierzu werden Kategorien- und Oberbegriffsbeziehungen genutzt, um einen DBpedia-Subgraphen aufzubauen und in diesem Zusammenhangskomponenten zu identifizieren. Zentrale Knoten in diesen Zusammenhangskomponenten liefern dabei Kandidaten für die Themenbeschriftung.

Durch das Hinzufügen dieser Themenbeschriftungen konnten auf den Datensätzen eTour und eAnci Verbesserungen der F1-Werte von bis zu +9.4 % für das Bestimmen von Rückverfolgbarkeitsverbindungen erzielt werden. Dabei lagen die Verbesserungen der Präzisionswerte zwischen +1.5 % und +11.5 %.

Donnerstag, 12. Mai 2022, 13:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Thomas Weber
Titel Entwurf und Umsetzung von Zugriffskontrolle in der Sichtenbasierten Entwicklung
Vortragstyp Masterarbeit
Betreuer(in) Heiko Klare
Vortragsmodus in Präsenz
Kurzfassung Um der steigenden Komplexität technischer Systeme zu begegnen, werden in ihrer Entwicklung sichtenbasierte Entwicklungsprozesse eingesetzt. Die dabei definierten Sichten zeigen nur die für ein bestimmtes Informationsbedürfnis relevanten Daten über das System, wie die Architektur, die Implementierung oder einen Ausschnitt davon und reduzieren so die Menge an Informationen und vereinfachen dadurch die Arbeit mit dem System. Neben dem Zweck der Informationsreduktion kann auch eine Einschränkung des Zugriffs aufgrund fehlender Zugriffsberechtigungen notwendig sein. Die Notwendigkeit ergibt sich beispielsweise bei der organisationsübergreifenden Zusammenarbeit zur Umsetzung vertraglicher Vereinbarungen. Um die Einschränkung des Zugriffs umsetzen zu können, wird eine Zugriffskontrolle benötigt. Bestehende Arbeiten nutzen eine Zugriffskontrolle für die Erzeugung einer Sicht. Die Definition weiterer Sichten darauf ist nicht vorgesehen. Außerdem fehlt eine allgemeine Betrachtung einer Integration einer Zugriffskontrolle in einen sichtenbasierten Entwicklungsprozess. Daher stellen wir in dieser Arbeit das Konzept einer Integration einer rollenbasierten Zugriffskontrolle in einen sichtenbasierten Entwicklungsprozess für beliebige Systeme vor. Mit dem Konzept ermöglichen wir die feingranulare Definition und Auswertung von Zugriffsrechten für einzelne Modellelemente für beliebige Metamodelle. Das Konzept implementieren wir prototypisch in Vitruv, einem Framework für sichtenbasierte Entwicklung. Wir evaluieren diesen Prototypen hinsichtlich seiner Funktionalität mithilfe von Fallstudien. Die Zugriffskontrolle konnten wir dabei für verschiedene Fallstudien erfolgreich einsetzen. Außerdem diskutieren wir die Integrierbarkeit des Prototypen in einen allgemeinen sichtenbasierten Entwicklungsprozess.

Freitag, 13. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nathan Hagel
Titel Modellierung und Simulation von dynamischen Container-basierten Software-Architekturen in Palladio
Vortragstyp Bachelorarbeit
Betreuer(in) Jörg Henß
Vortragsmodus online
Kurzfassung Mit dem Palladio Komponentenmodell (PCM) lassen sich Softwaresysteme modellieren und simulieren. Moderne verteilte Software-Systeme werden jedoch nicht mehr einfach statisch deployed, sondern es wird ein gewünschter Zustand definiert, der mithilfe einer Kontrollschleife dann eingehalten werden soll. Das passiert dann bspw. durch das Starten oder Stoppen von Containern und Pods.

In dieser Arbeit wurde eine Erweiterung des PCM um die Konzepte von Containerorchestrierungswerkzeugen wie Kubernetes erarbeitet und umgesetzt. Zusätzlich wurde ein Konzept erarbeitet um dynamische Containerbasierte Systeme zu simulieren. Es wurde dabei insbesondere die Allokation bzw. Reallokation von Pods zur Simulationszeit betrachtet. Abschließend wurde die Modellerweiterung evaluiert.

Freitag, 13. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Manuel Müllerschön
Titel Developing a Framework for Mining Temporal Data from Twitter as Basis for Time-Series Correlation Analysis
Vortragstyp Proposal
Betreuer(in) Fabian Richter
Vortragsmodus in Präsenz
Kurzfassung In the last decade, ample research has been produced regarding the value of user-generated data from microblogs as a basis for time series analysis in various fields.In this context, the objective of this thesis is to develop a domain-agnostic framework for mining microblog data (i.e., Twitter). Taking the subject related postings of a time series (e.g., inflation) as its input, the framework will generate temporal data sets that can serve as basis for time series analysis of the given target time series (e.g., inflation rate).

To accomplish this, we will analyze and summarize the prevalent research related to microblog data-based forecasting and analysis, with a focus on the data processing and mining approach. Based on the findings, one or several candidate frameworks are developed and evaluated by testing the correlation of their generated data sets against the target time series they are generated for.

While summative research on microblog data-based correlation analysis exists, it is mainly focused on summarizing the state of the field. This thesis adds to the body of research by applying summarized findings and generating experimental evidence regarding the generalizability of microblog data mining approaches and their effectiveness.

Vortragende(r) Moritz Teichner
Titel Standardized Real-World Change Detection Data
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung The reliable detection of change points is a fundamental task when analysing data across many fields, e.g., in finance, bioinformatics, and medicine.

To define “change points”, we assume that there is a distribution, which may change over time, generating the data we observe. A change point then is a change in this underlying distribution, i.e., the distribution coming before a change point is different from the distribution coming after. The principled way to compare distributions, and to find change points, is to employ statistical tests.

While change point detection is an unsupervised problem in practice, i.e., the data is unlabelled, the development and evaluation of data analysis algorithms requires labelled data. Only few labelled real world data sets are publicly available and many of them are either too small or have ambiguous labels. Further issues are that reusing data sets may lead to overfitting, and preprocessing (e.g., removing outliers) may manipulate results. To address these issues, van den Burg et al. publish 37 data sets annotated by data scientists and ML researchers and use them for an assessment of 14 change detection algorithms. Yet, there remain concerns due to the fact that these are labelled by hand: Can humans correctly identify changes according to the definition, and can they be consistent in doing so?

The goal of this Bachelor's thesis is to algorithmically label their data sets following the formal definition and to also identify and label larger and higher-dimensional data sets, thereby extending their work. To this end, we leverage a non-parametric hypothesis test which builds on Maximum Mean Discrepancy (MMD) as a test statistic, i.e., we identify changes in a principled way. We will analyse the labels so obtained and compare them to the human annotations, measuring their consistency with the F1 score. To assess the influence of the algorithmic and definition-conform annotations, we will use them to reevaluate the algorithms of van den Burg et al. and compare the respective performances.

Freitag, 20. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jonathan Schenkenberger
Titel Architectural Generation of Context-based Attack Paths
Vortragstyp Masterarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus online
Kurzfassung In industrial processes (Industry 4.0) and other fields in our lives like the energy or health sector, the confidentiality of data becomes increasingly important. For the protection of confidential information on critical systems, it is crucial to be able to find relevant attack paths in different access-control contexts to a critical element. In order to minimize costs, it is important to already consider this issue in the design phase of the software architecture. There are already approaches considering the topic of attack path generation. However, they do not consider software architecture modeling or they do not consider both vulnerabilities and access control mechanisms. Hence, this thesis presents an approach for finding all potential attack paths in a software architecture model considering access control and vulnerabilities. However, all attack paths are often to many, so the approach presented here introduces and utilizes meaningful filter criteria based on wide-spread vulnerability classification standards.
Vortragende(r) Limanan Nursalim
Titel Automated Test Selection for CI Feedback on Model Transformation Evolution
Vortragstyp Masterarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus online
Kurzfassung The development of the transformation model also comes with the appropriate system-level testing to verify its changes. Due to the complex nature of the transformation model, the number of tests increases as the structure and feature description become more detailed. However, executing all test cases for every change is costly and time-consuming. Thus, it is necessary to conduct a selection for the transformation tests. In this presentation, you will be introduced to a change-based test prioritization and transformation test selection approach for early fault detection.

Freitag, 3. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 3. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Haßberg
Titel Development of an Active Learning Approach for One Class Classifi cation using Bayesian Uncertainty
Vortragstyp Masterarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung In One-Class classification, the classifier decides if points belong to a specific class. In this thesis, we propose an One-Class classification approach, suitable for active learning, that models for each point, a prediction range in which the model assumes the points state to be. The proposed classifier uses a Gaussian process. We use the Gaussian processes prediction range to derive a certainty measure, that considers the available labeled points for stating its certainty. We compared this approach against baseline classifiers and show the correlation between the classifier's uncertainty and misclassification ratio.

Freitag, 24. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Kevin Werber
Titel Assessing Word Similarity Metrics For Traceability Link Recovery
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus online
Kurzfassung The software development process usually involves different artifacts that each describe different parts of the whole software system. Traceability Link Recovery is a technique that aids the development process by establishing relationships between related parts from different artifacts. Artifacts that are expressed in natural language are more difficult for machines to understand and therefore pose a challenge to this link recovery process. A common approach to link elements from different artifacts is to identify similar words using word similarity measures. ArDoCo is a tool that uses word similarity measures to recover trace links between natural language software architecture documentation and formal architectural models. This thesis assesses the effect of different word similarity measures on ArDoCo. The measures are evaluated using multiple case studies. Precision, recall, and encountered challenges for the different measures are reported as part of the evaluation.

Freitag, 24. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Hombücher
Titel Generalized Monte Carlo Dependency Estimation and Anytime Supervised Filter Feature Selection
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung Dependency estimation is an important problem in statistics and is applied frequently in data science. As modern datasets can be very large, dependency estimators should be efficient and leverage as much information from data as possible. Traditional bivariate and multivariate dependency estimators are only capable to estimate dependency between two or n one-dimensional datasets, respectively. In this thesis, we are interested in how to develop estimators that can estimate the dependency between n multidimensional datasets, which we call "generalized dependency estimators".

We extend the recently introduced methodology of Monte Carlo Dependency Estimation (MCDE), an effective and efficient traditional multivariate dependency estimator. We introduce Generalized Monte Carlo Dependency Estimation (gMCDE) and focus in particular on the highly relevant subproblem of generalized dependency estimation, known as canonical dependency estimation, which aims to estimate the dependency between two multidimensional datasets. We demonstrate the practical relevance of Canonical Monte Carlo Dependency Estimation (cMCDE) by applying it to feature selection, introducing two methodologies for anytime supervised filter feature selection, Canonical Monte Carlo Feature Selection (cMCFS) and Canonical Multi Armed Bandit Feature Selection (cMABFS). cMCFS directly applies the methodology of cMCDE to feature selection, while cMABFS treats the feature selection problem as a multi armed bandit problem, which utilizes cMCDE to determine relevant features.

Vortragende(r) Jonas Zoll
Titel Injection Molding Simulation based on Graph Neural Networks (GNNs)
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Ebi
Vortragsmodus in Präsenz
Kurzfassung Numerical filling simulations are an important tool for the development of injection molding parts. Existing simulations rely on numerical solvers based on the finite element method. These solvers are reliable and precise, but very computationally expensive even on simple part geometries.

In this thesis, we aim to develop a faster injection molding simulation based on Graph Neural Networks (GNNs) as a surrogate model. Our approach learns a simulation as a composition of three functions: an encoder, a processor and a decoder. The encoder takes in a graph representation of a 3D geometry of an injection molding part and returns a numeric embedding of each node in the graph. The processor updates the embeddings of each node multiple times based on its neighbors. The decoder then decodes the final embeddings of each node into physically meaningful variables, say, the fill state of the node. Our model can predict the progression of the flow front during a time step with a fixed size. To simulate a full mold filling process, our model is applied sequentially until the entire mold is filled. Our architecture is applicable to any kind of material, geometry and injection process parameters. We evaluate our architecture by its accuracy and runtime when predicting node properties. We also evaluate our models transfer learning ability on a real world injection molding part.

Vortragende(r) Mingzhe Tao
Titel Meta-learning for Encoder Selection
Vortragstyp Proposal
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung In the real world, mixed-type data is commonly used, which means it contains both categorical and numerical data. However, most algorithms can only learn from numerical data. This makes the selection of encoder becoming very important. In this presentation, I will present an approach by using ideas from meta-learning to predict the performance from the meta-features and encoders.

Freitag, 1. Juli 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Anne-Kathrin Hermann
Titel Bewertung der Qualität von Low-Code-Programmen für Datenfluss-Beschreibungen
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Kühn
Vortragsmodus in Präsenz
Kurzfassung Das Messen der Qualität von Datenfluss-Low-Code-Programmen und auch das Erstellen qualitativ hochwertiger Programme ist schwer. Es entstehen viele Programme mit Anzeichen für schlechte Qualität, die zwar Ergebnisse liefern, aber schlecht wartbar und unverständlich sind. Im Laufe dieser Arbeit wurde die Übertragbarkeit, von klassischen Codemetriken und Graphmetriken überprüft und durchgeführt, um zu evaluieren, welche Metriken sich für die Messung der Qualität von Low-Code-Programmen eignen?
Vortragende(r) Quang Dao
Titel Coreference Resolution for Software Architecture Documentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung In software engineering, software architecture documentation plays an important role. It contains many essential information regarding reasoning and design decisions. Therefore, many activities are proposed to deal with documentation for various reasons, e.g., extract- ing information or keeping different forms of documentation consistent. These activities often involve automatic processing of documentation, for example traceability link recovery (TLR). However, there can be problems for automatic processing when coreferences are present in documentation. A coreference occurs when two or more mentions refer to the same entity. These mentions can be different and create ambiguities, for example when there are pronouns. To overcome this problem, this thesis proposes two contributions to resolve coreferences in software architecture documentation.

The first contribution is to explore the performance of existing coreference resolution models for software architecture documentation. The second is to divide coreference resolution into many more specific type of resolutions, like pronoun resolution, abbreviation resolution, etc.

Freitag, 15. Juli 2022, 13:06 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 22. Juli 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Philipp Uhrich
Titel Empirical Identification of Performance Influences of Configuration Options in High-Performance Applications
Vortragstyp Masterarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus online
Kurzfassung Many modern high-performance applications are highly-configurable software systems that provide hundreds or even thousands of configuration options. System administrators or application users need to understand all these options and their impacts on the software performance to choose suitable configuration values. To understand the influence of configuration options on the run-time characteristics of a software system, users can use performance prediction models, but building performance prediction models for highly-configurable high-performance applications is expensive. However, not all configuration options, which a software system offers, are performance-relevant. Removing these performance-irrelevant configuration options from the modeling process can reduce the construction cost. In this thesis, we explore and analyze two different approaches to empirically identify configuration options that are not performance-relevant and can be removed from the performance prediction model. The first approach reuses existing performance modeling methods to create much cheaper prediction models by using fewer samples and then analyzing the models to identify performance-irrelevant configuration options. The second approach uses white-box knowledge acquired through dynamic taint analysis to systematically construct the minimal number of required experiments to detect performance-irrelevant configuration options. In the evaluation with a case study, we show that the first approach identifies performance-irrelevant configuration options but also produces misclassifications. The second approach did not perform to our expectations. Further improvement is necessary.

Freitag, 12. August 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Maximilian Georg
Titel A Comparative Analysis of Data-Efficient Dependency Estimators
Vortragstyp Bachelorarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus online
Kurzfassung Dependency estimation is a significant part of knowledge

discovery and allows strategic decisions based on this information. Many dependency estimation algorithms require a large amount of data for a good estimation. But data can be expensive, as an example experiments in material sciences, consume material and take time and energy. As we have the challenge of expensive data collection, algorithms need to be data efficient. But there is a trade-off between the amount of data and the quality of the estimation. With a lack of data comes an uncertainty of the estimation. However, the algorithms do not always quantify this uncertainty. As a result, we do not know if we can rely on the estimation or if we need more data for an accurate estimation. In this bachelor’s thesis we compare different state-of-the-art dependency estimation algorithms using a list of criteria addressing the above-mentioned challenges. We partly developed the criteria our self as well as took them from relevant publications. Many of the existing criteria where only formulated qualitative, part of this thesis is to make these criteria measurable quantitative, where possible, and come up with a systematic approach of comparison for the rest. We also conduct a quantitative analysis of the dependency estimation algorithms by experiment on well-established and representative data sets that performed well in the qualitative analysis.

Freitag, 19. August 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Sönke Jendral
Titel Refining Domain Knowledge for Domain Knowledge Guided Machine Learning
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus online
Kurzfassung Advances in computational power have led to increased in interest in machine learning techniques. Sophisticated approaches now solve various prediction problems in the domain of healthcare. Traditionally, machine learning techniques integrate domain knowledge implicitly, by statistically extracting dependencies from their input data. Novel approaches instead integrate domain knowledge from taxonomies as an external component.

However, these approaches assume the existence of high quality domain knowledge and do not acknowledge issues stemming from low quality domain knowledge. It is thus unclear what low quality domain knowledge in the context of Domain Knowledge Guided Machine Learning looks like and what its causes are. Further it is not clearly understood what the impact of low quality domain knowledge on the machine learning task is and what steps can be taken to improve the quality in this context.

In this Thesis we describe low quality domain knowledge and show examples of such knowledge in the context of a sequential prediction task. We further propose methods for identifying low quality domain knowledge in the context of Domain Knowledge Guided Machine Learning and suggest approaches for improving the quality of domain knowledge in this context.

Vortragende(r) Elizaveta Danilova
Titel Wichtigkeit von Merkmalen für die Klassifikation von SAT-Instanzen (Abschlusspräsentation)
Vortragstyp Bachelorarbeit
Betreuer(in) Jakob Bach
Vortragsmodus in Präsenz
Kurzfassung Das SAT-Problem ist ein zentrales Problem der theoretischen Informatik. Wegen seiner NP-Schwere sind Forscher insbesondere an effizienten Lösungsverfahren dafür interessiert. Die Kenntnis der Familie einer Instanz kann zur Problemlösung beitragen. In unserer Arbeit haben wir untersucht, wie SAT-Instanzen durch maschinelles Lernen effizient klassifiziert werden können und welche Verfahren sich am besten dazu eignen. Außerdem betrachteten wir, welche Merkmale die Instanzen am eindeutigsten charakterisieren und wie sich die Anzahl der verwendeten Merkmale auf das Klassifikationsergebnis auswirkt. Letztlich untersuchten wir, welche Familien vermehrt fehlklassifiziert werden und was die Gründe dafür sind.

Freitag, 26. August 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Manuel Müllerschön
Titel Deriving Twitter Based Time Series Data for Correlation Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Fabian Richter
Vortragsmodus in Präsenz
Kurzfassung Twitter has been identified as a relevant data source for modelling purposes in the last decade. In this work, our goal was to model the conversational dynamics of inflation development in Germany through Twitter Data Mining. To accomplish this, we summarized and compared Twitter data mining techniques for time series data from pertinent research. Then, we constructed five models for generating time series from topic-related tweets and user profiles of the last 15 years. Evaluating the models, we observed that several approaches like modelling for user impact or adjusting for automated twitter accounts show promise. Yet, in the scenario of modelling inflation expectation dynamics, these more complex models could not contribute to a higher correlation between German CPI and the resulting time series compared to a baseline approach.

Freitag, 2. September 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Benjamin Jochum
Titel Surrogate models for crystal plasticity - predicting stress, strain and dislocation density over time
Vortragstyp Proposal
Betreuer(in) Daniel Betsche
Vortragsmodus in Präsenz
Kurzfassung When engineers design structures, prior knowledge of how they will react to external forces is crucial. Applied forces introduce stress, leading to dislocations of individual molecules that ultimately may cause material failure, like cracks, if the internal strain of the material exceeds a certain threshold. We can observe this by applying increasing physical forces to a structure and measure the stress, strain and the dislocation density curves.

Finite Elemente Analysis (FEM) enables the simulation of a material deforming under external forces, but it comes with very high computational costs. This makes it unfeasible to conduct a large number of simulations with varying parameters. In this thesis, we use neural network based sequence models to build a data-driven surrogate model that predicts stress, strain and dislocation density curves produced by an FEM-simulation based on the simulation’s input parameters.

Freitag, 9. September 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Moritz Teichner
Titel Standardized Real-World Change Detection Data Defense
Vortragstyp Bachelorarbeit
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung The reliable detection of change points is a fundamental task when analyzing data across many fields, e.g., in finance, bioinformatics, and medicine.

To define “change points”, we assume that there is a distribution, which may change over time, generating the data we observe. A change point then is a change in this underlying distribution, i.e., the distribution coming before a change point is different from the distribution coming after. The principled way to compare distributions, and thus to find change points, is to employ statistical tests.

While change point detection is an unsupervised problem in practice, i.e., the data is unlabeled, the development and evaluation of data analysis algorithms requires labeled data. Only a few labeled real-world data sets are publicly available, and many of them are either too small or have ambiguous labels. Further issues are that reusing data sets may lead to overfitting, and preprocessing may manipulate results. To address these issues, Burg et al. publish 37 data sets annotated by data scientists and ML researchers and assess 14 change detection algorithms on them. Yet, there remain concerns due to the fact that these are labeled by hand: Can humans correctly identify changes according to the definition, and can they be consistent in doing so?

Mittwoch, 21. September 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Martin Wittlinger
Titel Identification and refactoring of bad smells in model-based analyses
Vortragstyp Masterarbeit
Betreuer(in) Sandro Koch
Vortragsmodus in Präsenz
Kurzfassung In der modernen Softwareentwicklung sind modellbasierte Analysen weit verbreitet. Software-Metriken wie die Vorhersage der Cache-Nutzung haben heute ein breites Anwendungsspektrum. Diese Analysen bedürfen ebenso wie traditionelle objektorientierte Programme der Pflege. Bad Smells und ihre Auswirkungen in objektorientiertem Quellcode sind gründlich erforscht worden. Dies fehlt bei der modellbasierten Analyse. Wir haben uns mit objektorientierten Bad Smells beschäftigt und nach ähnlichen Problemen in der modellbasierten Analyse gesucht. Schlechte Gerüche in der Analyse sind ein Faktor, der zur Qualität der Analysesoftware beiträgt. Eine geringere Qualität erschwert den Entwicklungsprozess der Analyse. Wir haben zehn neue Bad Smells entdeckt. Wir haben Algorithmen zur Identifizierung und zum Refaktorisieren für sie entwickelt. Wir stellen Implementierungen der Identifizierungsalgorithmen zur Verfügung und bewerten sie an- hand realer Software. Wir haben versucht, Bad Smells in bestehender Analysesoftware wie Camunda zu erkennen. Wir haben diese Bad Smells in den vorhandenen Analysen gefunden.

Freitag, 23. September 2022, 12:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 14. Oktober 2022, 10:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Thomas Frank
Titel Benchmarking Tabular Data Synthesis Pipelines for Mixed Data
Vortragstyp Bachelorarbeit
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung In machine learning, simpler, interpretable models require significantly more training data than complex, opaque models to achieve reliable results. This is a problem when gathering data is a challenging, expensive or time-consuming task. Data synthesis is a useful approach for mitigating these problems.

An essential aspect of tabular data is its heterogeneous structure, as it often comes in ``mixed data´´, i.e., it contains both categorical and numerical attributes. Most machine learning methods require the data to be purely numerical. The usual way to deal with this is a categorical encoding.

In this thesis, we evaluate a proposed tabular data synthesis pipeline consisting of a categorical encoding, followed by data synthesis and an optional relabeling of the synthetic data by a complex model. This synthetic data is then used to train a simple model. The performance of the simple model is used to quantify the quality of the generated data. We surveyed the current state of research in categorical encoding and tabular data synthesis and performed an extensive benchmark on a motivated selection of encoders and generators.

Freitag, 14. Oktober 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Pascal Krieg
Titel Preventing Code Insertion Attacks on Token-Based Software Plagiarism Detectors
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Some students tasked with mandatory programming assignments lack the time or dedication to solve the assignment themselves. Instead, they plagiarize a peer’s solution by slightly modifying the code. However, there exist numerous tools that assist in detecting these kinds of plagiarism. These tools can be used by instructors to identify plagiarized programs. The most used type of plagiarism detection tools is token-based plagiarism detectors. They are resilient against many types of obfuscation attacks, such as renaming variables or whitespace modifications. However, they are susceptible to inserting lines of code that do not affect the program flow or result.

The current working assumption was that the successful obfuscation of plagiarism takes more effort and skill than solving the assignment itself. This assumption was broken by automated plagiarism generators, which exploit this weakness. This work aims to develop mechanisms against code insertions that can be directly integrated into existing token-based plagiarism detectors. For this, we first develop mechanisms to negate the negative effect of many types of code insertion. Then we implement these mechanisms prototypically into a state-of-the-art plagiarism detector. We evaluate our implementation by running it on a dataset consisting of real student submissions and automatically generated plagiarism. We show that with our mechanisms, the similarity rating of automatically generated plagiarism increases drastically. Consequently, the plagiarism generator we use fails to create usable plagiarisms.

Freitag, 21. Oktober 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Philipp Klaus
Titel Entity Linking für Softwarearchitekturdokumentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Softwarearchitekturdokumentationen enthalten Fachbegriffe aus der Domäne der Softwareentwicklung. Wenn man diese Begriffe findet und zu den passenden Begriffen in einer Datenbank verknüpft, können Menschen und Textverarbeitungssysteme diese Informationen verwenden, um die Dokumentation besser zu verstehen. Die Fachbegriffe in Dokumentationen entsprechen dabei Entitätserwähnungen im Text.

In dieser Ausarbeitung stellen wir unser domänenspezifisches Entity-Linking-System vor. Das System verknüpft Entitätserwähnungen innerhalb von Softwarearchitekturdokumentationen zu den zugehörigen Entitäten innerhalb einer Wissensbasis. Das System enthält eine domänenspezifische Wissensbasis, ein Modul zur Vorverarbeitung und ein Entity-Linking-System.

Vortragende(r) Raoul Teichmann
Titel Entwicklung einer Entwurfszeit-DSL zur Formalisierung von Runtime Adaptationsstrategien für SAS zum Zweck der Strategie-Optimierung
Vortragstyp Bachelorarbeit
Betreuer(in) Martina Rapp-Sieger
Vortragsmodus online
Kurzfassung Softwaresysteme der heutigen Zeit werden zunehmend komplexer und unterliegen immer

mehr variierenden Bedingungen. Dadurch gewinnen selbst-adaptive Systeme an Bedeutung, da diese sich neuen Bedingungen dynamisch anpassen können, indem sie Veränderungen an sich selbst vornehmen. Domänenspezifische Modellierungssprachen (DSL) zur Formalisierung von Adaptionsstrategien stellen ein wichtiges Mittel dar, um den Entwurf von Rückkopplungsschleifen selbst-adaptiver Softwaresysteme zu modellieren und zu optimieren. Hiermit soll eine Bachelorarbeit vorgeschlagen werden, die sich mit der Fragestellung befasst, wie eine Optimierung von Adaptionsstrategien in einer DSL zur Entwurfszeit beschrieben werden kann.

Donnerstag, 10. November 2022, 10:00 Uhr

iCal (Download)
Ort: Raum 333 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Denis Priss
Titel A Mobility Case Study Framework for Validating Uncertainty Impact Analyses regarding Confidentiality
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus in Präsenz
Kurzfassung Vertraulichkeit ist eine wichtige Sicherheitsanforderung an Informationssysteme. Bereits im frühen Entwurf existieren Ungewissheiten, sowohl über das System als auch dessen Umgebung, die sich auf die Vertraulichkeit auswirken können. Es existieren Ansätze, die Softwarearchitektinnen und Softwarearchitekten bei der Untersuchung von Ungewissheiten und deren Auswirkung auf die Vertraulichkeit unterstützen und somit den Aufwand reduzieren. Diese Ansätze wurden jedoch noch nicht umfangreich evaluiert. Bei der Evaluierung ist ein einheitliches Vorgehen wichtig, um konsistente Ergebnisse zu erhalten. Obwohl es allgemein Arbeiten in diesem Bereich gibt, sind diese nicht spezifisch genug, um die Anforderung zu erfüllen.

In dieser Ausarbeitung stellen wir ein Rahmenwerk vor, das diese Lücke schließen soll. Dieses Rahmenwerk besteht aus einem Untersuchungsprozess und einem Fallstudienprotokoll, diese sollen Forschenden helfen, weitere Fallstudien zur Validierung der Ungewissheits-Auswirkungs-Analysen strukturiert durchzuführen und damit auch Ungewissheiten und deren Auswirkung auf Vertraulichkeit zu erforschen. Wir evaluieren unseren Ansatz, indem wir eine Mobilitätsfallstudie durchführen.

Vortragende(r) Yakup Evli
Titel A Mobility Case Study for Attack Propagation Analyses
Vortragstyp Bachelorarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus online
Kurzfassung An existing architectural attack propagation analysis considers vulnerability analysis in software architecture. The analysis is using access control policies together with the vulnerabilities and their combinations to propagate through the system. This phenomenon has to be investigated thoroughly in a real-life context to be able to make conclusions about metrics, e.g. accuracy. However, a concrete approach to achieve the investigation of Attack Propagation Analyses in a real-life context is missing. This work aims to close this gap with “A Mobility Case Study for Validating Attack Propagation Analyses”. In order to achieve validity, conventional properties of case studies in software engineering were identified. Afterward, the end result, in form of a software model, was reviewed according to these properties. This review has revealed that all properties were fulfilled, however not in the highest degree of fulfillment. A discussion about this is held in this thesis.
Vortragende(r) Tizian Bitschi
Titel Uncertainty-aware Confidentiality Analysis Using Architectural Variations
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus in Präsenz
Kurzfassung Wenn man Softwaresysteme auf Verletzungen der Vertraulichkeit untersuchen will, führen Ungewissheiten zu falschen Aussagen über die Architektur. Vertraulichkeitsaussagen können zur Entwurfszeit kaum getroffen werden, ohne diese Ungewissheiten zu behandeln. Wir entwickeln einen Kombinationsalgorithmus, der Informationen über die Ungewissheiten bei der Analyse der Architekturszenarien berücksichtigt und daraus eine Aussage über die Vertraulichkeit des Systems treffen kann.

Wir evaluieren, ob es möglich ist, ein System mit zusätzlichen Informationen nicht-binär zu bewerten, wie genau der Kombinationsalgorithmus ist und ob die zusätzlichen Informationen so minimal bleiben, dass ein Softwarearchitekt den Kombinationsalgorithmus überhaupt verwenden kann.

Freitag, 11. November 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Laura Traub
Titel Kopplung statischer Architekturanalysen und musterbasierten Quelltextanalysen in der Domäne der Softwaresicherheit
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Die Vernetzung von Software über das Internet und andere Kanäle stellt eine grundsätzliche Gefahr für die Sicherheit von Daten und Systemen dar. Gelangen Informationen in die falschen Hände können enorme wirtschaftliche und soziale Schäden entstehen. Es ist deshalb wichtig die Sicherheit von Systemen bereits zur Entwurfszeit zu berücksichtigen.

Mittels Analysewerkzeugen auf Architektursicht können Sicherheitseigenschaften auf einer höheren Abstraktionsebene frühzeitig definiert und überprüft werden. Auf Quelltext-sicht bieten statische, musterbasierte Analysewerkzeuge einen Ansatz zur Überprüfung der korrekten Verwendung von kritischen Schnittstellen. Bisher wurde noch keine Kombination dieser beiden Analyseansätze vorgenommen, um die auf Architektursicht getroffenen Annahmen der im Quelltext umgesetzten Sicherheitseigenschaften auf fehlerhafte Umsetzung zu überprüfen. Deshalb wird untersucht, wie sich eine Kopplung der beiden Sichten und eine Rückführung der Ergebnisse einer Quelltextanalyse in die Architektursicht realisieren lässt. Die vorliegende Arbeit definiert zunächst die für eine Kopplung notwendigen Eigenschaften der Analysen. Darauf basierend wird dann ein Ansatz für eine Kopplung konzipiert. Eine konkrete Umsetzung des Ansatzes wurde im Rahmen der vorliegenden Arbeit mit den Rahmenwerken Confidentiality4CBSE auf Architektursicht und CogniCrypt auf Quelltextsicht in Java vorgenommen. Die Evaluation des Ansatzes erfolgt an Hand eines Fallbeispiels. Die Ergebnisse zeigen, dass die Kopplung von Architekturanalysen mit musterbasierten Quelltextsicherheitsanalysen machbar ist und dass durch die Kopplung von Quelltextfehler mit der Architekturanalyse zusätzliche Fehler aufgedeckt werden.

Vortragende(r) Kathrin Leonie Schmidt
Titel Modellierung von Annahmen in Softwarearchitekturen
Vortragstyp Bachelorarbeit
Betreuer(in) Sophie Corallo
Vortragsmodus in Präsenz
Kurzfassung Undokumentierte Sicherheitsannahmen können zur Vernachlässigung von Softwareschwachstellen führen, da Zuständigkeit und Bezugspunkte von Sicherheitsannahmen häufig unklar sind. Daher ist das Ziel dieser Arbeit, Sicherheitsannahmen in den komponentenbasierten Entwurf zu integrieren. In dieser Arbeit wurde basierend auf Experteninterviews und Constructive Grounded Theory ein Modell für diesen Zweck abgeleitet. Anhand einer Machbarkeitsstudie wird der Einsatz des Annahmenmodells demonstriert.
Vortragende(r) Tim Lachenicht
Titel Vergleich verschiedener Sprachmodelle für den Einsatz in automatisierter Rückverfolgbarkeitsanalyse
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus in Präsenz
Kurzfassung Informationen über logische Verbindungen zwischen Anforderungen und ihrer Umsetzung in Quelltext sind nützlich für viele Aufgabenstellungen der Softwareentwicklung. Sie können beispielsweise die Wartung von Software bei Anforderungs-Änderungen erleichtern. Diese Rückverfolgbarkeitsverbindungen können im Zuge einer Rückverfolgbarkeitsanalyse ermittelt werden. Verfahren, wie FTLR, führen eine automatisierte Rückverfolgbarkeitsanalyse durch. FTLR erkennt Rückverfolgbarkeitsverbindungen mithilfe eines Vergleichs von Repräsentationen von Anforderungen und Quelltext. Bislang setzt FTLR das Sprachmodell fastText zur Repräsentation von Anforderungen und Quelltext ein. Der Ansatz fastText besitzt jedoch Schwachstellen. Das Sprachmodell ist nicht in der Lage verschiedene Bedeutungen eines Wortes zu repräsentieren. Außerdem wurde es nicht auf Quelltext vortrainiert. In dieser Arbeit wurde untersucht, ob sich alternative Sprachmodelle ohne diese Schwachstellen besser zum Einsatz in FTLR eigenen als fastText.

In einem Experiment auf fünf Vergleichsdatensätzen für die Rückverfolgbarkeitsanalyse wurden die Ergebnisse der beiden alternativen Sprachmodelle UniXcoder und Wikipedia2Vec mit fastText verglichen. Das Sprachmodell UniXcoder eignet sich auf den Vergleichsdatensätzen iTrust und LibEST besser als fastText. Das Sprachmodell Wikipedia2Vec eignet sich auf keinem der eingesetzten Vergleichsdatensätze besser als fastText. Im Durchschnitt über alle verwendeten Testdatensätze eignet sich fastText besser für den Einsatz in FTLR als UniXcoder und Wikipedia2Vec.

Freitag, 25. November 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mingzhe Tao
Titel Meta-Learning for Encoder Selection
Vortragstyp Bachelorarbeit
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung In the process of machine learning, the data to be analyzed is often not only numerical but also categorical data. Therefore, encoders are developed to convert categorical data into the numerical world. However, different encoders may have other impacts on the performance of the machine learning process. To this end, this thesis is dedicated to understanding the best encoder selection using meta-learning approaches. Meta-learning, also known as learning how to learn, serves as the primary tool for this study. First, by using the concept of meta-learning, we find meta-features that represent the characteristics of these data sets. After that, an iterative machine learning process is performed to find the relationship between these meta-features and the best encoder selection.

In the experiment, we analyzed 50 datasets, those collected from OpenML. We collected their meta-features and performance with different encoders. After that, the decision tree and random forest are chosen as the meta-models to perform meta-learning and find the relationship between meta-features and the performance of the encoder or the best encoder. The output of these steps will be a ruleset that describes the relationship in an interpretable way and can also be generalized to new datasets.

Vortragende(r) Georg Gntuni
Titel Streaming Nyström MMD Change Detection
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung Data streams are omnipresent. Think of sensor data, bank transactions, or stock movements. We assume that such data is generated according to an underlying distribution, which may change at so-called change points. These points signal events of interest; hence one wants to detect them.

A principled approach for finding such change points is to use maximum mean discrepancy (MMD) for a statistical hypothesis test, with the null hypothesis that the distribution does not change. However, the quadratic runtime of MMD prohibits its application in the streaming setting. Approximations for that setting exist but these suffer from high variance.

In the static setting, the so-called Nyström method allows to reduce the quadratic runtime of MMD with only a slight increase in variance. We propose an algorithm to employ Nyström estimators for MMD in the streaming setting and compare it to existing approximations.

Freitag, 2. Dezember 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Elias Kia
Titel Implementation von Feedbackmechanismen in Onlinekursen am Bespiel Masterstudy LMS
Vortragstyp Bachelorarbeit
Betreuer(in) Kai Marquardt
Vortragsmodus in Präsenz
Kurzfassung Auch wenn der Erhalt von Feedback ein wichtiger Teil des Lernprozesses ist, gibt es zu manchen Ansätzen für Feedback bisher kaum wissenschaftliche Arbeiten, welche diese in Onlinekursen isoliert betrachten. Deshalb wurden für diese Arbeit zwei Ansätze für eine genauere Untersuchung ausgewählt: Erstens ein Fortschrittsbalken zur Anzeige des Kursfortschritts und zweitens ein Overlay mit durch den Kursersteller einstellbaren Nachrichten. Damit die Auswirkungen untersucht werden können, wurden diese Feedbackmechanismen auf eine bereits bestehende Webseite mit Onlinekursen, namens "Rockstartit", implementiert. Die Implementation der Feedbackmechanismen auf der in "WordPress" mit dem Plugin "MasterStudy LMS" entwickelten Webseite, wurde dokumentiert und bewertet. Zuletzt wurde eine Evaluation zum Fortschrittsbalken durchgeführt und ein Ansatz für eine Evaluation des Overlays vorgeschlagen.
Vortragende(r) Tim Schmack
Titel Linking Architectural Analyses Based on Attacker Models
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Fehler in einer Software können unter Umständen nicht behoben werden, da die Fehlerursache in der Architektur der Software liegt. Um diesen Fall vorzubeugen, gibt es verschiedenste Ansätze diese Fehler frühzeitig zu erkennen und zu eliminieren. Ein Ansatz sind Sicherheitsanalysen auf Architekturebene. Diese spezifizieren den Aspekt der Sicherheit auf unterschiedliche Weise und können dadurch verschiedene Erkenntnisse über die Sicherheit des Systems erhalten. Dabei wäre es praktischer, wenn die Erkenntnisse der Sicherheitsanalysen kombiniert werden können, um ein aussagekräftigeres Ergebnis zu erzielen. In dieser Arbeit wird ein Ansatz zum Kombinieren von zwei Architektur Sicherheitsanalysen vorgestellt. Die erste Analyse erkennt physische Schwachstellen durch einen Angreifer im System. Die zweite Analyse erkennt mögliche Ausbreitungsschritte eines Angreifers im System. Die Analysen werden kombiniert, indem die Ergebnisse der ersten Analyse zum Erstellen der Eingabemodelle für die zweite Analyse genutzt werden. Dafür wird ein Ausgabemetamodell erstellt und ein Parser implementiert, welcher die Ergebnisse der ersten Analyse in eine Instanz des Ausgabemetamodells übersetzt. Daraus werden die benötigten Informationen für die zweite Analyse extrahiert. Die Machbarkeit und der Mehrwert des Ansatzes wird in einer Fallstudie evaluiert. Diese ergab, dass die Übertragung machbar ist und aussagekräftigere Ergebnisse erzielt werden konnten.

Freitag, 2. Dezember 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 16. Dezember 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Sonntag, 1. Januar 2023, 14:00 Uhr

iCal (Download)
Ort: TBD
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 13. Januar 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Felix Pieper
Titel Beyond Similarity - Dimensions of Semantics and How to Detect them
Vortragstyp Masterarbeit
Betreuer(in) Sophie Corallo
Vortragsmodus in Präsenz
Kurzfassung Semantic similarity estimation is a widely used and well-researched area. Current state-of-the-art approaches estimate text similarity with large language models. However, semantic similarity estimation often ignores fine-grain differences between semantic similar sentences. This thesis proposes the concept of semantic dimensions to represent fine-grain differences between two sentences. A workshop with domain experts identified ten semantic dimensions. From the workshop insights, a model for semantic dimensions was created. Afterward, 60 participants decided via a survey which semantic dimensions are useful to users. Detectors for the five most useful semantic dimensions were implemented in an extendable framework. To evaluate the semantic dimensions detectors, a dataset of 200 sentence pairs was created. The detectors reached an average F1 score of 0.815.
Vortragende(r) Nikita Nesterov
Titel Sicherheitsbewertung des Standards International Data Spaces im Kontext des Eclipse Dataspace Connectors
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Wittler
Vortragsmodus in Präsenz
Kurzfassung Der gegenwärtige Stand der Industrie wurde mit dem Konzept der Industrie 4.0 erfasst. Die Industrie 4.0 ist gekennzeichnet durch eine kontinuierliche Interaktion zwischen Technologien, die große Datenmengen gemeinsam nutzen, austauschen und verarbeiten. Damit entstehen neue Herausforderungen für die Datentransfertechnologien.

Auf diese Weise prägt die Nachfrage der Industrie das Konzept der Datensouveränität, das für die gemeinsame Nutzung von Daten durch Unternehmen gilt. Datensouveränität für Unternehmen bedeutet, dass das Unternehmen, das über die Daten verfügt und beschließt, diese Daten weiterzugeben, die Regeln für die Verwendung dieser Daten festlegt. Hierdurch behält das Unternehmen die Kontrolle über seine Daten, wenn es diese gemeinsam mit anderen Unternehmen nutzt. Die deutsche Regierung und deutsche Unternehmen haben mit der Ausarbeitung des International Data Space (IDS) Architekturmodells einen Schritt in Richtung Datensouveränität getan. IDS beschreibt abstrakt die Architektur von Datenräumen, innerhalb derer der souveräne Datentransfer bereitgestellt wird. Eine Schlüsselkomponente der IDS-Architektur ist der Datenraum-Konnektor, über den sich Unternehmen mit einem Datenraum verbinden und Daten austauschen. Der Eclipse Dataspace Connector (EDC) implementiert den abstrakten IDS Konnektor. Da es sich bei EDC um eine junge Technologie handelt, gibt es keine Untersuchungen, um zu prüfen, ob sie den souveränen Datentransfer vollständig unterstützt.

Deshalb wurde im Rahmen dieser Bachelorarbeit eine Analyse der Sicherheit von EDC als eine Technologie, die den souveränen Datentransfer bereitstellt, durchgeführt. Die Methodik für diese Analyse war die STRIDE Bedrohungsmodellierung. Das System wurde auf Gegenmaßnahmen zu diesen Bedrohungen untersucht, sowie Testfälle zur Validierung der Gegenmaßnahmen implementiert.

Der Vorteil der Bachelorarbeit sind die Ergebnisse der Sicherheitsanalyse, die eine Liste der Bedrohungen der EDC Architektur identifizieren. Für alle Bedrohungen, bis auf eine, werden in EDC die entsprechenden Gegenmaßnahmen implementiert. Die Implementierung für die nicht behobene Bedrohung befindet sich zur Zeit der Bachelorarbeit in Entwicklung.

Als Ergebnis dieser Arbeit konnten wir zeigen, dass die Konzepte der Datensouveränität im EDC das International Data Spaces Reference Architecture Model umsetzt. Die durchgeführte Analyse hat gezeigt, dass die EDC Architektur eine sichere Umsetzung vom International Data Spaces Reference Architecture Model ist.

Freitag, 20. Januar 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Fabian Palitza
Titel Fallstudie zur Privatsphäre in Connected-Car Systemen
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung In jedem Software-System, in dem Nutzerdaten anfallen, muss deren Verarbeitung strengen Auflagen unterliegen. Das bislang strengste und am weitesten verbreitete dieser Gesetze ist die Europäische Datenschutz-Grundverordnung. Um unter dieser Verordnung Daten legal zu verarbeiten, ist es für Software-Entwickler sehr günstig, diese so früh wie möglich im Entwicklungsprozess zu berücksichtigen.

Eine Möglichkeit, um datenschutzrechtliche Verstöße zur Designzeit festzustellen, ist die Datenflussanalyse. Dabei werden dem konventionellen Software-Modell noch Eigenschaften hinzugefügt, ebenso wie den modellierten Daten. Aus dem Aufruf-Graphen kann dann ein Datenflussdiagramm erstellt werden, welches anzeigt, welche Daten von welchen Komponenten wohin fließen. Diese Arbeit beschreibt eine Fallstudie, in welcher die Datenflussanalyse in einem konkreten System untersucht wird. Zunächst werden Anforderungen aufgestellt, welche eine Fallstudie der Bereiche Mobilität und Datenschutz erfüllen muss. Der wissenschaftliche Beitrag dieser Arbeit liegt dann in diesen Anforderungen sowie der testweisen Durchführung der Fallstudie. Dabei wird ein fiktives Ride-Pooling Unternehmen modelliert. Das Modell wird mithilfe der Datenflussanalyse untersucht, und aus den Ergebnissen werden Schlüsse über die Analyse gezogen.

Vortragende(r) Michael Hirsch
Titel Performance-Modellierung des Mechanik-Lösermoduls in der Multi-Physik-Anwendung Pace3D
Vortragstyp Bachelorarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus in Präsenz
Kurzfassung Für Nutzende des Mechanik-Lösermoduls von Pace3D ist es schwierig vorherzusagen, wie sich unterschiedliche Konfigurationen auf die Rechenzeit auswirken. Um das Verständnis dafür zu schaffen, welcher Einfluss von verschiedenen Konfigurationsoptionen auf die Laufzeit ausgeht, wird eine Performance-Modellierung des Mechanik-Lösermoduls von Pace3D durchgeführt. Das gewählte Verfahren zur Performance-Modellierung unterstützt bisher nur die Berücksichtigung numerischer Konfigurationsoptionen. Das Verfahren wird deshalb erweitert, sodass sich auch binäre Konfigurationsoptionen berücksichtigen lassen. Zur Evaluierung der Performance-Modelle wird ausgewertet, wie gut interpolierte und extrapolierte Testpunkte vorhergesagt werden. Unter Verwendung ausschließlich numerischer Eingabeparameter wird eine Genauigkeit von 87,99 % erzielt. Das Modell mit numerischen sowie einem binären Parameter erzielt eine Genauigkeit von 89,14 %.

Freitag, 20. Januar 2023, 14:00 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Benjamin Jochum
Titel Surrogate models for crystal plasticity - predicting stress, strain and dislocation density over time (Defense)
Vortragstyp Masterarbeit
Betreuer(in) Daniel Betsche
Vortragsmodus online
Kurzfassung In this work, we build surrogate models to approximate the deformation behavior of face-centered cubic crystalline structures under load, based on the continuum dislocation dynamics (CDD) simulation. The CDD simulation is a powerful tool for modeling the stress, strain, and evolution of dislocations in a material, but it is computationally expensive. Surrogate models provide approximations of the results at a much lower computational cost. We propose two approaches to building surrogate models that only require the simulation parameters as inputs and predict the sequences of stress, strain, and dislocation density. The approaches comprise the use of time-independent multi-target regression and recurrent neural networks. We demonstrate the effectiveness by providing an extensive study of different implementations of both approaches. We find that, based on our dataset, a gradient-boosted trees model making time-independent predictions performs best in general and provides insights into feature importance. The approach significantly reduces the computational cost while still producing accurate results.

Freitag, 27. Januar 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Lea Strauch
Titel Semantic Interoperability in Decentralized Identity Ecosystems
Vortragstyp Bachelorarbeit
Betreuer(in) Ralf Reussner
Vortragsmodus in Präsenz
Kurzfassung In an identity ecosystem, actors exchange digital proofs, so called "credentials". Actors can also take on different roles: "Issuers" generate credentials and issue them to other actors. "Holders" store them and present them to "verifiers", who verify and accept the credential or reject it.

In decentralized identity ecosystems, actors can interact with each other on an equal basis, regardless of their current role. They are not subjected to permanent hierarchies. Instead, they are loosely coupled with each other and where it is possible, intermediaries are avoided.

In this thesis, the "semantic interoperability" of actors in decentralized identity ecosystems are examined. Semantic interoperability aims at a common understanding of credentials for all actors. For this purpose, two things have to be taken into account: First, the understanding of the properties and statements evidenced in the credential, e.g., "What does the content say and what does it not say? What level of trust is guaranteed? What kind of actor issued the credential?" Second, it is about the context of the credential in its own environment, e.g., "Is the evidence of these properties adequate to continue this process? Is the level of trust sufficient?" Regarding this, there are already promising approaches from researchers and practitioners, especially in the area of the "Semantic Web", which is closely connected to the topic of semantic interoperability. This is why we want to collect and classify various existing technologies and standards for creating semantic interoperability. These technologies and standards will also be evaluated for their use on the basis of requirements collected in the project "Schaufenster sichere digitale Identitäten Karlsruhe" (Showcase secure digital identities Karlsruhe).

Donnerstag, 16. Februar 2023, 10:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Christoph Batke
Titel Improving Document Information Extraction with efficient Pre-Training
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung SAP Document Information Extraction (DOX) is a service to extract logical entities from scanned documents based on the well-known Transformer architecture. The entities comprise header information such as document date or sender name, and line items from tables on the document with fields such as line item quantity. The model currently needs to be trained on a huge number of labeled documents, which is impractical. Also, this hinders the deployment of the model at large scale, as it cannot easily adapt to new languages or document types. Recently, pretraining large language models with self-supervised learning techniques have shown good results as a preliminary step, and allow reducing the amount of labels required in follow-up steps. However, to generalize self-supervised learning to document understanding, we need to take into account different modalities: text, layout and image information of documents. How to do that efficiently and effectively is unclear yet. The goal of this thesis is to come up with a technique for self-supervised pretraining within SAP DOX. We will evaluate our method and design decisions against SAP data as well as public data sets. Besides the accuracy of the extracted entities, we will measure to what extent our method lets us lower label requirements.

Freitag, 3. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Janek Speit
Titel Automated Classification of Design Decision in Software Architecture Documentation
Vortragstyp Masterarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Die Softwarearchitekturdokumentation (SAD) ist ein integrales Artefakt eines Softwareprojektes. Um die Qualität von SADs zu verbessern und nachgelagerte Aufgaben zu unterstützen, ist eine automatische Klassifizierung dieser Entwurfsentscheidungen erstrebenswert. In dieser Arbeit implementieren und evaluieren wir einen Ansatz zur automatischen Identifikation und Klassifizierung von Entwurfsentscheidungen auf der Grundlage einer feingranularen Taxonomie, bei der wir eine hierarchische Klassifikationsstrategie mit dem Einsatz von Transfer-Lernen durch vortrainierter Sprachmodelle kombinieren. Der Beitrag dieser Arbeit besteht darin, den Vorteil einer hierarchischen Klassifikationsstrategie für die automatische Klassifikation von Entwurfsentscheidungen gegenüber einem nicht-hierarchischen Ansatz zu untersuchen. Außerdem untersuchen und vergleichen wir die Effektivität verschiedener vortrainierter Sprachmodelle.
Vortragende(r) Stefanie Fischer
Titel Faster Feedback Cycles via Integration Testing Strategies for Serverless Edge Computing
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus in Präsenz
Kurzfassung Serverless computing allows software engineers to develop applications in the cloud without having to manage the infrastructure. The infrastructure is managed by the cloud provider. Therefore, software engineers treat the underlying infrastructure as a black box and focus on the business logic of the application. This lack of inside knowledge leads to an increased testing difficulty as applications tend to be dependent on the infrastructure and other applications running in the cloud environment. While isolated unit and functional testing is possible, integration testing is a challenge, as reliable results are often only achieved after deploying to the deployment environment because infrastructure specifics and other cloud services are only available in the actual cloud environment. This leads to a laborious development process. For this reason, this thesis deals with creating testing strategies for serverless edge computing to reduce feedback cycles and speed up development time. For evaluation, the developed testing strategies are applied to Lambda@Edge in AWS.

Donnerstag, 9. März 2023, 10:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dan Jia
Titel Reinforcement Learning for Solving the Knight’s Tour Problem
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung The knight’s tour problem is an instance of the Hamiltonian path problem that is a typical NP-hard problem. A knight makes L-shape moves on a chessboard and tries to visit all the squares exactly once. The tour is closed if a knight can finish a complete tour and end on a square that is a neighbourhood of its starting square; Otherwise, it is open. Many algorithms and heuristics have been proposed to solve this problem. The most well-known one is warnsdorff’s heuristic. Warnsdorff’s idea is to move to the square with the fewest possible moves in a greedy fashion. Although this heuristic is fast, it does not always return a closed tour. Also, it only works on boards of certain dimensions. Due to its greedy behaviour, it can get stuck into a local optimum easily. That is similar to the other existing approaches. Our goal in this thesis is to come up with a new strategy based on reinforcement learning. Ideally, it should be able to find a closed tour on chessboards of any size. We will consider several approaches: value-based methods, policy optimization and actor-critic methods. Compared to previous work, our approach is non-deterministic and sees the problem as a single-player game with a tradeoff between exploration and exploitation. We will evaluate the effectiveness and efficiency of the existing methods and new heuristics.

Freitag, 17. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Rakan Al Masri
Titel Generating Causal Domain Knowledge for Cloud Systems Monitoring
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus in Präsenz
Kurzfassung While standard machine learning approaches rely solely on data to learn relevant patterns, in certain fields, this may not be sufficient. Researchers in the Healthcare domain, have successfully applied causal domain knowledge to improve prediction quality of machine learning models, especially for rare diseases. The causal domain knowledge informs the machine learning model about similar diseases, thus improving the quality of the predictions.

However, some domains, such as Cloud Systems Monitoring, lack readily available causal domain knowledge, and thus the knowledge must be approximated. Therefore, it is important to have a systematic investigation of the processes and design decision that affect the knowledge generation process.

In this study, we showed how causal discovery algorithms can be employed to generate causal domain knowledge from raw textual logs in the Cloud Systems Monitoring domain. We also investigated the impact of various design choices on the domain knowledge generation process through systematic testing across multiple datasets and shared the insights we gained. To our knowledge, this is the first time such an investigation has been conducted.

Freitag, 24. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Yannick Ettwein
Titel Explainable Artificial Intelligence for Decision Support
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus in Präsenz
Kurzfassung Policy makers face the difficult task to make far-reaching decisions that impact the life of the the entire population based on uncertain parameters that they have little to no control

over, such as environmental impacts. Often, they use scenarios in their decision making process. Scenarios provide a common and intuitive way to communicate and characterize different uncertain outcomes in many decision support applications, especially in broad public debates. However, they often fall short of their potential, particularly when applied for groups with diverse interests and worldviews, due to the difficulty of choosing a small number of scenarios to summarize the entire range of uncertain future outcomes. Scenario discovery addresses these problems by using statistical or data-mining algorithms to find easy-to-interpret, policy-relevant regions in the space of uncertain input parameters of computer simulation models. One of many approaches to scenario discovery is subgroup discovery, an approach from the domain of explainable Artificial Intelligence.

In this thesis, we test and evaluate multiple different subgroup discovery methods for their applicabilty to scenario discovery applications.

Vortragende(r) Georg Gntuni
Titel Streaming MMD Change Detection
Vortragstyp Bachelorarbeit
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung Kernel methods are among the most well-known approaches in data science. Their ability to represent probability distributions as elements in a reproducing kernel Hilbert space gives rise to maximum mean discrepancy (MMD). MMD quantifies the dissimilarity of two distributions and allows powerful two-sample tests on many domains. One important application of general two-sample tests is change detection in data streams: Here, one tests the null hypothesis that the distributions of data within the stream do not change versus the alternative hypothesis that the distributions do change; a change in distribution then indicates a change point. The broad applicability of kernel-based two-sample tests renders their use for change detection in data streams highly desirable. But, their quadratic runtime complexity prohibits their application. While approximations for kernel methods that reduce their runtime in the static setting exist, their application to data streams is challenging.

In this thesis, we propose a novel change detector, RADMAN, which leverages the random Fourier feature-based kernel approximation to efficiently detect changes in data streams with a polylogarithmic runtime complexity of O(log^2 n) per insert operation, with n the total number of observations. The proposed approach runs significantly faster than existing methods but obtains similar result quality. Our experiments on synthetic and real-world data sets show that it performs better than current state-of-the-art approaches.

Freitag, 31. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tim Schilpp
Titel Analyzing Different Approaches to Integrating Handwritten and Generated Object-oriented Code
Vortragstyp Bachelorarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Generating source code from models is one of the major advantages of a model-driven development process but most of the time this generated code does not suffice and developers are still required to write code by hand. This leads to the question of how to best integrate handwritten and generated code.

Previous authors suggested a number of possible solutions to this problem of integrating handwritten and generated code but the possibilities to objectively compare these alternatives are still limited. Therefore we collected the different analysis criteria suggested by other authors as well as complemented them with additional criteria proposed by senior developers. We then applied these criteria to the possible integration approaches presented by previous authors to create an overview for developers to use when having to choose an integration approach for their model-driven project.

Applying the results of this analysis we chose the best-fitting integration approach for the development of a large industrial development project and found out that migrating to this suggested integration approach would improve the overall software quality regarding complexity, coupling, and cohesion.

Vortragende(r) Kaan Berk Yaman
Titel The Kconfig Variability Framework as a Feature Model
Vortragstyp Bachelorarbeit
Betreuer(in) Christopher Gerking
Vortragsmodus in Präsenz
Kurzfassung The Kconfig variability framework is used to develop highly variable software such as the Linux kernel, ZephyrOS and NuttX. Kconfig allows developers to break down their software in modules and define the dependencies between these modules, so that when a concrete configuration is created, the semantic dependencies between the selected modules are fulfilled, ensuring that the resulting software product can function. Kconfig has often been described as a tool of define software product lines (SPLs), which often occur within the context of feature-oriented programming (FOP). In this paper, we introduce methods to transform Kconfig files into feature models so that the semantics of the model defined in a Kconfig file are preserved. The resulting feature models can be viewed with FeatureIDE, which allows the further analysis of the Kconfig file, such as the detection of redundant dependencies and cyclic dependencies.

Freitag, 31. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 333 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Telge
Titel Automatisierte Gewinnung von Nachverfolgbarkeitsverbindungen zwischen Softwarearchitektur und Quelltext
Vortragstyp Masterarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Nachverfolgbarkeitsverbindungen zwischen Architektur und Quelltext können das Wissen über ein System erweitern. Aufgrund des Erstellungsaufwands existieren in Softwareprojekten oft keine oder nur unvollständige Nachverfolgbarkeitsinformationen. Diese Arbeit untersucht einen Ansatz mit zwei Schritten, um automatisiert Nachverfolgbarkeitsverbindungen zwischen Architekturmodellelementen und Quelltext zu generieren. Damit die Erstellung von Nachverfolgbarkeitsverbindungen für verschiedene Programmiersprachen und Architektur-Metamodelle vereinheitlicht wird, werden im ersten Schritt aus den vorliegenden Artefakten Modelle erstellt. Der Quelltext wird dabei in ein von der konkreten Programmiersprache unabhängiges Modell überführt. Dafür wird ein Metamodell verwendet, das auf dem von der OMG spezifizierten KDM basiert. Für den zweiten Schritt werden auf den erstellten Modellen arbeitende Heuristiken und Aggregationen definiert. Diese werden genutzt, um die Nachverfolgbarkeitsverbindungen zu generieren. Die Heuristiken nutzen zum Beispiel Paket-, Pfad-, Namen- und Methoden-Informationen. Die Evaluation des Ansatzes nutzt einen dafür erstellten Goldstandard mit fünf Fallstudien. Es werden Nachverfolgbarkeitsverbindungen für PCM, UML, Java und Shell generiert. Für den Mikro-Durchschnitt des F1-Maßes wird ein Wert von 99,11 % erreicht. Fließt jede Komponente und Schnittstelle in gleichem Maße in den Wert ein, beträgt das F1-Maß 93,71 %. Insgesamt können mit dem Ansatz dieser Arbeit also sehr gute Ergebnisse erzielt werden. Für die TEAMMATES-Fallstudie wird mithilfe mehrerer Quelltextversionen der Einfluss der Konsistenz auf die Ergebnisse untersucht. Der Mikro-Durchschnitt des F1-Maßes ist für die konsistentere Version um 6,05 Prozentpunkte höher. Die Konsistenz kann also die Qualität der Ergebnisse beeinflussen.
Vortragende(r) Ulas Uyanik
Titel GUI-basiertes Testen einer Lernplattform-Anwendung durch Nutzung von Neuroevolution
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus in Präsenz
Kurzfassung Software-Testing ist notwendig, um die Qualität und Funktionsfähigkeit von Softwareartefakten sicherzustellen. Es gibt sowohl automatisierte als auch manuelle Testverfahren. Allerdings sind automatisierte Verfahren, sowie menschliches Testen und skriptbasiertes Testen in Bezug auf Zeitaufwand und Kosten weniger gut skalierbar. Monkey-Testing, das durch zufällige Klicks auf der Benutzeroberfläche gekennzeichnet ist, berücksichtigt die Applikationslogik oft nicht ausreichend.

Der Fokus dieser Bachelorarbeit liegt auf dem automatisierten neuroevolutionären Testverfahren, das neuronale Netze als Testagenten verwendet und sie mithilfe evolutionärer Algorithmen über mehrere Generationen hinweg verbessert. Um das Training der Agenten zu ermöglichen und den Vergleich zum Monkey-Testing zu ermöglichen, wurde eine simulierte Version der Lernplattform Anki implementiert. Zur Beurteilung der Testagenten wurde eine Belohnungsstruktur in der simulierten Anwendung entwickelt. Die Ergebnisse zeigen, dass das neuroevolutionäre Testverfahren im Vergleich zum Monkey-Testing in Bezug auf erreichte Belohnungen signifikant besser abschneidet. Dadurch wird die Applikationslogik im Testprozess besser berücksichtigt.

Freitag, 31. März 2023, 14:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Aaron Gätje
Titel Efficient Training of Graph Neural Networks for Dynamic Phenomena (Proposal)
Vortragstyp Proposal
Betreuer(in) Daniel Ebi
Vortragsmodus in Präsenz
Kurzfassung Graph Neural Networks (GNNs) have shown great potential for use cases that can be described as graphs. However, training GNNs presents unique challenges due to the characteristics of graph data. The focus of this thesis is to examine their learning abilities by developing a GNN-based surrogate model for the injection molding process from materials science. While numerical simulations can model the mold filling accurately, they are computationally expensive and require significant trial-and-error for parameter optimization. We propose representing the mold geometry as a static graph and constructing additional node and edge features from domain knowledge. We plan to enhance our model with a self-attention mechanism, allowing dynamic weighting of a node's neighbors based on their current states. Further improvements may come from customizing the model’s message passing function and exploring node sampling methods to reduce computational complexity. We compare our approach to conventional machine learning models w.r.t. predictive performance, generalizability to arbitrary mold geometries and computational efficiency.

This thesis is a follow-up work to a bachelor thesis written at the chair in 2022.

Vortragende(r) Aleksandr Eismont
Titel Surrogate Model Based Process Parameters Optimization of Textile Forming
Vortragstyp Proposal
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung Manufacturing optimization is crucial for organizations to remain competitive in the market. However, complex processes, such as textile forming, can be challenging to optimize, requiring significant resources. Surrogate-based optimization is an efficient method that uses simplified models to guide the search for optimal parameter combinations of manufacturing processes. Moreover, incorporating uncertainty estimates into the model can further speed up the optimization process, which can be achieved by using Bayesian deep neural networks. Additionally, convolutional neural networks can take advantage of spatial information in the images that are part of the textile forming parameters. In this work, a Bayesian deep convolutional surrogate model is proposed that uses all available process parameters to predict the shear angle of a textile element. By incorporating background information into the surrogate model, it is expected to predict detailed process results, leading to greater efficiency and increased product quality.

Freitag, 14. April 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Paul Giza
Titel CGFLEX: A Flexible Framework for Causal Graph-based Data Synthesis
Vortragstyp Masterarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung Algorithms that extract dependencies from data and represent them as causal graphs must also be tested. For such tests, data with a known ground truth is required, but this is rarely available. Generating data under controlled conditions through simulations is expensive and time-consuming. A solution to this problem is to create synthetic datasets, where dependencies are predefined, to evaluate the results of these algorithms.

This work focuses on building a framework for the synthesis of data. In the framework, the synthesis process begins with generating a random dependency graph, specifically a directed acyclic graph. Each node in the graph, except the source nodes, has parent nodes and represents a variable. In the next step, each node is populated with predefined random dependencies. A dependency is a model that determines the value of a variable based on its parent variables. From this structure, datasets can be sampled. Users can control the properties of the causal graph through various parameters and choose from multiple types of dependencies, representing different complexity levels.

Additionally, the sampling process allows for interactivity by enabling the exchange of dependencies during the sampling process. Dependencies can be exchanged with fixed values, probability distributions, or time series functions. This flexibility provides a robust tool for improving and comparing the mentioned algorithms under various conditions.

Freitag, 28. April 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Hannes Greule
Titel Evidence-based Token Abstraction for Software Plagiarism Detection
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Programming assignments for students are target of plagiarism. Especially for graded assignments, instructors want to detect plagiarism among the students. For larger courses, however, manual inspection of all submissions is a resourceful task. For this purpose, there are numerous tools that can help detect plagiarism in submissions. Many well-known plagiarism detection tools are token-based detectors. In an abstraction step, they map source code to a list of tokens, and such lists are then compared with each other. While there is much research in the area of comparison algorithms, the mapping is often only considered superficially. In this work, we conduct two experiments that address the issue of token abstraction. For that, we design different token abstractions and explain their differences. We then evaluate these abstractions using multiple datasets. We show that different abstractions have pros and cons, and that a higher abstraction level does not necessarily perform better. These findings are useful when adding support for new programming languages and for improving existing plagiarism detection tools. Furthermore, the results can be helpful to choose abstractions tailored to specific requirements.
Vortragende(r) Jonas Strittmatter
Titel Token-Based Plagiarism Detection for Statecharts
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung In the field of software engineering, existing plagiarism detection systems have primarily focused on detecting cases of plagiarism in code. However, other artefacts such as models also play a crucial role in the development process. Statecharts, in particular, are used to model the behavior of a system. This thesis investigates the applicability and challenges of applying token-based plagiarism detection systems to statecharts. We extend the plagiarism detector JPlag to support detecting cases of plagiarism in statecharts. Our approach is evaluated using a dataset of student assignments from a modeling course, where we generate plagiarized statecharts by adopting common obfuscation attacks. We study the effects of the token-extraction strategy, sorting techniques and the minimum token match parameter. The results suggest that an approach tailored to the specific kind of model, such as statecharts, works better than a generic solution for models.

Freitag, 5. Mai 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Lukas Burgey
Titel Continuous Integration of Performance Models for Lua-Based Sensor Applications
Vortragstyp Masterarbeit
Betreuer(in) Manar Mazkatli
Vortragsmodus in Präsenz
Kurzfassung Architecture-level performance models of software like the PCM can aid with the development of the software by preventing architecture degradation and helping to diagnose performance issues during the implementation phase.

Previously, manual intervention was required to create and update such models. The CIPM approach can be employed to automatically make a calibrated PCM instance available during the development of software. A prototypical implementation of the CIPM approach targets microservice-based web applications implemented in Java. No implementations for other programming languages exist and the process of adapting the CIPM approach to support another programming language has previously not been explored.

We present an approach to adapting CIPM to support Lua-based sensor applications. A prototypical implementation of the adapted approach was evaluated using real-world Lua-based sensor applications from the SICK AppSpace ecosystem. The evaluation demonstrates the feasibility of the adapted approach, but also reveals minor technical issues with the implementation.

Vortragende(r) Moritz Brödel
Titel Preventing Automatic Code Plagiarism Generation Through Token String Normalization
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Code plagiarism is a significant problem in computer science education. Token-based plagiarism detectors, which represent the state-of-the-art in code plagiarism detection, excel at identifying manually plagiarized submissions. Unfortunately, they are vulnerable to automatic plagiarism generation, particularly when statements are inserted or reordered. Therefore, this thesis introduces token string normalization, which makes the results of token-based plagiarism detectors invariant to statement insertion and reordering. It inher- its token-based plagiarism detectors’ high language independence and utilizes a program graph. We integrate token string normalization into the state-of-the-art token-based plagiarism detector JPlag. We show that this prevents automatic plagiarism generation using statement insertion and reordering. Additionally, we confirm that JPlag’s existing capabilities are retained.
Vortragende(r) Alp Toraç Genç
Titel Prototypical implementation of discrete-event-based co-simulation of hardware and software
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Weber
Vortragsmodus in Präsenz
Kurzfassung Computer-supported simulations provide multiple ways to analyse design decisions and avoid many possible mistakes. For simulating large and complex systems, multiple simulation tools may be necessary, as having the means to simulate in only one tool may not be the best approach. In such cases, co-simulation can be used to simulate the said system by interconnecting the mentioned simulation tools using a co-simulation standard. A system that consists of hardware and software falls under this category of systems.

Depending on how a system is to be co-simulated, choosing a co-simulation standard can be challenging, as there are many factors and trade-offs to consider. In this thesis, existing co-simulation standards with discrete-event-based co-simulation support will be researched and compared to one another. This comparison will then be used to choose a co-simulation standard for an exemplary case of hardware-software co-simulation, which will be prototypically implemented and evaluated.

Freitag, 12. Mai 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Steven Lorenz
Titel Active Learning for experimental exploration
Vortragstyp Proposal
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung A ranking is the result of running an experiment, a set of encoders is applied to an

experimental condition (dataset, model, tuning, scoring) and are then ranked according to their performance. To draw conclusions about the performance of the encoders for a set of experimental conditions, one can aggregate the rankings into a consensus ranking. (i.e. taking the median rank) The goal of the thesis is to explore the space of consensus rankings and find all possible consensus rankings. However, running an experiment is a very time-consuming task. Therefore we utilize Active Learning, to avoid running unnecessary experiments. In Active Learning, the learner can choose the data it is trained on and achieves greater accuracy with fewer labeled data.

Freitag, 26. Mai 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Niklas Brüning
Titel Erhaltung des Endanwenderflows in PREEvision durch asynchrone Job-Verarbeitung
Vortragstyp Bachelorarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Viele modellgetriebene Entwicklungsumgebungen verfolgen einen rein sequenziellen Ansatz. Modelltransformationen werden sequenziell ausgeführt und zu einem Zeitpunkt darf stets nur eine Modelltransformation ausgeführt werden. Auf entsprechend großen Datenmengen ergeben sich hierdurch jedoch einige Einschränkungen. So kann es dazu kommen, dass Nutzer mehrere Minuten oder sogar Stunden auf den Abschluss einer Modelltransformation warten müssen und die Software währenddessen nicht für Nutzereingaben zur Verfügung steht, selbst wenn die Modelltransformation nur auf einen Teil des Modells zugreift. Dieser Zustand kann jedoch den Nutzerflow unterbrechen, einen mentalen Zustand des Nutzers, der gleichzeitig produktiv ist und als belohnend wahrgenommen wird.

Eine Möglichkeit, um das Risiko zu minimieren, dass der Nutzerflow unterbrochen wird, ist die Wartezeit für den Nutzer zu verkürzen, indem Modelltransformationen asynchron im Hintergrund ausgeführt werden. Der Nutzer kann dann mit eingeschränkt weiterarbeiten, während die Modelltransformation durchgeführt wird.

Im Kontext von modellgetriebener Softwareentwicklung findet sich zu Nebenläufigkeit nur wenig Forschung. Zwar gibt es einige Ambitionen, Modelltransformationen zu parallelisieren, jedoch gibt es keine Forschung dazu, Modelltransformationen asynchron auszuführen um weitere Modelltransformationen simultan durchführen zu können.

Die vorliegende Arbeit stellt am Beispiel der modellgetrieben entwickelten Software PREEvision der Firma Vector Informatik GmbH, Mechanismen und mögliche Implementierungen vor, mit denen simultane Modelltransformationen realisiert werden können. Für vier Operationen in PREEvision wird außerdem beispielhaft beschrieben, wie die Operationen mit Hilfe der vorgestellten Mechanismen so modifiziert werden können, dass diese asynchron ausgeführt werden. Die Prototypen der beschriebenen Modifikationen werden anschließend im Hinblick auf die Unterbrechung des Nutzerflows und die Korrektheit evaluiert. Abschließend zieht die Arbeit ein Fazit über die Anwendbarkeit der vorgestellten Mechanismen und darüber, ob der Nutzer durch die Prototypen seltener auf Wartedialoge warten muss.

Vortragende(r) Yuhao Wang
Titel Inkrementelle Modellreduktion zur Verkürzung der Testzyklen in der Transformationsentwicklung
Vortragstyp Bachelorarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Modellgetriebene Softwareentwicklung (MDD) ist ein Paradigma der Softwareentwicklung, in dem das Modell eine zentrale Rolle spielt. In der MDD wird das Problemfeld durch das Model abstrakt und repräsentativ beschrieben. Im Laufe der Entwicklung wird das Modell durch Modelltransformation schrittweise konkretisiert und schließlich in Programmcode umgewandelt. Je umfangreicher und komplexer das Problemfelds ist, desto größer ist die Anzahl der Modellelemente und desto komplexer ist der Zusammenhang zwischen den Modellelementen. Aus diesem Grund ist die Transformation eines solch großen Modells zeitaufwendig und fehleranfällig.

Es werden in der Entwicklung mehrmals Test durchgeführt, um die Korrektheit des Modells und der Transformation zu gewährleisten. Die große Anzahl der Elemente im Modell verlangsamt den Test und erschwert das Finden der Fehlerursache im Modell und in der Transformation. Daher wurde im Rahmen dieser Bachelorarbeit untersucht, ob ein Ausschnitt des Modells existiert, welcher folgende Eigenschaften hat: Dieser Ausschnitt soll nur Teile des originalen Modells enthalten. Weiter sollen mit diesem Ausschnitt alle Fehler des vollständigen Modells repräsentiert werden können. Die Ursache und Korrektur des fehlerhaften Modells und der fehlerhaften Transformation werden im Rahmen dieser Arbeit nicht untersucht. Die Arbeit konzentriert sich auf das Erstellen und Untersuchen dieses Ausschnitts des Modells.

Freitag, 2. Juni 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Simon Benedict
Titel Online Nyström MMD Approximation
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung In data analysis, the ability to detect and understand critical shifts in information patterns holds immense significance. Whether it is monitoring real-time network traffic, identifying anomalies in financial markets, or tracking fluctuations in climate data, the ability to swiftly identify change points is crucial for effective decision-making. Since the default implementation of MMD is quadratic the algorithms to enable this however tend to exceed runtime limits for certain contexts, such as those where the speed and volume of incoming data is relatively high. In continuation of recent developments in change point detection optimization through estimators, notably RADMAN, we propose to integrate the “Nyström” estimator into a similar context of exponential bucketing to improve on this matter. This thesis will focus on the concept, the implementation and testing of this construct and its comparison to other recent approaches.

Freitag, 9. Juni 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Marvin Schäfer
Titel Automatisiertes GUI-basiertes Testen einer Passwortmanager-Applikation mit Neuroevolution
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus in Präsenz
Kurzfassung Software-Testing ist essenziell zur Gewährleistung der Qualität und Funktionalität von Softwareprodukten. Es existieren sowohl manuelle als auch automatisierte Methoden. Allerdings weisen sowohl automatisierte Verfahren als auch menschliche und skriptbasierte Tests bezüglich Kosteneffizienz und Zeitaufwand Einschränkungen auf. Monkey-Testing, gekennzeichnet durch zufällige Klicks auf der Benutzeroberfläche, berücksichtigt dabei oft nicht ausreichend die Logik der Applikation.

Diese Bachelorarbeit konzentriert sich auf die automatisierte neuroevolutionäre Testmethode, die neuronale Netze als Testagenten nutzt und diese mittels evolutionärer Algorithmen über mehrere Generationen hinweg verfeinert. Zur Evaluierung dieser Agenten und zum Vergleich mit Monkey-Testing wurde eine simulierte Version einer Passwort-Manager Applikation eingesetzt. Dabei wurde eine Belohnungsstruktur innerhalb der simulierten Anwendung implementiert. Die Ergebnisse verdeutlichen, dass das neuroevolutionäre Testverfahren im Hinblick auf die erzielten Belohnungen im Vergleich zum Monkey-Testing signifikant besser performt. Dies führt zu einer besseren Berücksichtigung der Anwendungslogik im Testprozess.

Freitag, 16. Juni 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Aleksandra Pawelek
Titel Collective Entity Matching for Linking Structures in Attributed Material Graphs
Vortragstyp Proposal
Betreuer(in) Daniel Betsche
Vortragsmodus in Präsenz
Kurzfassung In data analysis, entity matching (EM) or entity resolution is the task of finding the same entity within different data sources. When joining different data sets, it is a required step where the same entities may not always share a common identifier. When applied to graph data like knowledge graphs, ontologies, or abstractions of physical systems, the additional challenge of entity relationships comes into play. Now, not just the entities themselves but also their relationships and, therefore, their neighborhoods need to match. These relationships can also be used to our advantage, which builds the foundation for collective entity matching (CEM).

In this bachelor thesis, we focus on a graph data set based on a material simulation with the intent to match entities between neighboring system states. The goal is to identify structures that evolve over time and link their states with a common identifier. Current CEM Algorithms assume perfect matches to be possible, i.e., every entity can be matched. We want to overcome this challenge and address the high imbalance of potential candidates and impossible matches. A third major challenge is the large volumes of data which requires our algorithm to be efficient.

Freitag, 16. Juni 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Lena Gerlach
Titel Untersuchung des Einflusses von Kommunikationsmodellen auf die Zusammensetzbarkeit von Informationsflusseigenschaften
Vortragstyp Bachelorarbeit
Betreuer(in) Christopher Gerking
Vortragsmodus in Präsenz
Kurzfassung In der Softwareentwicklung wird häufig das Prinzip verwendet, ein großes System aus kleineren Teilsystemen zusammenzusetzen. Dies erfordert eine Kommunikation zwischen den Teilsystemen, um Informationen auszutauschen. Allerdings kann dabei der Informationsfluss durch das Gesamtsystem unsicher werden und somit die Vertraulichkeit, eine der wichtigsten Sicherheitseigenschaften eines Systems, verletzt werden. Um sicheren Informationsfluss zu erzielen, müssen sogenannte Informationsflusseigenschaften erfüllt werden. Aus der Literatur ist bekannt, dass Informationsflusseigenschaften bei der Komposition von sicheren Systemen verletzt werden können. Das bedeutet, wenn zwei sichere Systeme zusammengesetzt werden, besteht die Möglichkeit, dass das Gesamtsystem unsicher wird. Hierbei spielt die Art der Kommunikation zwischen den Teilsystemen eine entscheidende Rolle. Die Literatur liefert Ergebnisse, die zeigen, dass synchrone Kommunikation die Zusammensetzbarkeit verletzt, während asynchrone Kommunikation die Zusammensetzbarkeit gewährleistet. Allerdings existieren in der Literatur keine konkreten Ergebnisse darüber, wie sich Abstufungen von synchroner zu asynchroner Kommunikation auf die Zusammensetzbarkeit auswirken.

In dieser Arbeit wird untersucht, wie sich verschiedene Kommunikationsformen zwi- schen synchroner und asynchroner Kommunikation auf die Zusammensetzbarkeit von Informationsflusseigenschaften auswirken. Hierfür werden generische Konzepte zur Modellierung asynchroner Kommunikationsformen entwickelt. Die Untersuchung erfolgt mithilfe von Timed Automata. Es wird ein Beispiel modelliert, in dem zwei sichere Systeme, die als Timed Automata modelliert sind, zusammengesetzt werden und unter synchroner Kommunikation ein unsicheres Gesamtsystem bilden. Anschließend wird die synchrone Kommunikation mithilfe der entwickelten Modellierungskonzepte durch asynchrone Kommunikationsformen ersetzt und für jede Form wird die Sicherheit des zusammengesetzten Systems überprüft. Zur Modellierung und Überprüfung des Gesamtsystems hinsichtlich des Erhalts von Informationsflusseigenschaften wird in dieser Arbeit das Werkzeug UPPAAL verwendet. Neben den Modellierungskonzepten liefert diese Arbeit konkrete Ergebnisse über die Auswirkungen der Kommunikationsformen auf die Zusammensetzbarkeit, was einen weiteren Beitrag darstellt. Basierend auf diesen Ergebnissen werden die Eigenschaften einer Kommunikationsform abgeleitet, die für die Zusammensetzbarkeit erforderlich sind, sowie Eigenschaften, die sich negativ auswirken. Im Hinblick auf die abgeleiteten Eigenschaften wird für die prozedurale Kommunikation diskutiert, wie diese sich auf die Zusammensetzbarkeit auswirkt. Dafür wird sie in die synchrone und asynchrone Kommunikation eingeordnet.

Freitag, 23. Juni 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Manske
Titel Integrating Architecture-based Confidentiality Analysis with Code-based Information Flow Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Moderne Softwaresysteme müssen einer Vielzahl von Sicherheitsanforderungen gerecht werden. Diese Anforderungen scheinen im Laufe der Zeit immer strenger zu werden. Heutzutage führt ein Softwaresystem, das Vertraulichkeitsanforderungen nicht erfüllt, oft zur unbeabsichtigten Offenlegung sensibler Daten. Dies ist oft mit finanziellen Kosten verbunden, da die DSGVO Bußgelder eingeführt und erhöht hat, kann aber auch den Ruf eines Unternehmens beeinträchtigen und zu Kundenverlusten führen. Viele Sicherheitslücken können aus Diskrepanzen zwischen der Architekturplanung und der Implementierung des Codes entstehen. Aus diesem Grund untersucht diese Arbeit die Integration einer statischen, architekturbasierten Vertraulichkeitsanalyse mit einer statischen, codebasierten Informationsflussanalyse. Durch die Kombination dieser beiden Analysen möchten wir zeigen, dass wir eine Diskrepanz zwischen Design und Implementierung identifizieren können. Der in dieser Arbeit gewählte Ansatz behandelt die Architekturplanung als das beabsichtigte Verhalten des Systems. Es werden die erforderlichen Artefakte generiert, um eine codebasierte Analyse durchzuführen und zu überprüfen, ob die auf der Architektur definierten Eigenschaften auf die Implementierung anwendbar sind. In einer kleinen Studie haben wir die Durchführbarkeit des Ansatzes evaluiert. Zusammenfassend zielt diese Arbeit darauf ab, die Lücke zwischen der architekturellen Sicht und der Codesicht zu überbrücken, indem Vertraulichkeitseigenschaften in beiden verbunden werden.

Freitag, 7. Juli 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jamil Bagga
Titel Developing a Database Application to Compare the Google Books Ngram Corpus to German News Corpora
Vortragstyp Proposal
Betreuer(in) Fabian Richter
Vortragsmodus in Präsenz
Kurzfassung This thesis focuses on the development of a database application that enables a comparative analysis between the Google Books Ngram Corpus(GBNC) and a German news corpora. The GBNC provides a vast collection of books spanning various time periods, while the German news corpora encompass up-to-date linguistic data from news sources. Such comparison aims to uncover insights into language usage patterns, linguistic evolution, and cultural shifts within the German language.

Extracting meaningful insights from the compared corpora requires various linguistic metrics, statistical analyses and visualization techniques. By identifying patterns, trends and linguistic changes we can uncover valuable information on language usage evolution over time. This thesis provides a comprehensive framework for comparing the GBNC to other corpora, showcasing the development of a database application that enables not only valuable linguistic analyses but also shed light on the composition of the GBNC by highlighting linguistic similarities and differences.

Freitag, 14. Juli 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Simeon Becker
Titel Konsistenzhaltung von Eingabemodellen für Architekturanalysen und statischen Quelltextanalysen für Sicherheit
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Architekturanalysen können in Architekturmodellen Sicherheitseigenschaften spezifizieren. Diese Spezifikationen können von statischen Sicherheitsanalysen anhand dem Quelltext überprüft werden. Dafür müssen sich diese Modelle alle auf demselben Stand befinden. Die manuelle Konsistenzhaltung der Modelle ist jedoch aufwändig.

Daher wird dieser Arbeit ein Konzept für eine automatische Konsistenzhaltung vier verschiedener Modelle umgesetzt, welche als Eingabemodelle für eine statische Sicherheitsanalyse dienen. Diese vier Modelle sind ein Architekturmodell, dessen Quelltext und jeweils dazu passende Annotationen für eine statische Sicherheitsanalyse. Es wird zunächst ein Konzept für die Konsistenzhaltung zwischen diesen vier Modelltypen entwickelt. Für das entwickelte Konzept wurde anhand einer Fallstudie mit vier konkreten Metamodellen in dem Framework Vitruvius eine Konsistenzhaltung implementiert. Für diese wurde auf einer existierenden Konsistenzhaltung zwischen dem Quelltext und der Architekturmodellierung aufgebaut. Diese Implementierung wurde anhand eines Testmodells evaluiert. Diese hat ergeben, dass es machbar ist, anhand des in dieser Arbeit vorgestellten Konzeptes eine Konsistenzhaltung für die Eingabemodelle zu implementieren. Jedoch ist die Implementierung der Regeln aufwändig bei komplexen Abbildungen zwischen den Elementen.

Freitag, 14. Juli 2023, 13:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) David Schulmeister
Titel Hidden Outliers in Manifolds
Vortragstyp Proposal
Betreuer(in) Jose Cribeiro
Vortragsmodus in Präsenz
Kurzfassung Hidden outliers represent instances of disagreement between a full-space and an ensemble. This adversarial nature naturally replicates the subspace behavior that high-dimensional outliers exhibit in reality. Due to this, they have been proven useful for representing complex occurrences like fraud, critical infrastructure failure, and healthcare data, as well as for their use in general outlier detection as the positive class of a self-supervised learner. However, while interesting, hidden outliers' quality highly depends on the number of subspaces selected in the ensemble out of the total possible. Since the number of subspaces increases exponentially with the number of features, this makes high-dimensional applications of Data Analysis, such as Computer Vision, computationally unfeasible. In this thesis, we are going to study the generation of hidden outliers on the embedded data manifold using deep learning techniques to overcome this issue. More precisely, we are going to study the behavior, characteristics, and performance in multiple use-cases of hidden outliers in the data manifold.
Vortragende(r) Denis Wambold
Titel Subspace Generative Adversarial Learning for Unsupervised Outlier Detection
Vortragstyp Proposal
Betreuer(in) Jose Cribeiro
Vortragsmodus in Präsenz
Kurzfassung Outlier detection is an important yet challenging task, especially for unlabeled, high-dimensional, datasets. Due to their self-supervised generative nature, Generative Adversarial Networks (GAN) have proven themselves to be one of the most powerful deep learning methods for outlier detection. However, most state-of-the-art GANs for outlier detection share common limitations. Oftentimes we only achieve great results if the model’s hyperparameters are properly tuned or the underlying network structure is adjusted. This optimization is not possible in practice when the data is unlabeled. If not tuned properly, it is not unusual that a state-of-the-art GAN method is outperformed by simpler shallow methods.

We propose using a GAN architecture with feature ensemble learning to address hyperparameter sensibility and architectural dependency. This follows the success of feature ensembling in mitigating these problems inside other areas of Deep Learning. This thesis will study the optimization problem, training, and tuning of feature ensemble GANs in an unsupervised scenario, comparing it to other deep generative methods in a similar setting.

Freitag, 21. Juli 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Vincenzo Pace
Titel Attention Based Selection of Log Templates for Automatic Log Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus in Präsenz
Kurzfassung Log analysis serves as a crucial preprocessing step in text log data analysis, including anomaly detection in cloud system monitoring. However, selecting an optimal log parsing algorithm tailored to a specific task remains problematic.

With many algorithms to choose from, each requiring proper parameterization, making an informed decision becomes difficult. Moreover, the selected algorithm is typically applied uniformly across the entire dataset, regardless of the specific data analysis task, often leading to suboptimal results.

In this thesis, we evaluate a novel attention-based method for automating the selection of log parsing algorithms, aiming to improve data analysis outcomes. We build on the success of a recent Master Thesis, which introduced this attention-based method and demonstrated its promising results for a specific log parsing algorithm and dataset. The primary objective of our work is to evaluate the effectiveness of this approach across different algorithms and datasets.

Freitag, 18. August 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Aaron Gätje
Titel Graph Attention Network for Injection Molding Process Simulation
Vortragstyp Masterarbeit
Betreuer(in) Daniel Ebi
Vortragsmodus in Präsenz
Kurzfassung Graph Neural Networks (GNNs) have demonstrated great potential for simulating physical systems that can be represented as graphs. However, training GNNs presents unique challenges due to the complex nature of graph data. The focus of this thesis is to examine their learning abilities by developing a GNN-based surrogate model for the injection molding process from materials science. While numerical simulations can accurately model the mold filling with molten plastic, they are computationally expensive and require significant trial-and-error for parameter optimization.

We propose a GNN-based model that can predict the fill times and physical properties of the mold filling process. We model the mold geometry as a static graph and encode the process information into node, edge, and global features. We employ a self-attention mechanism to enhance the learning of the direction and magnitude of the fluid flow. To further enforce the physical constraints and behaviors of the process, we leverage domain knowledge to construct features and loss functions. We train our model on simulation data, using a multi-step loss to capture the temporal dependencies and enable it to iteratively predict the filling for unseen molds. Thereby, we compare our models with different distance-based heuristics and conventional machine learning models as baselines in terms of predictive performance, computational efficiency, and generalization ability. We evaluate our architectural and training choices, and discuss both the potential applications and challenges of using GNNs for surrogate modeling of injection molding.

Vortragende(r) Christoph Batke
Titel Improving SAP Document Information Extraction via Pretraining and Fine-Tuning
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus in Präsenz
Kurzfassung Techniques for extracting relevant information from documents have made significant progress in recent years and became a key task in the digital transformation. With deep neural networks, it became possible to process documents without specifying hard-coded extraction rules or templates for each layout. However, such models typically have a very large number of parameters. As a result, they require many annotated samples and long training times. One solution is to create a basic pretrained model using self-supervised objectives and then to fine-tune it using a smaller document-specific annotated dataset. However, implementing and controlling the pretraining and fine-tuning procedures in a multi-modal setting is challenging. In this thesis, we propose a systematic method that consists in pretraining the model on large unlabeled data and then to fine-tune it with a virtual adversarial training procedure. For the pretraining stage, we implement an unsupervised informative masking method, which improves upon standard Masked-Language Modelling (MLM). In contrast to randomly masking tokens like in MLM, our method exploits Point-Wise Mutual Information (PMI) to calculate individual masking rates based on statistical properties of the data corpus, e.g., how often certain tokens appear together on a document page. We test our algorithm in a typical business context at SAP and report an overall improvement of 1.4% on the F1-score for extracted document entities. Additionally, we show that the implemented methods improve the training speed, robustness and data-efficiency of the algorithm.

Freitag, 15. September 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mohammad Nour Dahi
Titel Schnittstellenkonzept für Hardwaresimulationen zur Co-Simulation mit Software
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Weber
Vortragsmodus in Präsenz
Kurzfassung Hardwaresimulationen dienen dazu, die Hardware zu simulieren und somit das Verhalten der Software auf der Hardware zu testen. Beim Testen von Software, die auf Hardware läuft, entsteht bei jeder Simulation ein Zielkonflikt zwischen Genauigkeit und Geschwindigkeit. Es gibt verschiedene Hardwaresimulationen zur Auswahl, die eine höhere Genauigkeit bieten, aber längere Ausführungszeiten erfordern. Wenn jedoch die Geschwindigkeit der Co-Simulation, die mehrere Simulationen kombiniert, von größter Bedeutung ist, wählt man eine Simulation, die zwar geringere Genauigkeit bietet, aber schneller ausgeführt werden kann. Je nach Zielsetzung erfordert die Co-Simulation unterschiedliche Hardwaresimulationen. Ein Austausch von Hardwaresimulationen kann jedoch aufwändig sein und Anpassungen an der Co-Simulation erfordern. Diese Arbeit zielt darauf ab, eine allgemeine Schnittstelle für Hardwaresimulationen zu entwickeln, die den Wechsel erleichtert, ohne die Co-Simulation zu beeinträchtigen. Eine allgemeine Schnittstelle für alle Hardwaresimulationen ist jedoch nicht realisierbar. Daher erfolgt eine Klassifizierung, um ähnliche Simulationen zu gruppieren und für eine Klasse eine allgemeine Schnittstelle zu entwickeln.

Freitag, 22. September 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Niklas Kuder
Titel Kritische Workflows in der Fertigungsindustrie
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Um mögliche Inkonsistenzen zwischen technischen Modellen und ihren verursachenden Workflows in der Fertigungsindustrie zu identifizieren, wurde der gesamte Fertigungsprozess eines beispielhaften Präzisionsfertigers in einzelne Workflows aufgeteilt. Daraufhin wurden neun Experteninterviews durchgeführt, um mögliche Inkonsistenzen zwischen technischen Modellen zu identifizieren und diese in die jeweiligen verursachenden Workflows zu kategorisieren. Insgesamt wurden 13 mögliche Inkonsistenzen dargestellt und ihre jeweilige Entstehung erläutert. In einer zweiten Interview-Iteration wurden die Experten des Unternehmens erneut zu jeder zuvor identifizierten Inkonsistenz befragt, um die geschätzten Auftrittswahrscheinlichkeiten der Inkonsistenzen und mögliche Auswirkungen auf zuvor durchgeführte, oder darauf folgende Workflows in Erfahrung zu bringen.
Vortragende(r) Robin Schöppner
Titel Using Large Language Models To Analyze Software Architecture Documentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Begrenzte Trainingsdaten stellen eine Herausforderung für Traceability Link Recovery (TLR) und Inconsistency Detection (ID) dar. Große Sprachmodelle (LLMs) können dieses Problem lösen, da sie oft kein spezifisches Training benötigen. In dieser Arbeit erforschen wir verschiedene Techniken und Methoden für den Einsatz von GPT-4 für TLR und ID. Im Vergleich mit State-of-the-Art-Ansätzen erzielen unsere Ansätze beim Unmentioned-Model-Element-ID ähnliche Leistung. In der Disziplin der Missing-Model-Element ID konnten wir ihre Leistung jedoch nicht erreichen. Beim TLR erzielt Chain-of-Thought-Prompting die besten Ergebnisse, schlägt jedoch auch schlechter ab als State-of-the-Art. Die Ergebnisse sind jedoch vielversprechend und es ist anzunehmen, dass fortschrittlichere LLMs und Techniken zu Verbesserungen führen.
Vortragende(r) Edgar Hipp
Titel Verschlüsselung von änderungsbasierten Modellen
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Im Rahmen der Bachelorarbeit wird eine prototypische Implementation für die symmetrische, asymmetrische und Attribute-basierte Ver -und Entschlüsselung von Modelländerungen innerhalb Vitruvius vorgestellt. Vor -und Nachteile, Skalierbarkeit und Performanz dieser Verfahren werden besprochen.

Freitag, 22. September 2023, 11:30 Uhr

iCal (Download)
Ort: TBD
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Julien Aziz
Titel Change-Adaptive Active Learning on Data Streams
Vortragstyp Masterarbeit
Betreuer(in) Marco Heyden
Vortragsmodus in Präsenz
Kurzfassung Data streams are ubiquitous in modern applications such as predictive maintenance or quality control. Data streams can change in unpredictable ways, challenging existing supervised learning algorithms that assume a stationary relationship between input data and labels. Supervised learning algorithms for data streams must therefore "adapt" to changing data distributions. Active learning (AL), a sub-field of supervised learning, aims to reduce the total cost of labeling by identifying the most valuable data points for training. However, existing stream-based AL methods have difficulty adapting to changes in data streams as they rely mainly on the sparsely labeled data and ignore the regionality of changes, resulting in slow change adaptions.

To address these issues, this thesis presents an active learning framework for data streams that adapts to regional changes in the underlying data stream. Our idea is to enrich hierarchical data stream clustering with labeling statistics to measure the regionality and relevance of changes. Using such information in stream-based active learning leads to more effective labeling, resulting in faster change adaption.

Freitag, 29. September 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 6. Oktober 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mona Schulz
Titel (Freiwillige Teilnahme) Abschlussvortrag Praxis der Forschung SS23 II
Vortragstyp Vortrag
Betreuer(in) Kai Marquardt
Vortragsmodus in Präsenz
Kurzfassung Gamify Your Learning Experience -- Möglichkeiten von Gamification Lernprozesse und -erfolge zu visualisieren

Gamification enhances education by boosting motivation and fostering effective learning. This paper explores the link between game design elements and intrinsic motivation in education. Drawing from 24 scholarly papers, it identifies ten key game design elements: badges, points, leaderboards, virtual currency, progress bars, achievements, avatars, concept maps, storytelling, and feedback. To evaluate their impact, a survey using mockups was conducted. Results highlight the popularity of combinations like concept maps with progress bars and points with feedback. The study also uncovers correlations between preferred elements and learner characteristics. By uncovering these insights, the research advances gamification in education and guides tailored approaches for boosting student motivation.

Freitag, 13. Oktober 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 27. Oktober 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 3. November 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tom Hüller
Titel Automated Consistency of Legal and Software Architecture System Specifications for Data Protection Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung Data breaches exposing personal information mean a significant loss of customer trust and leave companies vulnerable to civil lawsuits. This makes identifying problems in early development phases an important part of keeping software development costs predictable and manageable.

In this thesis, we present approaches that allow system architects to extract legal specifications from artifacts created during system design and analyze them for GDPR compliance. We provide a model transformation between a DFD representation and a GDPR metamodel, which aims to model some of the complex requirements of the GDPR. The transformations work in both directions while keeping additional information to allow the architect to make changes to the system on either the architectural or legal side of the transformation. We provide an analysis tool that is able to identify GDPR violations on the GDPR metamodel, allowing analysis on both sides of the transformation.

Mittwoch, 8. November 2023, 15:30 Uhr

iCal (Download)
Ort: Raum 333 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jiangang Huang
Titel Evaluation of a Reverse Engineering Approach in the Context of Component-Based Software Systems
Vortragstyp Bachelorarbeit
Betreuer(in) Yves Kirschner
Vortragsmodus in Präsenz
Kurzfassung This thesis aims to evaluate the component architecture generated by component-based software systems after reverse engineering. The evaluation method involves performing a manual analysis of the respective software systems and then comparing the component architecture obtained through the manual analysis with the results of reverse engineering. The goal is to evaluate a number of parameters, with a focus on correctness, related to the results of reverse engineering. This thesis presents the specific steps and considerations involved in manual analysis. It will also perform manual analysis on selected software systems that have already undergone reverse engineering analysis and compare the results to evaluate the differences between reverse engineering and ground truth. In summary, this paper evaluates the accuracy of reverse engineering by contrasting manual analysis with reverse engineering in the analysis of software systems, and provides some direction and support for the future development of reverse engineering.

Freitag, 17. November 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dennis Steinbuch
Titel Ein Ansatz zur Wiederherstellung von Nachverfolgbarkeitsverbindungen für natürlichsprachliche Softwaredokumentation und Quelltext
Vortragstyp Bachelorarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus in Präsenz
Kurzfassung Wartbarkeit spielt eine zentrale Rolle für die Langlebigkeit von Softwareprojekten. Ein wichtiger Teil der Wartbarkeit besteht darin, dass die natürlichsprachliche Dokumentation des Quelltextes einen guten Einblick in das Projekt und seinen dazugehörigen Quelltext liefert. Zur besseren Wartbarkeit dieser beiden Software-Artefakte besteht die Aufgabe dieser Arbeit darin, Verbindungen zwischen den Elementen dieser beiden Artefakte aufzubauen. Diese Verbindungen heißen Trace Links und können für verschiedene Zwecke der Wartbarkeit genutzt werden. Diese Trace Links ermöglichen zum Beispiel die Inkonsistenzerkennung zwischen den beiden Software-Artefakten oder können auch für verschiedene Analysen benutzt werden. Um diese Trace Links nachträglich aus den beiden Software-Artefakten natürlichsprachlicher Dokumentation und Quelltext zu gewinnen, wird das bereits bestehende ArDoCo Framework benutzt und auf das Software-Artefakt Quelltext erweitert. Ebenfalls werden ArDoCos bestehende Entscheidungskriterien auf den neuen Kontext angepasst. Der neuartige Kontext führt zu Herausforderungen bezüglich der Datenmenge, die durch neue Entscheidungskriterien adressiert werden. Dabei zeugen die Ergebnisse dieser Arbeit eindeutige von Potenzial, weswegen weiter darauf aufgebaut werden sollte.
Vortragende(r) Fabian Reinbold
Titel Entity Recognition in Software Documentation Using Trace Links to Informal Diagrams
Vortragstyp Bachelorarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus in Präsenz
Kurzfassung Natural Language Software Architecture Documentation ( NLSAD ) and Software Architecture Model ( SAM) provide information about a software systems design and qualities. Inconsistencies between these artifacts can negatively impact the comprehension and evolution of the system. ArDoCo is an approach that was proposed in prior work by Keim et al. to find such inconsistencies and relies on Traceability Link Recovery (TLR) between entities in the NLSAD and SAM . ArDoCo searches for Unmentioned Model Elements (UMEs) in the model and Missing Model Elements (MMEs) in the text using the linkage information. ArDoCo’s approach shows promising results but has room for improvement regarding precision due to falsely identified textual entities. This work proposes using informal diagrams from the Software Architecture Documentation (SAD) to improve this. The approach performs an additional TLR between the textual entities and the diagram entities. According to heuristics, the linkage of textual entities and diagram entities is utilized to increase or decrease the confidence in textual entities. The Diagram Text TLR and its impact on ArDoCo’s performance are evaluated separately using the same data set as previous work by Keim et al. The data set was extended to include informal diagrams. The Diagram Text TLR achieves a good F1-score with Optical Character Recognition (OCR) of 0.54. The approach improves the MME detection (0.77→0.94 accuracy) by lowering the amount of falsely identified textual entities (0.39→0.69 precision) with a negligible impact on recall. The UME detection and ArDoCo ’s NLSAD to SAM are slightly positively impacted and continue to perform excellently. The results show that using informal diagrams to improve entity recognition in the text is promising. Room for improvement exists in dealing with issues related to OCR and diagram element processing.
Vortragende(r) Jianan Ye
Titel Traceability Link Recovery for Relations in Natural Language Software Architecture Documentation and Software Architecture Models
Vortragstyp Bachelorarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus in Präsenz
Kurzfassung In software development, software architecture plays a vital role in developing and maintaining software systems. It is communicated through artifacts such as software architecture documentation (SAD) and software architecture models (SAM). However, maintaining consistency and traceability between these artifacts can be challenging. If there are inconsistencies or missing links, it can lead to errors, misunderstandings, and increased maintenance costs. This thesis proposes an approach for recovering traceability links of software architecture relations between natural language SAD and SAM. The approach involves the use of Pre-trained Language Models (PLMs) such as BERT and ChatGPT and supports different extraction modes and prompt engineering techniques for ChatGPT, as well as different model variants and training strategies for BERT. The proposed approach is integrated with ArDoCo, a tool that detects inconsistencies and recovers trace links between software artifacts. ArDoCo is used for pre-processing the SAD text and parsing the SAM, thus facilitating the traceability link recovery process. In order to assess the performance of the framework, a gold standard of SAD and SAM created from open-source projects is utilized. The evaluation shows that the ChatGPT approach has promising results in relation extraction with a recall of 0.81 and in traceability link recovery with an F1-score of 0.83, while BERT-based models struggle due to the lack of domain-specific training data.

Freitag, 17. November 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 237 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Gabriel Gehrig
Titel Enabling the Collaborative Collection of Uncertainty Sources Regarding Confidentiality
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus in Präsenz
Kurzfassung With digitalization in progress, the amount of sensitive data stored in software systems is increasing. However, the confidentiality of this data can often not be guaranteed, as uncertainties with an impact on confidentiality exist, especially in the early stages of software development. As the consideration of uncertainties regarding confidentiality is still novel, there is a lack of awareness of the topic among software architects. Additionally, the existing knowledge is scattered among researchers and institutions, making it challenging to comprehend and utilize for software architects. Current research on uncertainties regarding confidentiality has focused on analyzing software systems to assess the possibilities of confidentiality violations, as well as the development of methods to classify uncertainties. However, these approaches are limited to the researchers’ observed uncertainties, limiting the generalizability of classification systems, the validity of analysis results, and the development of mitigation strategies. This thesis presents an approach to enable the collection and management of knowledge on uncertainties regarding confidentiality, enabling software architects to comprehend better and identify uncertainties regarding confidentiality. Furthermore, the proposed approach strives to enable collaboration between researchers and practitioners to manage the effort to collect the knowledge and maintain it. To validate this approach, a prototype was developed and evaluated with a user study of 17 participants from software engineering, including 7 students, 5 researchers, and 5 practitioners. Results show that the approach can support software architects in identifying and describing uncertainties regarding confidentiality, even with limited prior knowledge, as they could identify and describe uncertainties correctly in a close-to-real-world scenario in 94.4% of the cases.
Vortragende(r) Niklas Heneka
Titel Software Plagiarism Detection on Intermediate Representation
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Source code plagiarism is a widespread problem in computer science education. To counteract this, software plagiarism detectors can help identify plagiarized code. Most state-of-the-art plagiarism detectors are token-based. It is common to design and implement a new dedicated language module to support a new programming language. This process can be time-consuming, furthermore, it is unclear whether it is even necessary. In this thesis, we evaluate the necessity of dedicated language modules for Java and C/C++ and derive conclusions for designing new ones. To achieve this, we create a language module for the intermediate representation of LLVM. For the evaluation, we compare it to two existing dedicated language modules in JPlag. While our results show that dedicated language modules are better for plagiarism detection, language modules for intermediate representations show better resilience to obfuscation attacks.

Freitag, 24. November 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nikolai Prjanikov
Titel Conception and Design of Privacy-preserving Software Architecture Templates
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung The passing of new regulations like the European GDPR has clarified that in the future it will be necessary to build privacy-preserving systems to protect the personal data of its users. This thesis will introduce the concept of privacy templates to help software designers and architects in this matter. Privacy templates are at their core similar to design patterns and provide reusable and general architectural structures which can be used in the design of systems to improve privacy in early stages of design. In this thesis we will conceptualize a small collection of privacy templates to make it easier to design privacy-preserving software systems. Furthermore, the privacy templates will be categorized and evaluated to classify them and assess their quality across different quality dimensions.

Freitag, 1. Dezember 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Janne Wagner
Titel Konzept zum Automatisierten Annotieren Rechtlicher Kommentare an einem DSGVO-Modell
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung Die Einhaltung datenschutzrechtlicher Aspekte sind in der Softwareentwicklung von zunehmender Bedeutung. Um den Prozess der Zusammenarbeit zwischen Softwarearchitekten und Rechtsexperten zu vereinfach und eine selbständigere Arbeitsweise des Softwarearchitekten zu erlangen, wird in dieser Bachelorarbeit ein Konzept zum automatisierten Annotieren rechtlicher Kommentare entwickelt. Im ersten Schritt wird ein Katalog relevanter rechtlicher Kommentare zur DSGVO zusammengestellt, welcher im darauf folgenden Schritt zentraler Bestandteil des Annotationsmechanismus ist. Bei diesem werden die formulierten Kommentare den entsprechenden Modellklassen einer DSGVO-Instanz als Paare zugeordnet und ausgegeben. Durch diese Zuordnung erhält der Softwarearchitekt erste Hinweise auf Datenschutzaspekte, die in seinem Softwaremodell relevant sind und die er im Speziellen berücksichtigen sollte. Darüber hinaus wird er für die DSGVO sensibilisiert und in seiner Modellierung unterstützt.
Vortragende(r) Jean Patrick Mathes
Titel Traceability Link Recovery und Inkonsistenzerkennung zwischen Modellen und informellen Diagrammen mithilfe struktureller Eigenschaften
Vortragstyp Bachelorarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus in Präsenz
Kurzfassung Diagramme können in der Softwareentwicklung eingesetzt werden, um verschiedene Aspekte des Projekts darzustellen und zu dokumentieren. Die Bachelorarbeit stellt einen Ansatz vor, der für Diagramme in Boxen-und-Linien-Form erkennt, ob darin ein Codemodell oder Architekturmodell abgebildet ist. Dann wird ein Graph-Matching-Algorithmus genutzt, um Nachverfolgbarkeitsverbindungen zwischen Diagramm und Modell zu finden. Sowohl die Texte als auch strukturelle Informationen aus Diagramm und Modell werden dabei genutzt. Die Verbindungen werden verwendet, um Inkonsistenzen zwischen Modell und Diagramm zu finden. Da auch die Struktur berücksichtigt wird, können zum Beispiel Änderungen von Namen als solche erkannt werden.

Freitag, 8. Dezember 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nils Niehues
Titel Intelligent Match Merging to Prevent Obfuscation Attacks on Software Plagiarism Detectors
Vortragstyp Masterarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung The increasing number of computer science students has prompted educators to rely on state-of-the-art source code plagiarism detection tools to deter the submission of plagiarized coding assignments. While these token-based plagiarism detectors are inherently resilient against simple obfuscation attempts, recent research has shown that obfuscation tools empower students to easily modify their submissions, thus evading detection. These tools automatically use dead code insertion and statement reordering to avoid discovery. The emergence of ChatGPT has further raised concerns about its obfuscation capabilities and the need for effective mitigation strategies.

Existing defence mechanisms against obfuscation attempts are often limited by their specificity to certain attacks or dependence on programming languages, requiring tedious and error-prone reimplementation. In response to this challenge, this thesis introduces a novel defence mechanism against automatic obfuscation attacks called match merging. It leverages the fact that obfuscation attacks change the token sequence to split up matches between two submissions so that the plagiarism detector discards the broken matches. Match merging reverts the effects of these attacks by intelligently merging neighboring matches based on a heuristic designed to minimize false positives. Our method’s resilience against classic obfuscation attacks is demonstrated through evaluations on diverse real-world datasets, including undergrad assignments and competitive coding challenges, across six different attack scenarios. Moreover, it significantly improves detection performance against AI-based obfuscation. What sets our method apart is its language- and attack-independence while its minimal runtime overhead makes it seamlessly compatible with other defence mechanisms.

Vortragende(r) Martina Huber
Titel Überführen von Systemarchitekturmodellen in die datenschutzrechtliche Domäne durch Anwenden der DSGVO
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung Um die im digitalen Raum allgegenwärtigen, personenbezogenen Daten vor Missbrauch zu schützen hat die EU eine Datenschutzgrundverordnung eingeführt. An diese müssen sich sämtliche Unternehmen halten, die mit personenbezogenen Daten im digitalen Raum hantieren. Die Implementierung dieser in Softwaresystemen stellt sich aber durch die Involvierung der juristischen Domäne als aufwändig dar. In dieser Bachelorarbeit wurde daher eine Transformation aus Palladio in ein GDPR-Modell entwickelt, um die Kommunikation der verschiedenen Fachbereiche zu erleichtern.

Freitag, 8. Dezember 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 333 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nicolas Scherzinger
Titel Punktesysteme in Online Kursen: Eine Möglichkeit zur Förderung von Interesse mit Hilfe von Gamification
Vortragstyp Bachelorarbeit
Betreuer(in) Kai Marquardt
Vortragsmodus in Präsenz
Kurzfassung Gamification ist ein neuartiger Ansatz um Motivation bei Lernenden zu steigern. In dieser Studie wurde die Wirksamkeit eines Punktesystems auf Motivation und Ineteresse von Lernenden in einem Onlinekurs untersucht. Verglichen mit einer früheren Studie ohne Punktesystem zeigte sich, dass die Punkte allein das Interesse nicht signifikant erhöhten. Auch eine Anpassung der Punkteskala führte nicht zu einem positiven Effekt. Mögliche Gründe und Implikationen werden diskutiert.

Freitag, 19. Januar 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Elias Hofele
Titel Identifying Security Requirements in Natural Language Documents
Vortragstyp Masterarbeit
Betreuer(in) Sophie Corallo
Vortragsmodus in Präsenz
Kurzfassung The automatic identification of requirements, and their classification according to their security objectives, can be helpful to derive insights into the security of a given system. However, this task requires significant security expertise to perform. In this thesis, the capability of modern Large Language Models (such as GPT) to replicate this expertise is investigated. This requires the transfer of the model's understanding of language to the given specific task. In particular, different prompt engineering approaches are combined and compared, in order to gain insights into their effects on performance. GPT ultimately performs poorly for the main tasks of identification of requirements and of their classification according to security objectives. Conversely, the model performs well for the sub-task of classifying the security-relevance of requirements. Interestingly, prompt components influencing the format of the model's output seem to have a higher performance impact than components containing contextual information.

Freitag, 2. Februar 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Evgeni Cholakov
Titel Modeling and analyzing zero-trust architectures taking into account various quality objectives
Vortragstyp Masterarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung Integrating a Zero Trust Architecture (ZTA) into a system is a step towards establishing a good defence against external and internal threats. However, there are different approaches to integrating a ZTA which vary in the used components, their assembly and allocation. The earlier in the development process those approaches are evaluated and the right one is selected the more costs and effort can be reduced. In this thesis, we analyse the most prominent standards and specifications for integrating a ZTA and derive a general model by extracting core ZTA tasks and logical components. We model these using the Palladio Component Model to enable assessing ZTAs at design time. We combine performance and security annotations to create a single model which supports both performance and security analysis. By doing this we also assess the possibility of combining performance and security analyses.

Freitag, 8. März 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Ian Winter
Titel Context Generation for Code and Architecture Changes Using Large Language Models
Vortragstyp Masterarbeit
Betreuer(in) Yves Kirschner
Vortragsmodus in Präsenz
Kurzfassung While large language models have succeeded in generating code, the struggle is to modify large existing code bases. The Generated Code Alteration (GCA) process is designed, implemented, and evaluated in this thesis. The GCA process can automatically modify a large existing code base, given a natural language task. Different variations and instantiations of the process are evaluated in an industrial case study. The code generated by the GCA process is compared to code written by human developers. The language model-based GCA process was able to generate 13.3 lines per error, while the human baseline generated 65.8 lines per error. While the generated code did not match the overall human performance in modifying large code bases, it could still provide assistance to human developers.

Freitag, 15. März 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Patrick Mehl
Titel Architektur-basierte Wartbarkeitsvorhersage von Metamodellen mittels Evolutionsszenarien
Vortragstyp Masterarbeit
Betreuer(in) Lars König
Vortragsmodus in Präsenz
Kurzfassung Im Rahmen der Masterarbeit „Architektur-basierte Wartbarkeitsvorhersage von Metamodellen mittels Evolutionsszenarien“ wurden Metamodelle für die Modellierung von Metamodell-Architekturen sowie Evolutionsszenarien, die Änderungen auf Metamodell-Architekturen beschreiben, entworfen. Das Metamodell für Metamodell-Architekturen ermöglicht die Modellierung von komplexen Metamodellen auf einer abstrakteren Ebene analog zur Software-Architektur. Für beide Metamodelle wurden Editoren für die Modellierung entwickelt. Zusätzlich wurde ein Werkzeug zur Vorhersage der Wartbarkeit, basierend auf einem Evolutionsszenario, entwickelt. Die entwickelten Werkzeuge wurden anschließend auf ihre Benutzbarkeit über eine Benutzerstudie sowie auf Funktionalität über Fallstudien analysiert.
Vortragende(r) Simon Ding
Titel Automatisierung von GUI-Tests für Webanwendungen durch den Einsatz großer Sprachmodelle
Vortragstyp Masterarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus in Präsenz
Kurzfassung Die Testautomatisierung ist ein entscheidender Schritt zur Steigerung der Softwarequalität und zur Minimierung von Fehlern. Automatisierte Tests können durch die schnelle und effiziente Identifikation und Behebung von Problemen Zeit und Kosten sparen. Ein entscheidender Aspekt der Softwarequalität ist die Benutzeroberfläche, welche die primäre Schnittstelle für den Anwender darstellt. Für diesen Zweck eignen sich explorative Tests, die Anwendungszustände erkunden. Das effiziente Durchforsten der Anwendungszustände gestaltet sich jedoch als Herausforderung, da die Anzahl der möglichen Pfade durch die Anwendung mit jeder zusätzlichen Interaktion exponentiell ansteigt. Ein vielversprechender Ansatz ist der Einsatz von großen Sprachmodellen (LLMs) zur Generierung von Benutzeraktionen. In dieser Arbeit wird dieser Ansatz in einem realistischen Szenario erprobt und untersucht, wie effektiv LLMs darin sind, Zustände zu erreichen, die mit konventionellen Methoden schwer zugänglich sind.

Freitag, 3. Mai 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Valerii Zhyla
Titel Performance Modeling of Distributed Computing
Vortragstyp Masterarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung
Vortragende(r) Hristo Klechorov
Titel Symbolic Performance Modeling
Vortragstyp Masterarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung

Freitag, 7. Juni 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Melisa Demirhan
Titel Concept and Implementation of a Delta Chain
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung
Vortragende(r) Thorben Willimek
Titel Definition einer Referenzarchitektur für organisationsübergreifende Zusammenarbeit in modellbasierten Entwicklungsprozessen zur Wahrung des geistigen Eigentums
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung
Vortragende(r) Katrin Quellmalz
Titel Erzeugung von Verschlüsselungsregeln auf Modelländerungen aus Zugriffskontrollregeln auf Modellelementen
Vortragstyp Masterarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung

Freitag, 7. Juni 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 333 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dieu Lam Vo
Titel Analyzing Efficiency of High-Performance Applications
Vortragstyp Bachelorarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung
Vortragende(r) Daniel Scheerer
Titel Analyzing Scientific Workflow Management Systems
Vortragstyp Bachelorarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung
Vortragende(r) Robin Maisch
Titel Preventing Refactoring Attacks on Software Plagiarism Detection through Graph-Based Structural Normalization
Vortragstyp Masterarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung TBD

Freitag, 14. Juni 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Alina Valta
Titel Optimierung des Migrationsverfahrens in modellbasierten E/E-Entwicklungswerkzeugen durch bedarfsorientierte Prozessierung der Historie von Bestandsmodellen
Vortragstyp Masterarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung
Vortragende(r) Julian Roßkothen
Titel Source-Target-Mapping von komplexen Relationen in Modell-zu-Modell-Transformationen
Vortragstyp Masterarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung

Freitag, 21. Juni 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Odilo Bügler
Titel Extraktion von Label-Propagationsfunktionen für Informationsflussanalysen aus architekturellen Verhaltensbeschreibungen
Vortragstyp Bachelorarbeit
Betreuer(in) Christopher Gerking
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung

Freitag, 19. Juli 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nesta Bentum
Titel Exploring Modern IDE Functionalities for Consistency Preservation
Vortragstyp Masterarbeit
Betreuer(in) Lars König
Vortragsmodus in Präsenz
Kurzfassung TBA
Vortragende(r) Niklas Ewald
Titel Retrieval-Augmented Large Language Models for Traceability Link Recovery
Vortragstyp Masterarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus in Präsenz
Kurzfassung Kurzfassung