Freitag, 1. Januar 2021, 11:30 Uhr


Ort: Raum 348 (Gebäude 50.34)


Freitag, 14. Januar 2022, 12:00 Uhr




Vortragende(r) Philipp Schumacher
Titel Ein Datensatz handgezeichneter UML-Klassendiagramme für maschinelle Lernverfahren
Vortragstyp Bachelorarbeit
Betreuer(in) Dominik Fuchß
Vortragsmodus online
Kurzfassung Klassendiagramme ermöglichen die grafische Modellierung eines Softwaresystems.

Insbesondere zu Beginn von Softwareprojekten entstehen diese als handgezeichnete Skizzen auf nicht-digitalen Eingabegeräten wie Papier oder Whiteboards. Das Festhalten von Skizzen dieser Art ist folglich auf eine fotografische Lösung beschränkt. Eine digitale Weiterverarbeitung einer auf einem Bild gesicherten Klassendiagrammskizze ist ohne manuelle Rekonstruktion in ein maschinell verarbeitbares Diagramm nicht möglich.

Maschinelle Lernverfahren können durch eine Skizzenerkennung eine automatisierte Transformation in ein digitales Modell gewährleisten. Voraussetzung für diese Verfahren sind annotierte Trainingsdaten. Für UML-Klassendiagramme sind solche bislang nicht veröffentlicht.

Diese Arbeit beschäftigt sich mit der Erstellung eines Datensatzes annotierter UML-Klassendiagrammskizzen für maschinelle Lernverfahren. Hierfür wird eine Datenerhebung, ein Werkzeug für das Annotieren von UML-Klassendiagrammen und eine Konvertierung der Daten in ein Eingabeformat für das maschinelle Lernen präsentiert. Der annotierte Datensatz wird im Anschluss anhand seiner Vielfältigkeit, Detailtiefe und Größe bewertet. Zur weiteren Evaluation wird der Einsatz des Datensatzes an einem maschinellen Lernverfahren validiert. Das Lernverfahren ist nach dem Training der Daten in der Lage, Knoten mit einem F1-Maß von über 99%, Textpositionen mit einem F1-Maß von über 87% und Kanten mit einem F1-Maß von über 71% zu erkennen. Die Evaluation zeigt folglich, dass sich der Datensatz für den Einsatz maschineller Lernverfahren eignet.

Vortragende(r) Dennis Bäuml
Titel Entwicklung zuverlässiger KI-basierter Software-Systeme in Anwesenheit von Unsicherheit
Vortragstyp Masterarbeit
Betreuer(in) Max Scheerer
Vortragsmodus online
Kurzfassung Die rapide Zunahme der Rechenleistung heutiger Computer hat die Nutzung von KI in alltäglichen Anwendungen wesentlich erleichtert. Aufgrund der statistischen Natur von KI besteht deshalb eine gewisse Unsicherheit. Diese Unsicherheit kann direkten Einfluss auf die Zuverlässigkeit eines Software-Systems haben. Im Rahmen der Arbeit „Entwicklung zuverlässiger KI-basierter Software-Systeme in Anwesenheit von Unsicherheit“ wird ein Vorgehen präsentiert, das solche Problematiken auf Architekturebene analysieren kann. Das Vorgehen nutzt dafür modellbasierte Qualitätsanalysen, welche im Kontext von Palladio realisiert wurde. Zusätzlich wird ein Vorgehen zur Sensitivitätsanalyse vorgestellt, um ein KI-Netz anhand von veränderten Unsicherheiten abzutasten. Mithilfe dieser Werkzeuge kann eine Zuverlässigkeitsvorhersage auf dem Modell des Software-Systems getätigt werden. Dabei konnte für zwei Unterschiedliche KI-Netze gezeigt werden, dass deren Sensitivitätsmodelle direkten Einfluss auf die Zuverlässigkeit des gesamten Software-Systems haben. Durch den Einsatz von Architekturvorlagen konnte auch gezeigt werden, dass die ebenfalls Einfluss auf die Zuverlässigkeit des gesamten Software-Systems haben.

Freitag, 20. Januar 2023, 14:00 Uhr


Ort: Raum 010 (Gebäude 50.34)


Vortragende(r) Benjamin Jochum
Titel Surrogate models for crystal plasticity - predicting stress, strain and dislocation density over time (Defense)
Vortragstyp Masterarbeit
Betreuer(in) Daniel Betsche
Vortragsmodus online
Kurzfassung In this work, we build surrogate models to approximate the deformation behavior of face-centered cubic crystalline structures under load, based on the continuum dislocation dynamics (CDD) simulation. The CDD simulation is a powerful tool for modeling the stress, strain, and evolution of dislocations in a material, but it is computationally expensive. Surrogate models provide approximations of the results at a much lower computational cost. We propose two approaches to building surrogate models that only require the simulation parameters as inputs and predict the sequences of stress, strain, and dislocation density. The approaches comprise the use of time-independent multi-target regression and recurrent neural networks. We demonstrate the effectiveness by providing an extensive study of different implementations of both approaches. We find that, based on our dataset, a gradient-boosted trees model making time-independent predictions performs best in general and provides insights into feature importance. The approach significantly reduces the computational cost while still producing accurate results.

Freitag, 21. Januar 2022, 12:00 Uhr


Ort: Raum 348 (Gebäude 50.34)


Vortragende(r) Fatma Chebbi
Titel Architecture Extraction for Message-Based Systems from Dynamic Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Snigdha Singh
Vortragsmodus online
Kurzfassung Distributed message-based microservice systems architecture has seen considerable evolution in recent years, making them easier to extend, reuse and manage. But, the challenge lies in the fact that such software systems are constituted of components that are more and more autonomous, distributed, and are deployed with different technologies. On the one hand such systems through their flexible architecture provide a lot of advantages. On the other hand, they are more likely to be changed fast and thus make their architecture less reliable and up-to-date. Architecture reconstruction method can support to obtain the updated architecture at different phases of development life cycle for software systems. However, the existing architecture reconstruction methods do not support the extraction for message-based microservice systems. In our work we try to handle this problem by extending an existing approach of architecture model extraction of message-based microservice systems from their tracing data (source code instrumented) in a way that such systems can be supported. Through our approach, we provide a way to automatically extract performance models for message-based microservice systems through dynamic analysis. We then evaluate our approach with the comparison of extracted model with the manual model with statistical metrics such as precision, recall and F1-score in order to find out the accuracy of our extracted model.
Vortragende(r) Jan-Philipp Töberg
Titel Modelling and Enforcing Access Control Requirements for Smart Contracts
Vortragstyp Masterarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Smart contracts are software systems employing the underlying blockchain technology to handle transactions in a decentralized and immutable manner. Due to the immutability of the blockchain, smart contracts cannot be upgraded after their initial deploy. Therefore, reasoning about a contract’s security aspects needs to happen before the deployment. One common vulnerability for smart contracts is improper access control, which enables entities to modify data or employ functionality they are prohibited from accessing. Due to the nature of the blockchain, access to data, represented through state variables, can only be achieved by employing the contract’s functions. To correctly restrict access on the source code level, we improve the approach by Reiche et al. who enforce access control policies based on a model on the architectural level.

This work aims at correctly enforcing role-based access control (RBAC) policies for Solidity smart contract systems on the architectural and source code level. We extend the standard RBAC model by Sandhu, Ferraiolo, and Kuhn to also incorporate insecure information flows and authorization constraints for roles. We create a metamodel to capture the concepts necessary to describe and enforce RBAC policies on the architectural level. The policies are enforced in the source code by translating the model elements to formal specifications. For this purpose, an automatic code generator is implemented. To reason about the implemented smart contracts on the source code level, tools like solc-verify and Slither are employed and extended. Furthermore, we outline the development process resulting from the presented approach. To evaluate our approach and uncover problems and limitations, we employ a case study using the three smart contract software systems Augur, Fizzy and Palinodia. Additionally, we apply a metamodel coverage analysis to reason about the metamodel’s and the generator’s completeness. Furthermore, we provide an argumentation concerning the approach’s correct enforcement. This evaluation shows how a correct enforcement can be achieved under certain assumptions and when information flows are not considered. The presented approach can detect 100% of manually introduced violations during the case study to the underlying RBAC policies. Additionally, the metamodel is expressive enough to describe RBAC policies and contains no unnecessary elements, since approximately 90% of the created metamodel are covered by the implemented generator. We identify and describe limitations like oracles or public variables.

Freitag, 21. Januar 2022, 11:30 Uhr




Vortragende(r) Tobias Hombücher
Titel Canonical Monte Carlo Dependency Estimation
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Kurzfassung Dependency estimation is a crucial task in data analysis and finds applications in, e.g., data understanding, feature selection and clustering. This thesis focuses on Canonical Dependency Analysis, i.e., the task of estimating the dependency between two random vectors, each consisting of an arbitrary amount of random variables. This task is particularly difficult when (1) the dimensionality of those vectors is high, and (2) the dependency is non-linear. We propose Canonical Monte Carlo Dependency Estimation (cMCDE), an extension of Monte Carlo Dependency Estimation (MCDE, Fouché 2019) to solve this task. Using Monte Carlo simulations, cMCDE estimates dependency based on the average discrepancy between empirical conditional distributions. We show that cMCDE inherits the useful properties of MCDE and compare it to existing competitors. We also propose and apply a method to leverage cMCDE for selecting features from very high-dimensional features spaces, demonstrating cMCDE’s practical relevance.

Freitag, 28. Januar 2022, 12:00 Uhr


Ort: MS Teams


Vortragende(r) Felix Rittler
Titel Entwicklung und Analyse von Auto-Encodern für GUI-basiertes Software-Testing durch KI
Vortragstyp Masterarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus online
Kurzfassung Das Testen von Software über deren graphischen Benutzeroberflächen wird mit zunehmender Komplexität der Software (und damit einhergehender Variabilität in der Benutzeroberfläche) aufwendiger. Rein manuelles Testen durch den Entwickler und das Schreiben von Testfällen sind oft nicht mehr möglich. Daher sind neue Ansätze aus dem Bereich des maschinellen Lernens erforderlich, um diese Arbeiten zu erleichtern. Ein Lösungsansatz kann der Einsatz neuronaler Netze sein, die am Forschungszentrum Informatik (FZI) entwickelt werden. Als Eingabedaten sollen dabei Zustände einer graphischen Benutzeroberfläche als Bild dienen, welche jedoch zu komplex sind, um in Echtzeit von diesen Netzen verarbeitet zu werden. In dieser Masterarbeit wurde untersucht, inwiefern eine Kompression der Daten durch den Encoder-Teil von Autoencodern stattfinden kann. Hierzu wurden vier verschiedene Autoencoder-Architekturen entwickelt und analysiert, inwiefern sie sich für diesen Zweck eignen. Um die Autoencoder zu trainieren, wurde ein Trainingsdatengenerator in Rust unter Verwendung von dort vorhandenen GUI-Toolkits als Mock-Applikation einer realen GUI entwickelt. Der Trainingsdatengenerator eignet sich sehr gut zum Training der Autoencoder, da er sehr passgenau Trainingsdaten generieren kann. Aufgrund des frühen Stadiums der verwendeten Werkzeuge traten jedoch während der Entwicklung Fehler auf, die die Entwicklung hemmten. Für diese wurden Workarounds entwickelt, die teilweise die Handhabung des Generators erschweren. Darüber hinaus lässt sich feststellen, dass der Aufwand zur exakten Nachbildung einer Applikation als Mock sehr hoch ist.

Bezüglich der Kompression von Informationen über Benutzeroberflächen durch die Autoencoder waren die Ergebnisse dagegen vielversprechend, da die Testdaten auch in hoher Auflösung von 900 x 935 Pixeln mit hoher Genauigkeit rekonstruiert werden konnten. Erste Experimente ergaben, dass die Autoencoder darüber hinaus Fähigkeiten entwickeln, Applikationen mit ähnlichem Farbschema oder ähnlicher Designsprache zu kodieren und wiederzugeben. Ein erstes Fazit über die Fähigkeiten zur Generalisierung fällt daher ebenso positiv aus. Die Genauigkeit der Reproduktion sinkt, wenn die Eingabe farblich oder designtechnisch stark von den Trainingsdaten abweicht.

Freitag, 4. Februar 2022, 12:00 Uhr




Vortragende(r) Atilla Ateş
Titel Konsistenzerhaltung von Feature-Modellen durch externe Sichten
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus online
Kurzfassung Bei der Produktlinienentwicklung werden Software-Produktlinien(SPLs) meistens Featureorientiert strukturiert und organisiert. Um die gemeinsamen und variablen Merkmale der Produkte einer Produktlinie darzustellen, können Feature-Modelle verwendet werden. Ein Software-Werkzeug zum Erstellen und Editieren von Feature-Modellen ist FeatureIDE, welche die Zustände der Feature-Modelle als Dateien der Extensible Markup Language (XML) persistiert. Bei der Entwicklung von Software-Systemen existieren allerdings mehrere unterschiedliche Artefakte. Diese können sich Informationen mit den Feature-Modellen teilen. Um diese Artefakte und Modelle gemeinsam automatisch evolvieren zu können, werden Konsistenzerhaltungsansätze benötigt. Solche Ansätze sind jedoch nicht mit den persistierten XML-Dateien kompatibel.

In dieser Arbeit implementieren wir eine bidirektionale Modell-zu-Text-Transformation, welche die als XML-Dateien persistierten Zustände der FeatureIDE-Modelle in geeignete Modellrepräsentationen überführt, um daraus feingranulare Änderungssequenzen abzuleiten. Diese können zur deltabasierten Konsistenzerhaltung verwendet werden. Für die Modellrepräsentation verwenden wir ein bestehendes Metamodell für Variabilität. Zur Ableitung der Änderungssequenzen wird ein existierendes Konsistenzerhaltungsframework eingesetzt. Wir validieren die Korrektheit der Transformation mithilfe von Round-Trip-Tests. Dabei zeigen wir, dass die in dieser Arbeit implementierte Transformation alle geteilten Informationen zwischen FeatureIDE und dem Variabilitäts-Metamodell korrekt transformiert. Zudem können mithilfe der in dieser Arbeit implementierten Transformation und mit dem verwendeten Konsistenzerhatlungsframework zu 94,44% korrekte feingranulare Änderungssequenzen aus den als XML-Datei persistierten Zuständen der FeatureIDE-Modelle abgeleitet werden.

Freitag, 11. Februar 2022, 12:00 Uhr




Vortragende(r) Kevin Haag
Titel Automated Classification of Software Engineering Papers along Content Facets
Vortragstyp Bachelorarbeit
Betreuer(in) Angelika Kaplan
Vortragsmodus online
Kurzfassung With existing search strategies, specific paper contents can only be searched indirectly. Keywords are used to describe the searched content as accurately as possible but many of the results are not related to what was searched for. A classification of these contents, if automated, could extend the search process and thereby allow to specify the searched content directly and enhance current state of scholarly communication.

In this thesis, we investigated the automatic classification of scientific papers in the Software Engineering domain. In doing so, a classification scheme of paper contents with regard to Research Object, Statement, and Evidence was consolidated. We then investigate in a comparative analysis the machine learning algorithms Naïve Bayes, Support Vector Machine, Multi-Layer Perceptron, Logistic Regression, Decision Tree, and BERT applied to the classification task.

Freitag, 25. Februar 2022, 11:30 Uhr




Vortragende(r) Maximilian Georg
Titel Review of data efficient dependency estimation
Vortragstyp Proposal
Betreuer(in) Bela Böhnke
Vortragsmodus online
Kurzfassung The amount and complexity of data collected in the industry is increasing, and data analysis rises in importance. Dependency estimation is a significant part of knowledge discovery and allows strategic decisions based on this information.

There are multiple examples that highlight the importance of dependency estimation, like knowing there exists a correlation between the regular dose of a drug and the health of a patient helps to understand the impact of a newly manufactured drug. Knowing how the case material, brand, and condition of a watch influences the price on an online marketplace can help to buy watches at a good price. Material sciences can also use dependency estimation to predict many properties of a material before it is synthesized in the lab, so fewer experiments are necessary.

Many dependency estimation algorithms require a large amount of data for a good estimation. But data can be expensive, as an example experiments in material sciences, consume material and take time and energy. As we have the challenge of expensive data collection, algorithms need to be data efficient. But there is a trade-off between the amount of data and the quality of the estimation. With a lack of data comes an uncertainty of the estimation. However, the algorithms do not always quantify this uncertainty. As a result, we do not know if we can rely on the estimation or if we need more data for an accurate estimation.

In this bachelor's thesis we compare different state-of-the-art dependency estimation algorithms using a list of criteria addressing these challenges and more. We partly developed the criteria our self as well as took them from relevant publications. The existing publications formulated many of the criteria only qualitative, part of this thesis is to make these criteria measurable quantitative, where possible, and come up with a systematic approach of comparison for the rest.

From 14 selected criteria, we focus on criteria concerning data efficiency and uncertainty estimation, because they are essential for lowering the cost of dependency estimation, but we will also check other criteria relevant for the application of algorithms. As a result, we will rank the algorithms in the different aspects given by the criteria, and thereby identify potential for improvement of the current algorithms.

We do this in two steps, first we check general criteria in a qualitative analysis. For this we check if the algorithm is capable of guided sampling, if it is an anytime algorithm and if it uses incremental computation to enable early stopping, which all leads to more data efficiency.

We also conduct a quantitative analysis on well-established and representative datasets for the dependency estimation algorithms, that performed well in the qualitative analysis. In these experiments we evaluate more criteria: The robustness, which is necessary for error-prone data, the efficiency which saves time in the computation, the convergence which guarantees we get an accurate estimation with enough data, and consistency which ensures we can rely on an estimation.

Freitag, 18. März 2022, 12:00 Uhr


Ort: MS Teams


Vortragende(r) Niko Benkler
Titel Architecture-based Uncertainty Impact Analysis for Confidentiality
Vortragstyp Masterarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus online
Kurzfassung In times of highly interconnected systems, confidentiality becomes a crucial security quality attribute. As fixing confidentiality breaches becomes costly the later they are found, software architects should address confidentiality early in the design time. During the architectural design process, software architects take Architectural Design Decisions (ADDs) to handle the degrees of freedom, i.e. uncertainty. However, ADDs are often subjected to assumptions and unknown or imprecise information. Assumptions may turn out to be wrong so they have to be revised which re-introduces uncertainty. Thus, the presence of uncertainty at design time prevents from drawing precise conclusions about the confidentiality of the system. It is, therefore, necessary to assess the impact of uncertainties at the architectural level before making a statement about confidentiality. To address this, we make the following contributions: First, we propose a novel uncertainty categorization approach to assess the impact of uncertainties in software architectures. Based on that, we provide an uncertainty template that enables software architects to structurally derive types of uncertainties and their impact on architectural element types for a domain of interest. Second, we provide an Uncertainty Impact Analysis (UIA) that enables software architects to specify which architectural elements are directly affected by uncertainties. Based on structural propagation rules, the tool automatically derives further architectural elements which are potentially affected. Using the large-scale open-source contract tracing application called Corona Warn App (CWA) as a case study, we show that the UIA achieves 100% recall while maintaining 44%-91% precision when analyzing the impact of uncertainties on architectural elements.

Freitag, 1. April 2022, 11:30 Uhr


Ort: MS Teams


Vortragende(r) Felix Griesau
Titel Data-Preparation for Machine-Learning Based Static Code Analysis
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus online
Kurzfassung Static Code Analysis (SCA) has become an integral part of modern software development, especially since the rise of automation in the form of CI/CD. It is an ongoing question of how machine learning can best help improve SCA's state and thus facilitate maintainable, correct, and secure software. However, machine learning needs a solid foundation to learn on. This thesis proposes an approach to build that foundation by mining data on software issues from real-world code. We show how we used that concept to analyze over 4000 software packages and generate over two million issue samples. Additionally, we propose a method for refining this data and apply it to an existing machine learning SCA approach.
Vortragende(r) Patrick Spiesberger
Titel Verfeinerung des Angreifermodells und Fähigkeiten in einer Angriffspfadgenerierung
Vortragstyp Bachelorarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus online
Kurzfassung Eine Möglichkeit zur Wahrung der Vertraulichkeit in der Software-Entwicklung ist die frühzeitige Erkennung von potentiellen Schwachstellen und einer darauf folgenden Eindämmung von möglichen Angriffspfaden. Durch Analysen anhand von Software-Architektur Modellen können frühzeitig Angriffspunkte gefunden und bereits vor der Implementierung behoben werden. Dadurch verbessert sich nicht nur die Wahrung von Vertraulichkeit, sondern erhöht auch die Qualität der Software und verhindert kostenintensive Nachbesserungen in späteren Phasen. Im Rahmen dieser Arbeit wird eine Erweiterung hinsichtlich der Vertraulichkeit des Palladio-Komponenten-Modells (PCM) Angreifermodell verfeinert, welches den Umgang mit zusammengesetzten Komponenten ermöglicht, Randfälle der attributbasierten Zugriffskontrolle (ABAC) betrachtet und die Modellierung und Analyse weiterer Aspekte der Mitigation erlaubt. Die Evaluation erfolgte mithilfe einer dafür angepassten Fallstudie, welche eine mobile Anwendung zum Buchen von Flügen modelliert. Das Ergebnis der Evaluation ergab ein zufriedenstellendes F1-Maß.

Freitag, 22. April 2022, 11:30 Uhr


Ort: Raum 348 (Gebäude 50.34)


Vortragende(r) Hatem Nouri
Titel On the Utility of Privacy Measures for Battery-Based Load Hiding
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus in Präsenz
Kurzfassung Hybrid presentation :

Battery based load hiding gained a lot of popularity in recent years as an attempt to guarantee a certain degree of privacy for users in smart grids. Our work evaluates a set of the most common privacy measures for BBLH. For this purpose we define logical natural requirements and score how well each privacy measure complies to each requirement. We achieve this by scoring the response for load profile altering (e.g. noise addition) using measures of displacement. We also investigate the stability of privacy measures toward load profile length and number of bins using specific synthetic data experiments. Results show that certain private measures fail badly to one or many requirements and therefore should be avoided.

Vortragende(r) Niels Modry
Titel Theory-guided Load Disaggregation in an Industrial Environment
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus in Präsenz
Kurzfassung The goal of Load Disaggregation (or Non-intrusive Load Monitoring) is to infer the energy consumption of individual appliances from their aggregated consumption. This facilitates energy savings and efficient energy management, especially in the industrial sector.

However, previous research showed that Load Disaggregation underperforms in the industrial setting compared to the household setting. Also, the domain knowledge available about industrial processes remains unused.

The objective of this thesis was to improve load disaggregation algorithms by incorporating domain knowledge in an industrial setting. First, we identified and formalized several domain knowledge types that exist in the industry. Then, we proposed various ways to incorporate them into the Load Disaggregation algorithms, including Theory-Guided Ensembling, Theory-Guided Postprocessing, and Theory-Guided Architecture. Finally, we implemented and evaluated the proposed methods.

Freitag, 29. April 2022, 11:30 Uhr


Ort: Raum 348 (Gebäude 50.34)


Vortragende(r) Sebastian Weber
Titel Co-Simulation von Hardware und Software im Palladio Komponentenmodell
Vortragstyp Masterarbeit
Betreuer(in) Jörg Henß
Vortragsmodus online
Kurzfassung Das Palladio Komponentenmodell (PCM) ermöglicht die Modellierung und Simulation der Qualitätseigenschaften eines Systems aus komponentenbasierter Software und für die Ausführung gewählter Hardware. Stehen dabei bereits Teile des Systems zur Verfügung können diese in die Co-Simulation von Workload, Software und Hardware integriert werden, um weitere Anwendungsgebiete für das PCM zu ermöglichen oder die Anwendung in bestehenden zu verbessern.

Die Beiträge dieser Arbeit sind das Erarbeiten von sechs verschiedenen Ansätzen zur Anpassung des PCM für unterschiedliche Anwendungsgebiete und deren Einstufung anhand von Bewertungskriterien. Für den dabei vielversprechendsten Ansatz wurde ein detailliertes Konzept entwickelt und prototypisch umgesetzt. Dieser Ansatz, ein Modell im PCM mittels einer feingranularen Hardwaresimulation zu parametrisieren, wird in Form des Prototyps bezüglich seiner Umsetzbarkeit, Erweiterbarkeit und Vollständigkeit evaluiert. Die Evaluation der prototypischen Umsetzung erfolgt unter anderem anhand der Kriterien Benutzbarkeit, Genauigkeit und Performance, die in Relation zum PCM betrachtet werden. Der Prototyp ermöglicht die Ausführung einer Hardwaresimulation mit im PCM spezifizierten Parametern, die Extraktion dabei gemessener Leistungsmerkmale und deren direkte Verwendung in einer Simulation des PCM.

Vortragende(r) Jonas Koch
Titel Verbesserung von Worteinbettungs-basierter Rückverfolgbarkeitsanalyse durch Konzeptwissen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus in Präsenz
Kurzfassung Anforderungsrückverfolgbarkeit, also das Auffinden von Umsetzungen oder Beschreibungen von Anforderungen in anderen Software-Artefakten, spielt eine wichtige Rolle bei der Pflege und Weiterentwicklung großer Softwaresysteme. So können automatisierte Anforderungsrückverfolgungsverfahren beispielsweise dabei helfen Implementierungen von Anforderungen zu finden. Bei diesen Verfahren können allerdings Probleme auftreten, wenn Anforderung und Quelltextstelle viele unterschiedliche Worte enthalten. In dieser Arbeit wird untersucht, ob die Performanz des automatisierten Anforderungsrückverfolgungsverfahrens FTLR durch Einbindung von hinter den Begriffen der Anforderungen stehenden Konzepten und Themen zu Anforderungen verbessert werden kann. Hierfür wurden mehrere Verfahren zur Konzeptanreicherung sowie verschiedene Einbindungen der gefundenen Konzepte in FTLR entworfen und analysiert. Hierzu wurden Konzepte durch den Einsatz von Informationen aus Wissensgraphen und Verfahren zur Themenmodellierung/Themenbeschriftung angereicht. Durch die Einbindung der gefundenen Konzepte verbesserte sich der MAP-Wert um bis zu 4 % und der F1-Wert um bis zu 3,8 %.

Freitag, 29. April 2022, 11:30 Uhr


Ort: Raum 010 (Gebäude 50.34)


Vortragende(r) Anton Winter
Titel Reducing Measurements of Voltage Sensitivity via Uncertainty-Aware Predictions
Vortragstyp Bachelorarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung Due to the energy transition towards weather-dependent electricity sources like wind and solar energy, as well as new notable loads like electric vehicle charging, the voltage quality of the electrical grid suffers. So-called Smart Transformers (ST) can use Voltage Sensitivity (VS) information to control voltage, frequency, and phase in order to enhance the voltage quality. Acquiring this VS information is currently costly, since you have to synthetically create an output variability in the grid, disturbing the grid even further. In this thesis, I propose a method based on Kalman Filters and Neural Networks to predict the VS, while giving a confidence interval of my prediction at any given time. The data for my prediction derives from a grid simulation provided by Dr. De Carne from the research center Energy Lab 2.0.
Vortragende(r) Thomas Frank
Titel Tabular Data Augmentation for Mixed Data
Vortragstyp Proposal
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung Augmentation techniques can be helpful, for instance, to improve the performance of a weak predictor or to satisfy privacy constraints. Our plan is to devise and compare augmentation pipelines on mixed data.
Vortragende(r) Elizaveta Danilova
Titel Wichtigkeit von Merkmalen für die Klassifikation von SAT-Instanzen (Proposal)
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus in Präsenz
Kurzfassung SAT gehört zu den wichtigsten NP-schweren Problemen der theoretischen Informatik, weshalb die Forschung vor allem daran interessiert ist, besonders effiziente Lösungsverfahren dafür zu finden. Deswegen wird eine Klassifizierung vorgenommen, indem ähnliche Probleminstanzen zu Instanzfamilien gruppiert werden, die man mithilfe von Verfahren des maschinellen Lernens automatisieren will. Die Bachelorarbeit beschäftigt sich unter anderem mit folgenden Themen: Mit welchen (wichtigsten) Eigenschaften kann eine Instanz einer bestimmten Familie zugeordnet werden? Wie erstellt man einen guten Klassifikator für dieses Problem? Welche Gemeinsamkeiten haben Instanzen, die oft fehlklassifiziert werden? Wie sieht eine sinnvolle Familieneinteilung aus?

Freitag, 6. Mai 2022, 11:30 Uhr


Ort: Raum 348 (Gebäude 50.34)


Vortragende(r) Patrick Deubel
Titel Investigating Variational Autoencoders and Mixture Density Recurrent Neural Networks for Code Coverage Maximization
Vortragstyp Masterarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus online
Kurzfassung Graphical User Interfaces (GUIs) are a common interface to control software. Testing the graphical elements of GUIs is time-consuming for a human tester because it requires interacting with each element, in each possible state that the GUI can be in. Instead, automated approaches are desired, but they often require many interactions with the software to improve their method. For computationally-intensive tasks, this can become infeasible. In this thesis, I investigate the usage of a reinforcement learning (RL) framework for the task of automatically maximizing the code coverage of desktop GUI software using mouse clicks. The framework leverages two neural networks to construct a simulation of the software. An additional third neural network controls the software and is trained on the simulation. This avoids the possibly costly interactions with the actual software. Further, to evaluate the approach, I developed a desktop GUI software on which the trained networks try to maximize the code coverage. The results show that the approach achieves a higher coverage compared to a random tester when considering a limited amount of interactions. However, for longer interaction sequences, it stagnates, while the random tester increases the coverage further, and surpasses the investigated approach. Still, in comparison, both do not reach a high coverage percentage. Only random testers, that use a list of clickable widgets for the interaction selection, achieved values of over 90% in my evaluation.
Vortragende(r) Daniel Jungkind
Titel Wissensanreicherung von Begriffen im Quelltext
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus in Präsenz
Kurzfassung Anforderungsrückverfolgung spielt im Bereich der Softwarewartung eine große Rolle. Worteinbettungsbasierte Verfahren zur Anforderungsrückverfolgung nutzen Wörter, die in Anforderungen und Quelltext vorkommen, um Rückverfolgbarkeitsverbindungen herzustellen. Semantisch äquivalente aber sprachlich unterschiedliche Formulierungen können dies erschweren. Wissen über derartige semantische Zusammenhänge zwischen verschiedenen Begriffen kann helfen, die Rückverfolgbarkeit zu verbessern. Diese Arbeit hat zum Ziel, in Quelltext vorkommende natürlichsprachliche Begriffe mit Wissen in Form von semantisch verwandten Begriffen anzureichern, um worteinbettungsbasierte Anforderungsrückverfolgung zu verbessern. Hierzu werden zunächst DBpedia-Artikel bestimmt, welche den Bedeutungen der Begriffe im Quelltext entsprechen. Daraufhin werden die Verbindungen dieser DBpedia-Artikel zu weiteren Artikeln dazu genutzt, um Begriffe zu identifizieren, die das gemeinsame Thema der Eingabe beschreiben. Hierzu werden Kategorien- und Oberbegriffsbeziehungen genutzt, um einen DBpedia-Subgraphen aufzubauen und in diesem Zusammenhangskomponenten zu identifizieren. Zentrale Knoten in diesen Zusammenhangskomponenten liefern dabei Kandidaten für die Themenbeschriftung.

Durch das Hinzufügen dieser Themenbeschriftungen konnten auf den Datensätzen eTour und eAnci Verbesserungen der F1-Werte von bis zu +9.4 % für das Bestimmen von Rückverfolgbarkeitsverbindungen erzielt werden. Dabei lagen die Verbesserungen der Präzisionswerte zwischen +1.5 % und +11.5 %.

Donnerstag, 12. Mai 2022, 13:00 Uhr


Ort: Raum 348 (Gebäude 50.34)


Vortragende(r) Thomas Weber
Titel Entwurf und Umsetzung von Zugriffskontrolle in der Sichtenbasierten Entwicklung
Vortragstyp Masterarbeit
Betreuer(in) Heiko Klare
Vortragsmodus in Präsenz
Kurzfassung Um der steigenden Komplexität technischer Systeme zu begegnen, werden in ihrer Entwicklung sichtenbasierte Entwicklungsprozesse eingesetzt. Die dabei definierten Sichten zeigen nur die für ein bestimmtes Informationsbedürfnis relevanten Daten über das System, wie die Architektur, die Implementierung oder einen Ausschnitt davon und reduzieren so die Menge an Informationen und vereinfachen dadurch die Arbeit mit dem System. Neben dem Zweck der Informationsreduktion kann auch eine Einschränkung des Zugriffs aufgrund fehlender Zugriffsberechtigungen notwendig sein. Die Notwendigkeit ergibt sich beispielsweise bei der organisationsübergreifenden Zusammenarbeit zur Umsetzung vertraglicher Vereinbarungen. Um die Einschränkung des Zugriffs umsetzen zu können, wird eine Zugriffskontrolle benötigt. Bestehende Arbeiten nutzen eine Zugriffskontrolle für die Erzeugung einer Sicht. Die Definition weiterer Sichten darauf ist nicht vorgesehen. Außerdem fehlt eine allgemeine Betrachtung einer Integration einer Zugriffskontrolle in einen sichtenbasierten Entwicklungsprozess. Daher stellen wir in dieser Arbeit das Konzept einer Integration einer rollenbasierten Zugriffskontrolle in einen sichtenbasierten Entwicklungsprozess für beliebige Systeme vor. Mit dem Konzept ermöglichen wir die feingranulare Definition und Auswertung von Zugriffsrechten für einzelne Modellelemente für beliebige Metamodelle. Das Konzept implementieren wir prototypisch in Vitruv, einem Framework für sichtenbasierte Entwicklung. Wir evaluieren diesen Prototypen hinsichtlich seiner Funktionalität mithilfe von Fallstudien. Die Zugriffskontrolle konnten wir dabei für verschiedene Fallstudien erfolgreich einsetzen. Außerdem diskutieren wir die Integrierbarkeit des Prototypen in einen allgemeinen sichtenbasierten Entwicklungsprozess.

Freitag, 13. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nathan Hagel
Titel Modellierung und Simulation von dynamischen Container-basierten Software-Architekturen in Palladio
Vortragstyp Bachelorarbeit
Betreuer(in) Jörg Henß
Vortragsmodus online
Kurzfassung Mit dem Palladio Komponentenmodell (PCM) lassen sich Softwaresysteme modellieren und simulieren. Moderne verteilte Software-Systeme werden jedoch nicht mehr einfach statisch deployed, sondern es wird ein gewünschter Zustand definiert, der mithilfe einer Kontrollschleife dann eingehalten werden soll. Das passiert dann bspw. durch das Starten oder Stoppen von Containern und Pods.

In dieser Arbeit wurde eine Erweiterung des PCM um die Konzepte von Containerorchestrierungswerkzeugen wie Kubernetes erarbeitet und umgesetzt. Zusätzlich wurde ein Konzept erarbeitet um dynamische Containerbasierte Systeme zu simulieren. Es wurde dabei insbesondere die Allokation bzw. Reallokation von Pods zur Simulationszeit betrachtet. Abschließend wurde die Modellerweiterung evaluiert.

Freitag, 13. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Manuel Müllerschön
Titel Developing a Framework for Mining Temporal Data from Twitter as Basis for Time-Series Correlation Analysis
Vortragstyp Proposal
Betreuer(in) Fabian Richter
Vortragsmodus in Präsenz
Kurzfassung In the last decade, ample research has been produced regarding the value of user-generated data from microblogs as a basis for time series analysis in various fields.In this context, the objective of this thesis is to develop a domain-agnostic framework for mining microblog data (i.e., Twitter). Taking the subject related postings of a time series (e.g., inflation) as its input, the framework will generate temporal data sets that can serve as basis for time series analysis of the given target time series (e.g., inflation rate).

To accomplish this, we will analyze and summarize the prevalent research related to microblog data-based forecasting and analysis, with a focus on the data processing and mining approach. Based on the findings, one or several candidate frameworks are developed and evaluated by testing the correlation of their generated data sets against the target time series they are generated for.

While summative research on microblog data-based correlation analysis exists, it is mainly focused on summarizing the state of the field. This thesis adds to the body of research by applying summarized findings and generating experimental evidence regarding the generalizability of microblog data mining approaches and their effectiveness.

Vortragende(r) Moritz Teichner
Titel Standardized Real-World Change Detection Data
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung The reliable detection of change points is a fundamental task when analysing data across many fields, e.g., in finance, bioinformatics, and medicine.

To define “change points”, we assume that there is a distribution, which may change over time, generating the data we observe. A change point then is a change in this underlying distribution, i.e., the distribution coming before a change point is different from the distribution coming after. The principled way to compare distributions, and to find change points, is to employ statistical tests.

While change point detection is an unsupervised problem in practice, i.e., the data is unlabelled, the development and evaluation of data analysis algorithms requires labelled data. Only few labelled real world data sets are publicly available and many of them are either too small or have ambiguous labels. Further issues are that reusing data sets may lead to overfitting, and preprocessing (e.g., removing outliers) may manipulate results. To address these issues, van den Burg et al. publish 37 data sets annotated by data scientists and ML researchers and use them for an assessment of 14 change detection algorithms. Yet, there remain concerns due to the fact that these are labelled by hand: Can humans correctly identify changes according to the definition, and can they be consistent in doing so?

The goal of this Bachelor's thesis is to algorithmically label their data sets following the formal definition and to also identify and label larger and higher-dimensional data sets, thereby extending their work. To this end, we leverage a non-parametric hypothesis test which builds on Maximum Mean Discrepancy (MMD) as a test statistic, i.e., we identify changes in a principled way. We will analyse the labels so obtained and compare them to the human annotations, measuring their consistency with the F1 score. To assess the influence of the algorithmic and definition-conform annotations, we will use them to reevaluate the algorithms of van den Burg et al. and compare the respective performances.

Freitag, 20. Mai 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Jonathan Schenkenberger
Titel Architectural Generation of Context-based Attack Paths
Vortragstyp Masterarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus online
Kurzfassung In industrial processes (Industry 4.0) and other fields in our lives like the energy or health sector, the confidentiality of data becomes increasingly important. For the protection of confidential information on critical systems, it is crucial to be able to find relevant attack paths in different access-control contexts to a critical element. In order to minimize costs, it is important to already consider this issue in the design phase of the software architecture. There are already approaches considering the topic of attack path generation. However, they do not consider software architecture modeling or they do not consider both vulnerabilities and access control mechanisms. Hence, this thesis presents an approach for finding all potential attack paths in a software architecture model considering access control and vulnerabilities. However, all attack paths are often to many, so the approach presented here introduces and utilizes meaningful filter criteria based on wide-spread vulnerability classification standards.
Vortragende(r) Limanan Nursalim
Titel Automated Test Selection for CI Feedback on Model Transformation Evolution
Vortragstyp Masterarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus online
Kurzfassung The development of the transformation model also comes with the appropriate system-level testing to verify its changes. Due to the complex nature of the transformation model, the number of tests increases as the structure and feature description become more detailed. However, executing all test cases for every change is costly and time-consuming. Thus, it is necessary to conduct a selection for the transformation tests. In this presentation, you will be introduced to a change-based test prioritization and transformation test selection approach for early fault detection.

Freitag, 3. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 3. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Haßberg
Titel Development of an Active Learning Approach for One Class Classifi cation using Bayesian Uncertainty
Vortragstyp Masterarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung In One-Class classification, the classifier decides if points belong to a specific class. In this thesis, we propose an One-Class classification approach, suitable for active learning, that models for each point, a prediction range in which the model assumes the points state to be. The proposed classifier uses a Gaussian process. We use the Gaussian processes prediction range to derive a certainty measure, that considers the available labeled points for stating its certainty. We compared this approach against baseline classifiers and show the correlation between the classifier's uncertainty and misclassification ratio.

Freitag, 24. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Kevin Werber
Titel Assessing Word Similarity Metrics For Traceability Link Recovery
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus online
Kurzfassung The software development process usually involves different artifacts that each describe different parts of the whole software system. Traceability Link Recovery is a technique that aids the development process by establishing relationships between related parts from different artifacts. Artifacts that are expressed in natural language are more difficult for machines to understand and therefore pose a challenge to this link recovery process. A common approach to link elements from different artifacts is to identify similar words using word similarity measures. ArDoCo is a tool that uses word similarity measures to recover trace links between natural language software architecture documentation and formal architectural models. This thesis assesses the effect of different word similarity measures on ArDoCo. The measures are evaluated using multiple case studies. Precision, recall, and encountered challenges for the different measures are reported as part of the evaluation.

Freitag, 24. Juni 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Hombücher
Titel Generalized Monte Carlo Dependency Estimation and Anytime Supervised Filter Feature Selection
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung Dependency estimation is an important problem in statistics and is applied frequently in data science. As modern datasets can be very large, dependency estimators should be efficient and leverage as much information from data as possible. Traditional bivariate and multivariate dependency estimators are only capable to estimate dependency between two or n one-dimensional datasets, respectively. In this thesis, we are interested in how to develop estimators that can estimate the dependency between n multidimensional datasets, which we call "generalized dependency estimators".

We extend the recently introduced methodology of Monte Carlo Dependency Estimation (MCDE), an effective and efficient traditional multivariate dependency estimator. We introduce Generalized Monte Carlo Dependency Estimation (gMCDE) and focus in particular on the highly relevant subproblem of generalized dependency estimation, known as canonical dependency estimation, which aims to estimate the dependency between two multidimensional datasets. We demonstrate the practical relevance of Canonical Monte Carlo Dependency Estimation (cMCDE) by applying it to feature selection, introducing two methodologies for anytime supervised filter feature selection, Canonical Monte Carlo Feature Selection (cMCFS) and Canonical Multi Armed Bandit Feature Selection (cMABFS). cMCFS directly applies the methodology of cMCDE to feature selection, while cMABFS treats the feature selection problem as a multi armed bandit problem, which utilizes cMCDE to determine relevant features.

Vortragende(r) Jonas Zoll
Titel Injection Molding Simulation based on Graph Neural Networks (GNNs)
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Ebi
Vortragsmodus in Präsenz
Kurzfassung Numerical filling simulations are an important tool for the development of injection molding parts. Existing simulations rely on numerical solvers based on the finite element method. These solvers are reliable and precise, but very computationally expensive even on simple part geometries.

In this thesis, we aim to develop a faster injection molding simulation based on Graph Neural Networks (GNNs) as a surrogate model. Our approach learns a simulation as a composition of three functions: an encoder, a processor and a decoder. The encoder takes in a graph representation of a 3D geometry of an injection molding part and returns a numeric embedding of each node in the graph. The processor updates the embeddings of each node multiple times based on its neighbors. The decoder then decodes the final embeddings of each node into physically meaningful variables, say, the fill state of the node. Our model can predict the progression of the flow front during a time step with a fixed size. To simulate a full mold filling process, our model is applied sequentially until the entire mold is filled. Our architecture is applicable to any kind of material, geometry and injection process parameters. We evaluate our architecture by its accuracy and runtime when predicting node properties. We also evaluate our models transfer learning ability on a real world injection molding part.

Vortragende(r) Mingzhe Tao
Titel Meta-learning for Encoder Selection
Vortragstyp Proposal
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung In the real world, mixed-type data is commonly used, which means it contains both categorical and numerical data. However, most algorithms can only learn from numerical data. This makes the selection of encoder becoming very important. In this presentation, I will present an approach by using ideas from meta-learning to predict the performance from the meta-features and encoders.

Freitag, 1. Juli 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Anne-Kathrin Hermann
Titel Bewertung der Qualität von Low-Code-Programmen für Datenfluss-Beschreibungen
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Kühn
Vortragsmodus in Präsenz
Kurzfassung Das Messen der Qualität von Datenfluss-Low-Code-Programmen und auch das Erstellen qualitativ hochwertiger Programme ist schwer. Es entstehen viele Programme mit Anzeichen für schlechte Qualität, die zwar Ergebnisse liefern, aber schlecht wartbar und unverständlich sind. Im Laufe dieser Arbeit wurde die Übertragbarkeit, von klassischen Codemetriken und Graphmetriken überprüft und durchgeführt, um zu evaluieren, welche Metriken sich für die Messung der Qualität von Low-Code-Programmen eignen?
Vortragende(r) Quang Dao
Titel Coreference Resolution for Software Architecture Documentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung In software engineering, software architecture documentation plays an important role. It contains many essential information regarding reasoning and design decisions. Therefore, many activities are proposed to deal with documentation for various reasons, e.g., extract- ing information or keeping different forms of documentation consistent. These activities often involve automatic processing of documentation, for example traceability link recovery (TLR). However, there can be problems for automatic processing when coreferences are present in documentation. A coreference occurs when two or more mentions refer to the same entity. These mentions can be different and create ambiguities, for example when there are pronouns. To overcome this problem, this thesis proposes two contributions to resolve coreferences in software architecture documentation.

The first contribution is to explore the performance of existing coreference resolution models for software architecture documentation. The second is to divide coreference resolution into many more specific type of resolutions, like pronoun resolution, abbreviation resolution, etc.

Freitag, 15. Juli 2022, 13:06 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 22. Juli 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Philipp Uhrich
Titel Empirical Identification of Performance Influences of Configuration Options in High-Performance Applications
Vortragstyp Masterarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus online
Kurzfassung Many modern high-performance applications are highly-configurable software systems that provide hundreds or even thousands of configuration options. System administrators or application users need to understand all these options and their impacts on the software performance to choose suitable configuration values. To understand the influence of configuration options on the run-time characteristics of a software system, users can use performance prediction models, but building performance prediction models for highly-configurable high-performance applications is expensive. However, not all configuration options, which a software system offers, are performance-relevant. Removing these performance-irrelevant configuration options from the modeling process can reduce the construction cost. In this thesis, we explore and analyze two different approaches to empirically identify configuration options that are not performance-relevant and can be removed from the performance prediction model. The first approach reuses existing performance modeling methods to create much cheaper prediction models by using fewer samples and then analyzing the models to identify performance-irrelevant configuration options. The second approach uses white-box knowledge acquired through dynamic taint analysis to systematically construct the minimal number of required experiments to detect performance-irrelevant configuration options. In the evaluation with a case study, we show that the first approach identifies performance-irrelevant configuration options but also produces misclassifications. The second approach did not perform to our expectations. Further improvement is necessary.

Freitag, 12. August 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Maximilian Georg
Titel A Comparative Analysis of Data-Efficient Dependency Estimators
Vortragstyp Bachelorarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus online
Kurzfassung Dependency estimation is a significant part of knowledge

discovery and allows strategic decisions based on this information. Many dependency estimation algorithms require a large amount of data for a good estimation. But data can be expensive, as an example experiments in material sciences, consume material and take time and energy. As we have the challenge of expensive data collection, algorithms need to be data efficient. But there is a trade-off between the amount of data and the quality of the estimation. With a lack of data comes an uncertainty of the estimation. However, the algorithms do not always quantify this uncertainty. As a result, we do not know if we can rely on the estimation or if we need more data for an accurate estimation. In this bachelor’s thesis we compare different state-of-the-art dependency estimation algorithms using a list of criteria addressing the above-mentioned challenges. We partly developed the criteria our self as well as took them from relevant publications. Many of the existing criteria where only formulated qualitative, part of this thesis is to make these criteria measurable quantitative, where possible, and come up with a systematic approach of comparison for the rest. We also conduct a quantitative analysis of the dependency estimation algorithms by experiment on well-established and representative data sets that performed well in the qualitative analysis.

Freitag, 19. August 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Sönke Jendral
Titel Refining Domain Knowledge for Domain Knowledge Guided Machine Learning
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus online
Kurzfassung Advances in computational power have led to increased in interest in machine learning techniques. Sophisticated approaches now solve various prediction problems in the domain of healthcare. Traditionally, machine learning techniques integrate domain knowledge implicitly, by statistically extracting dependencies from their input data. Novel approaches instead integrate domain knowledge from taxonomies as an external component.

However, these approaches assume the existence of high quality domain knowledge and do not acknowledge issues stemming from low quality domain knowledge. It is thus unclear what low quality domain knowledge in the context of Domain Knowledge Guided Machine Learning looks like and what its causes are. Further it is not clearly understood what the impact of low quality domain knowledge on the machine learning task is and what steps can be taken to improve the quality in this context.

In this Thesis we describe low quality domain knowledge and show examples of such knowledge in the context of a sequential prediction task. We further propose methods for identifying low quality domain knowledge in the context of Domain Knowledge Guided Machine Learning and suggest approaches for improving the quality of domain knowledge in this context.

Vortragende(r) Elizaveta Danilova
Titel Wichtigkeit von Merkmalen für die Klassifikation von SAT-Instanzen (Abschlusspräsentation)
Vortragstyp Bachelorarbeit
Betreuer(in) Jakob Bach
Vortragsmodus in Präsenz
Kurzfassung Das SAT-Problem ist ein zentrales Problem der theoretischen Informatik. Wegen seiner NP-Schwere sind Forscher insbesondere an effizienten Lösungsverfahren dafür interessiert. Die Kenntnis der Familie einer Instanz kann zur Problemlösung beitragen. In unserer Arbeit haben wir untersucht, wie SAT-Instanzen durch maschinelles Lernen effizient klassifiziert werden können und welche Verfahren sich am besten dazu eignen. Außerdem betrachteten wir, welche Merkmale die Instanzen am eindeutigsten charakterisieren und wie sich die Anzahl der verwendeten Merkmale auf das Klassifikationsergebnis auswirkt. Letztlich untersuchten wir, welche Familien vermehrt fehlklassifiziert werden und was die Gründe dafür sind.

Freitag, 26. August 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Manuel Müllerschön
Titel Deriving Twitter Based Time Series Data for Correlation Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Fabian Richter
Vortragsmodus in Präsenz
Kurzfassung Twitter has been identified as a relevant data source for modelling purposes in the last decade. In this work, our goal was to model the conversational dynamics of inflation development in Germany through Twitter Data Mining. To accomplish this, we summarized and compared Twitter data mining techniques for time series data from pertinent research. Then, we constructed five models for generating time series from topic-related tweets and user profiles of the last 15 years. Evaluating the models, we observed that several approaches like modelling for user impact or adjusting for automated twitter accounts show promise. Yet, in the scenario of modelling inflation expectation dynamics, these more complex models could not contribute to a higher correlation between German CPI and the resulting time series compared to a baseline approach.

Freitag, 2. September 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Benjamin Jochum
Titel Surrogate models for crystal plasticity - predicting stress, strain and dislocation density over time
Vortragstyp Proposal
Betreuer(in) Daniel Betsche
Vortragsmodus in Präsenz
Kurzfassung When engineers design structures, prior knowledge of how they will react to external forces is crucial. Applied forces introduce stress, leading to dislocations of individual molecules that ultimately may cause material failure, like cracks, if the internal strain of the material exceeds a certain threshold. We can observe this by applying increasing physical forces to a structure and measure the stress, strain and the dislocation density curves.

Finite Elemente Analysis (FEM) enables the simulation of a material deforming under external forces, but it comes with very high computational costs. This makes it unfeasible to conduct a large number of simulations with varying parameters. In this thesis, we use neural network based sequence models to build a data-driven surrogate model that predicts stress, strain and dislocation density curves produced by an FEM-simulation based on the simulation’s input parameters.

Freitag, 9. September 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Moritz Teichner
Titel Standardized Real-World Change Detection Data Defense
Vortragstyp Bachelorarbeit
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung The reliable detection of change points is a fundamental task when analyzing data across many fields, e.g., in finance, bioinformatics, and medicine.

To define “change points”, we assume that there is a distribution, which may change over time, generating the data we observe. A change point then is a change in this underlying distribution, i.e., the distribution coming before a change point is different from the distribution coming after. The principled way to compare distributions, and thus to find change points, is to employ statistical tests.

While change point detection is an unsupervised problem in practice, i.e., the data is unlabeled, the development and evaluation of data analysis algorithms requires labeled data. Only a few labeled real-world data sets are publicly available, and many of them are either too small or have ambiguous labels. Further issues are that reusing data sets may lead to overfitting, and preprocessing may manipulate results. To address these issues, Burg et al. publish 37 data sets annotated by data scientists and ML researchers and assess 14 change detection algorithms on them. Yet, there remain concerns due to the fact that these are labeled by hand: Can humans correctly identify changes according to the definition, and can they be consistent in doing so?

Mittwoch, 21. September 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Martin Wittlinger
Titel Identification and refactoring of bad smells in model-based analyses
Vortragstyp Masterarbeit
Betreuer(in) Sandro Koch
Vortragsmodus in Präsenz
Kurzfassung In der modernen Softwareentwicklung sind modellbasierte Analysen weit verbreitet. Software-Metriken wie die Vorhersage der Cache-Nutzung haben heute ein breites Anwendungsspektrum. Diese Analysen bedürfen ebenso wie traditionelle objektorientierte Programme der Pflege. Bad Smells und ihre Auswirkungen in objektorientiertem Quellcode sind gründlich erforscht worden. Dies fehlt bei der modellbasierten Analyse. Wir haben uns mit objektorientierten Bad Smells beschäftigt und nach ähnlichen Problemen in der modellbasierten Analyse gesucht. Schlechte Gerüche in der Analyse sind ein Faktor, der zur Qualität der Analysesoftware beiträgt. Eine geringere Qualität erschwert den Entwicklungsprozess der Analyse. Wir haben zehn neue Bad Smells entdeckt. Wir haben Algorithmen zur Identifizierung und zum Refaktorisieren für sie entwickelt. Wir stellen Implementierungen der Identifizierungsalgorithmen zur Verfügung und bewerten sie an- hand realer Software. Wir haben versucht, Bad Smells in bestehender Analysesoftware wie Camunda zu erkennen. Wir haben diese Bad Smells in den vorhandenen Analysen gefunden.

Freitag, 23. September 2022, 12:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 14. Oktober 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Pascal Krieg
Titel Preventing Code Insertion Attacks on Token-Based Software Plagiarism Detectors
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Some students tasked with mandatory programming assignments lack the time or dedication to solve the assignment themselves. Instead, they plagiarize a peer’s solution by slightly modifying the code. However, there exist numerous tools that assist in detecting these kinds of plagiarism. These tools can be used by instructors to identify plagiarized programs. The most used type of plagiarism detection tools is token-based plagiarism detectors. They are resilient against many types of obfuscation attacks, such as renaming variables or whitespace modifications. However, they are susceptible to inserting lines of code that do not affect the program flow or result.

The current working assumption was that the successful obfuscation of plagiarism takes more effort and skill than solving the assignment itself. This assumption was broken by automated plagiarism generators, which exploit this weakness. This work aims to develop mechanisms against code insertions that can be directly integrated into existing token-based plagiarism detectors. For this, we first develop mechanisms to negate the negative effect of many types of code insertion. Then we implement these mechanisms prototypically into a state-of-the-art plagiarism detector. We evaluate our implementation by running it on a dataset consisting of real student submissions and automatically generated plagiarism. We show that with our mechanisms, the similarity rating of automatically generated plagiarism increases drastically. Consequently, the plagiarism generator we use fails to create usable plagiarisms.

Freitag, 21. Oktober 2022, 11:30 Uhr

iCal (Download)
Ort: MS Teams
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Philipp Klaus
Titel Entity Linking für Softwarearchitekturdokumentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Softwarearchitekturdokumentationen enthalten Fachbegriffe aus der Domäne der Softwareentwicklung. Wenn man diese Begriffe findet und zu den passenden Begriffen in einer Datenbank verknüpft, können Menschen und Textverarbeitungssysteme diese Informationen verwenden, um die Dokumentation besser zu verstehen. Die Fachbegriffe in Dokumentationen entsprechen dabei Entitätserwähnungen im Text.

In dieser Ausarbeitung stellen wir unser domänenspezifisches Entity-Linking-System vor. Das System verknüpft Entitätserwähnungen innerhalb von Softwarearchitekturdokumentationen zu den zugehörigen Entitäten innerhalb einer Wissensbasis. Das System enthält eine domänenspezifische Wissensbasis, ein Modul zur Vorverarbeitung und ein Entity-Linking-System.

Vortragende(r) Raoul Teichmann
Titel Entwicklung einer Entwurfszeit-DSL zur Formalisierung von Runtime Adaptationsstrategien für SAS zum Zweck der Strategie-Optimierung
Vortragstyp Bachelorarbeit
Betreuer(in) Martina Rapp-Sieger
Vortragsmodus online
Kurzfassung Softwaresysteme der heutigen Zeit werden zunehmend komplexer und unterliegen immer

mehr variierenden Bedingungen. Dadurch gewinnen selbst-adaptive Systeme an Bedeutung, da diese sich neuen Bedingungen dynamisch anpassen können, indem sie Veränderungen an sich selbst vornehmen. Domänenspezifische Modellierungssprachen (DSL) zur Formalisierung von Adaptionsstrategien stellen ein wichtiges Mittel dar, um den Entwurf von Rückkopplungsschleifen selbst-adaptiver Softwaresysteme zu modellieren und zu optimieren. Hiermit soll eine Bachelorarbeit vorgeschlagen werden, die sich mit der Fragestellung befasst, wie eine Optimierung von Adaptionsstrategien in einer DSL zur Entwurfszeit beschrieben werden kann.

Donnerstag, 10. November 2022, 10:00 Uhr

iCal (Download)
Ort: Raum 333 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Denis Priss
Titel A Mobility Case Study Framework for Validating Uncertainty Impact Analyses regarding Confidentiality
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus in Präsenz
Kurzfassung Vertraulichkeit ist eine wichtige Sicherheitsanforderung an Informationssysteme. Bereits im frühen Entwurf existieren Ungewissheiten, sowohl über das System als auch dessen Umgebung, die sich auf die Vertraulichkeit auswirken können. Es existieren Ansätze, die Softwarearchitektinnen und Softwarearchitekten bei der Untersuchung von Ungewissheiten und deren Auswirkung auf die Vertraulichkeit unterstützen und somit den Aufwand reduzieren. Diese Ansätze wurden jedoch noch nicht umfangreich evaluiert. Bei der Evaluierung ist ein einheitliches Vorgehen wichtig, um konsistente Ergebnisse zu erhalten. Obwohl es allgemein Arbeiten in diesem Bereich gibt, sind diese nicht spezifisch genug, um die Anforderung zu erfüllen.

In dieser Ausarbeitung stellen wir ein Rahmenwerk vor, das diese Lücke schließen soll. Dieses Rahmenwerk besteht aus einem Untersuchungsprozess und einem Fallstudienprotokoll, diese sollen Forschenden helfen, weitere Fallstudien zur Validierung der Ungewissheits-Auswirkungs-Analysen strukturiert durchzuführen und damit auch Ungewissheiten und deren Auswirkung auf Vertraulichkeit zu erforschen. Wir evaluieren unseren Ansatz, indem wir eine Mobilitätsfallstudie durchführen.

Vortragende(r) Yakup Evli
Titel A Mobility Case Study for Attack Propagation Analyses
Vortragstyp Bachelorarbeit
Betreuer(in) Maximilian Walter
Vortragsmodus online
Kurzfassung An existing architectural attack propagation analysis considers vulnerability analysis in software architecture. The analysis is using access control policies together with the vulnerabilities and their combinations to propagate through the system. This phenomenon has to be investigated thoroughly in a real-life context to be able to make conclusions about metrics, e.g. accuracy. However, a concrete approach to achieve the investigation of Attack Propagation Analyses in a real-life context is missing. This work aims to close this gap with “A Mobility Case Study for Validating Attack Propagation Analyses”. In order to achieve validity, conventional properties of case studies in software engineering were identified. Afterward, the end result, in form of a software model, was reviewed according to these properties. This review has revealed that all properties were fulfilled, however not in the highest degree of fulfillment. A discussion about this is held in this thesis.
Vortragende(r) Tizian Bitschi
Titel Uncertainty-aware Confidentiality Analysis Using Architectural Variations
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Hahner
Vortragsmodus in Präsenz
Kurzfassung Wenn man Softwaresysteme auf Verletzungen der Vertraulichkeit untersuchen will, führen Ungewissheiten zu falschen Aussagen über die Architektur. Vertraulichkeitsaussagen können zur Entwurfszeit kaum getroffen werden, ohne diese Ungewissheiten zu behandeln. Wir entwickeln einen Kombinationsalgorithmus, der Informationen über die Ungewissheiten bei der Analyse der Architekturszenarien berücksichtigt und daraus eine Aussage über die Vertraulichkeit des Systems treffen kann.

Wir evaluieren, ob es möglich ist, ein System mit zusätzlichen Informationen nicht-binär zu bewerten, wie genau der Kombinationsalgorithmus ist und ob die zusätzlichen Informationen so minimal bleiben, dass ein Softwarearchitekt den Kombinationsalgorithmus überhaupt verwenden kann.

Freitag, 11. November 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Laura Traub
Titel Kopplung statischer Architekturanalysen und musterbasierten Quelltextanalysen in der Domäne der Softwaresicherheit
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Die Vernetzung von Software über das Internet und andere Kanäle stellt eine grundsätzliche Gefahr für die Sicherheit von Daten und Systemen dar. Gelangen Informationen in die falschen Hände können enorme wirtschaftliche und soziale Schäden entstehen. Es ist deshalb wichtig die Sicherheit von Systemen bereits zur Entwurfszeit zu berücksichtigen.

Mittels Analysewerkzeugen auf Architektursicht können Sicherheitseigenschaften auf einer höheren Abstraktionsebene frühzeitig definiert und überprüft werden. Auf Quelltext-sicht bieten statische, musterbasierte Analysewerkzeuge einen Ansatz zur Überprüfung der korrekten Verwendung von kritischen Schnittstellen. Bisher wurde noch keine Kombination dieser beiden Analyseansätze vorgenommen, um die auf Architektursicht getroffenen Annahmen der im Quelltext umgesetzten Sicherheitseigenschaften auf fehlerhafte Umsetzung zu überprüfen. Deshalb wird untersucht, wie sich eine Kopplung der beiden Sichten und eine Rückführung der Ergebnisse einer Quelltextanalyse in die Architektursicht realisieren lässt. Die vorliegende Arbeit definiert zunächst die für eine Kopplung notwendigen Eigenschaften der Analysen. Darauf basierend wird dann ein Ansatz für eine Kopplung konzipiert. Eine konkrete Umsetzung des Ansatzes wurde im Rahmen der vorliegenden Arbeit mit den Rahmenwerken Confidentiality4CBSE auf Architektursicht und CogniCrypt auf Quelltextsicht in Java vorgenommen. Die Evaluation des Ansatzes erfolgt an Hand eines Fallbeispiels. Die Ergebnisse zeigen, dass die Kopplung von Architekturanalysen mit musterbasierten Quelltextsicherheitsanalysen machbar ist und dass durch die Kopplung von Quelltextfehler mit der Architekturanalyse zusätzliche Fehler aufgedeckt werden.

Vortragende(r) Kathrin Leonie Schmidt
Titel Modellierung von Annahmen in Softwarearchitekturen
Vortragstyp Bachelorarbeit
Betreuer(in) Sophie Corallo
Vortragsmodus in Präsenz
Kurzfassung Undokumentierte Sicherheitsannahmen können zur Vernachlässigung von Softwareschwachstellen führen, da Zuständigkeit und Bezugspunkte von Sicherheitsannahmen häufig unklar sind. Daher ist das Ziel dieser Arbeit, Sicherheitsannahmen in den komponentenbasierten Entwurf zu integrieren. In dieser Arbeit wurde basierend auf Experteninterviews und Constructive Grounded Theory ein Modell für diesen Zweck abgeleitet. Anhand einer Machbarkeitsstudie wird der Einsatz des Annahmenmodells demonstriert.
Vortragende(r) Tim Lachenicht
Titel Vergleich verschiedener Sprachmodelle für den Einsatz in automatisierter Rückverfolgbarkeitsanalyse
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus in Präsenz
Kurzfassung Informationen über logische Verbindungen zwischen Anforderungen und ihrer Umsetzung in Quelltext sind nützlich für viele Aufgabenstellungen der Softwareentwicklung. Sie können beispielsweise die Wartung von Software bei Anforderungs-Änderungen erleichtern. Diese Rückverfolgbarkeitsverbindungen können im Zuge einer Rückverfolgbarkeitsanalyse ermittelt werden. Verfahren, wie FTLR, führen eine automatisierte Rückverfolgbarkeitsanalyse durch. FTLR erkennt Rückverfolgbarkeitsverbindungen mithilfe eines Vergleichs von Repräsentationen von Anforderungen und Quelltext. Bislang setzt FTLR das Sprachmodell fastText zur Repräsentation von Anforderungen und Quelltext ein. Der Ansatz fastText besitzt jedoch Schwachstellen. Das Sprachmodell ist nicht in der Lage verschiedene Bedeutungen eines Wortes zu repräsentieren. Außerdem wurde es nicht auf Quelltext vortrainiert. In dieser Arbeit wurde untersucht, ob sich alternative Sprachmodelle ohne diese Schwachstellen besser zum Einsatz in FTLR eigenen als fastText.

In einem Experiment auf fünf Vergleichsdatensätzen für die Rückverfolgbarkeitsanalyse wurden die Ergebnisse der beiden alternativen Sprachmodelle UniXcoder und Wikipedia2Vec mit fastText verglichen. Das Sprachmodell UniXcoder eignet sich auf den Vergleichsdatensätzen iTrust und LibEST besser als fastText. Das Sprachmodell Wikipedia2Vec eignet sich auf keinem der eingesetzten Vergleichsdatensätze besser als fastText. Im Durchschnitt über alle verwendeten Testdatensätze eignet sich fastText besser für den Einsatz in FTLR als UniXcoder und Wikipedia2Vec.

Freitag, 25. November 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mingzhe Tao
Titel Meta-Learning for Encoder Selection
Vortragstyp Bachelorarbeit
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung In the process of machine learning, the data to be analyzed is often not only numerical but also categorical data. Therefore, encoders are developed to convert categorical data into the numerical world. However, different encoders may have other impacts on the performance of the machine learning process. To this end, this thesis is dedicated to understanding the best encoder selection using meta-learning approaches. Meta-learning, also known as learning how to learn, serves as the primary tool for this study. First, by using the concept of meta-learning, we find meta-features that represent the characteristics of these data sets. After that, an iterative machine learning process is performed to find the relationship between these meta-features and the best encoder selection.

In the experiment, we analyzed 50 datasets, those collected from OpenML. We collected their meta-features and performance with different encoders. After that, the decision tree and random forest are chosen as the meta-models to perform meta-learning and find the relationship between meta-features and the performance of the encoder or the best encoder. The output of these steps will be a ruleset that describes the relationship in an interpretable way and can also be generalized to new datasets.

Vortragende(r) Georg Gntuni
Titel Streaming Nyström MMD Change Detection
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung Data streams are omnipresent. Think of sensor data, bank transactions, or stock movements. We assume that such data is generated according to an underlying distribution, which may change at so-called change points. These points signal events of interest; hence one wants to detect them.

A principled approach for finding such change points is to use maximum mean discrepancy (MMD) for a statistical hypothesis test, with the null hypothesis that the distribution does not change. However, the quadratic runtime of MMD prohibits its application in the streaming setting. Approximations for that setting exist but these suffer from high variance.

In the static setting, the so-called Nyström method allows to reduce the quadratic runtime of MMD with only a slight increase in variance. We propose an algorithm to employ Nyström estimators for MMD in the streaming setting and compare it to existing approximations.

Freitag, 2. Dezember 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Elias Kia
Titel Implementation von Feedbackmechanismen in Onlinekursen am Bespiel Masterstudy LMS
Vortragstyp Bachelorarbeit
Betreuer(in) Kai Marquardt
Vortragsmodus in Präsenz
Kurzfassung Auch wenn der Erhalt von Feedback ein wichtiger Teil des Lernprozesses ist, gibt es zu manchen Ansätzen für Feedback bisher kaum wissenschaftliche Arbeiten, welche diese in Onlinekursen isoliert betrachten. Deshalb wurden für diese Arbeit zwei Ansätze für eine genauere Untersuchung ausgewählt: Erstens ein Fortschrittsbalken zur Anzeige des Kursfortschritts und zweitens ein Overlay mit durch den Kursersteller einstellbaren Nachrichten. Damit die Auswirkungen untersucht werden können, wurden diese Feedbackmechanismen auf eine bereits bestehende Webseite mit Onlinekursen, namens "Rockstartit", implementiert. Die Implementation der Feedbackmechanismen auf der in "WordPress" mit dem Plugin "MasterStudy LMS" entwickelten Webseite, wurde dokumentiert und bewertet. Zuletzt wurde eine Evaluation zum Fortschrittsbalken durchgeführt und ein Ansatz für eine Evaluation des Overlays vorgeschlagen.
Vortragende(r) Tim Schmack
Titel Linking Architectural Analyses Based on Attacker Models
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Fehler in einer Software können unter Umständen nicht behoben werden, da die Fehlerursache in der Architektur der Software liegt. Um diesen Fall vorzubeugen, gibt es verschiedenste Ansätze diese Fehler frühzeitig zu erkennen und zu eliminieren. Ein Ansatz sind Sicherheitsanalysen auf Architekturebene. Diese spezifizieren den Aspekt der Sicherheit auf unterschiedliche Weise und können dadurch verschiedene Erkenntnisse über die Sicherheit des Systems erhalten. Dabei wäre es praktischer, wenn die Erkenntnisse der Sicherheitsanalysen kombiniert werden können, um ein aussagekräftigeres Ergebnis zu erzielen. In dieser Arbeit wird ein Ansatz zum Kombinieren von zwei Architektur Sicherheitsanalysen vorgestellt. Die erste Analyse erkennt physische Schwachstellen durch einen Angreifer im System. Die zweite Analyse erkennt mögliche Ausbreitungsschritte eines Angreifers im System. Die Analysen werden kombiniert, indem die Ergebnisse der ersten Analyse zum Erstellen der Eingabemodelle für die zweite Analyse genutzt werden. Dafür wird ein Ausgabemetamodell erstellt und ein Parser implementiert, welcher die Ergebnisse der ersten Analyse in eine Instanz des Ausgabemetamodells übersetzt. Daraus werden die benötigten Informationen für die zweite Analyse extrahiert. Die Machbarkeit und der Mehrwert des Ansatzes wird in einer Fallstudie evaluiert. Diese ergab, dass die Übertragung machbar ist und aussagekräftigere Ergebnisse erzielt werden konnten.

Freitag, 2. Dezember 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 16. Dezember 2022, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 14. Oktober 2022, 10:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Thomas Frank
Titel Benchmarking Tabular Data Synthesis Pipelines for Mixed Data
Vortragstyp Bachelorarbeit
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung In machine learning, simpler, interpretable models require significantly more training data than complex, opaque models to achieve reliable results. This is a problem when gathering data is a challenging, expensive or time-consuming task. Data synthesis is a useful approach for mitigating these problems.

An essential aspect of tabular data is its heterogeneous structure, as it often comes in ``mixed data´´, i.e., it contains both categorical and numerical attributes. Most machine learning methods require the data to be purely numerical. The usual way to deal with this is a categorical encoding.

In this thesis, we evaluate a proposed tabular data synthesis pipeline consisting of a categorical encoding, followed by data synthesis and an optional relabeling of the synthetic data by a complex model. This synthetic data is then used to train a simple model. The performance of the simple model is used to quantify the quality of the generated data. We surveyed the current state of research in categorical encoding and tabular data synthesis and performed an extensive benchmark on a motivated selection of encoders and generators.

Freitag, 13. Januar 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Felix Pieper
Titel Beyond Similarity - Dimensions of Semantics and How to Detect them
Vortragstyp Masterarbeit
Betreuer(in) Sophie Corallo
Vortragsmodus in Präsenz
Kurzfassung Semantic similarity estimation is a widely used and well-researched area. Current state-of-the-art approaches estimate text similarity with large language models. However, semantic similarity estimation often ignores fine-grain differences between semantic similar sentences. This thesis proposes the concept of semantic dimensions to represent fine-grain differences between two sentences. A workshop with domain experts identified ten semantic dimensions. From the workshop insights, a model for semantic dimensions was created. Afterward, 60 participants decided via a survey which semantic dimensions are useful to users. Detectors for the five most useful semantic dimensions were implemented in an extendable framework. To evaluate the semantic dimensions detectors, a dataset of 200 sentence pairs was created. The detectors reached an average F1 score of 0.815.
Vortragende(r) Nikita Nesterov
Titel Sicherheitsbewertung des Standards International Data Spaces im Kontext des Eclipse Dataspace Connectors
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Wittler
Vortragsmodus in Präsenz
Kurzfassung Der gegenwärtige Stand der Industrie wurde mit dem Konzept der Industrie 4.0 erfasst. Die Industrie 4.0 ist gekennzeichnet durch eine kontinuierliche Interaktion zwischen Technologien, die große Datenmengen gemeinsam nutzen, austauschen und verarbeiten. Damit entstehen neue Herausforderungen für die Datentransfertechnologien.

Auf diese Weise prägt die Nachfrage der Industrie das Konzept der Datensouveränität, das für die gemeinsame Nutzung von Daten durch Unternehmen gilt. Datensouveränität für Unternehmen bedeutet, dass das Unternehmen, das über die Daten verfügt und beschließt, diese Daten weiterzugeben, die Regeln für die Verwendung dieser Daten festlegt. Hierdurch behält das Unternehmen die Kontrolle über seine Daten, wenn es diese gemeinsam mit anderen Unternehmen nutzt. Die deutsche Regierung und deutsche Unternehmen haben mit der Ausarbeitung des International Data Space (IDS) Architekturmodells einen Schritt in Richtung Datensouveränität getan. IDS beschreibt abstrakt die Architektur von Datenräumen, innerhalb derer der souveräne Datentransfer bereitgestellt wird. Eine Schlüsselkomponente der IDS-Architektur ist der Datenraum-Konnektor, über den sich Unternehmen mit einem Datenraum verbinden und Daten austauschen. Der Eclipse Dataspace Connector (EDC) implementiert den abstrakten IDS Konnektor. Da es sich bei EDC um eine junge Technologie handelt, gibt es keine Untersuchungen, um zu prüfen, ob sie den souveränen Datentransfer vollständig unterstützt.

Deshalb wurde im Rahmen dieser Bachelorarbeit eine Analyse der Sicherheit von EDC als eine Technologie, die den souveränen Datentransfer bereitstellt, durchgeführt. Die Methodik für diese Analyse war die STRIDE Bedrohungsmodellierung. Das System wurde auf Gegenmaßnahmen zu diesen Bedrohungen untersucht, sowie Testfälle zur Validierung der Gegenmaßnahmen implementiert.

Der Vorteil der Bachelorarbeit sind die Ergebnisse der Sicherheitsanalyse, die eine Liste der Bedrohungen der EDC Architektur identifizieren. Für alle Bedrohungen, bis auf eine, werden in EDC die entsprechenden Gegenmaßnahmen implementiert. Die Implementierung für die nicht behobene Bedrohung befindet sich zur Zeit der Bachelorarbeit in Entwicklung.

Als Ergebnis dieser Arbeit konnten wir zeigen, dass die Konzepte der Datensouveränität im EDC das International Data Spaces Reference Architecture Model umsetzt. Die durchgeführte Analyse hat gezeigt, dass die EDC Architektur eine sichere Umsetzung vom International Data Spaces Reference Architecture Model ist.

Freitag, 20. Januar 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Fabian Palitza
Titel Fallstudie zur Privatsphäre in Connected-Car Systemen
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung In jedem Software-System, in dem Nutzerdaten anfallen, muss deren Verarbeitung strengen Auflagen unterliegen. Das bislang strengste und am weitesten verbreitete dieser Gesetze ist die Europäische Datenschutz-Grundverordnung. Um unter dieser Verordnung Daten legal zu verarbeiten, ist es für Software-Entwickler sehr günstig, diese so früh wie möglich im Entwicklungsprozess zu berücksichtigen.

Eine Möglichkeit, um datenschutzrechtliche Verstöße zur Designzeit festzustellen, ist die Datenflussanalyse. Dabei werden dem konventionellen Software-Modell noch Eigenschaften hinzugefügt, ebenso wie den modellierten Daten. Aus dem Aufruf-Graphen kann dann ein Datenflussdiagramm erstellt werden, welches anzeigt, welche Daten von welchen Komponenten wohin fließen. Diese Arbeit beschreibt eine Fallstudie, in welcher die Datenflussanalyse in einem konkreten System untersucht wird. Zunächst werden Anforderungen aufgestellt, welche eine Fallstudie der Bereiche Mobilität und Datenschutz erfüllen muss. Der wissenschaftliche Beitrag dieser Arbeit liegt dann in diesen Anforderungen sowie der testweisen Durchführung der Fallstudie. Dabei wird ein fiktives Ride-Pooling Unternehmen modelliert. Das Modell wird mithilfe der Datenflussanalyse untersucht, und aus den Ergebnissen werden Schlüsse über die Analyse gezogen.

Vortragende(r) Michael Hirsch
Titel Performance-Modellierung des Mechanik-Lösermoduls in der Multi-Physik-Anwendung Pace3D
Vortragstyp Bachelorarbeit
Betreuer(in) Larissa Schmid
Vortragsmodus in Präsenz
Kurzfassung Für Nutzende des Mechanik-Lösermoduls von Pace3D ist es schwierig vorherzusagen, wie sich unterschiedliche Konfigurationen auf die Rechenzeit auswirken. Um das Verständnis dafür zu schaffen, welcher Einfluss von verschiedenen Konfigurationsoptionen auf die Laufzeit ausgeht, wird eine Performance-Modellierung des Mechanik-Lösermoduls von Pace3D durchgeführt. Das gewählte Verfahren zur Performance-Modellierung unterstützt bisher nur die Berücksichtigung numerischer Konfigurationsoptionen. Das Verfahren wird deshalb erweitert, sodass sich auch binäre Konfigurationsoptionen berücksichtigen lassen. Zur Evaluierung der Performance-Modelle wird ausgewertet, wie gut interpolierte und extrapolierte Testpunkte vorhergesagt werden. Unter Verwendung ausschließlich numerischer Eingabeparameter wird eine Genauigkeit von 87,99 % erzielt. Das Modell mit numerischen sowie einem binären Parameter erzielt eine Genauigkeit von 89,14 %.

Freitag, 27. Januar 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Lea Strauch
Titel Semantic Interoperability in Decentralized Identity Ecosystems
Vortragstyp Bachelorarbeit
Betreuer(in) Ralf Reussner
Vortragsmodus in Präsenz
Kurzfassung In an identity ecosystem, actors exchange digital proofs, so called "credentials". Actors can also take on different roles: "Issuers" generate credentials and issue them to other actors. "Holders" store them and present them to "verifiers", who verify and accept the credential or reject it.

In decentralized identity ecosystems, actors can interact with each other on an equal basis, regardless of their current role. They are not subjected to permanent hierarchies. Instead, they are loosely coupled with each other and where it is possible, intermediaries are avoided.

In this thesis, the "semantic interoperability" of actors in decentralized identity ecosystems are examined. Semantic interoperability aims at a common understanding of credentials for all actors. For this purpose, two things have to be taken into account: First, the understanding of the properties and statements evidenced in the credential, e.g., "What does the content say and what does it not say? What level of trust is guaranteed? What kind of actor issued the credential?" Second, it is about the context of the credential in its own environment, e.g., "Is the evidence of these properties adequate to continue this process? Is the level of trust sufficient?" Regarding this, there are already promising approaches from researchers and practitioners, especially in the area of the "Semantic Web", which is closely connected to the topic of semantic interoperability. This is why we want to collect and classify various existing technologies and standards for creating semantic interoperability. These technologies and standards will also be evaluated for their use on the basis of requirements collected in the project "Schaufenster sichere digitale Identitäten Karlsruhe" (Showcase secure digital identities Karlsruhe).

Donnerstag, 16. Februar 2023, 10:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Christoph Batke
Titel Improving Document Information Extraction with efficient Pre-Training
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung SAP Document Information Extraction (DOX) is a service to extract logical entities from scanned documents based on the well-known Transformer architecture. The entities comprise header information such as document date or sender name, and line items from tables on the document with fields such as line item quantity. The model currently needs to be trained on a huge number of labeled documents, which is impractical. Also, this hinders the deployment of the model at large scale, as it cannot easily adapt to new languages or document types. Recently, pretraining large language models with self-supervised learning techniques have shown good results as a preliminary step, and allow reducing the amount of labels required in follow-up steps. However, to generalize self-supervised learning to document understanding, we need to take into account different modalities: text, layout and image information of documents. How to do that efficiently and effectively is unclear yet. The goal of this thesis is to come up with a technique for self-supervised pretraining within SAP DOX. We will evaluate our method and design decisions against SAP data as well as public data sets. Besides the accuracy of the extracted entities, we will measure to what extent our method lets us lower label requirements.

Freitag, 3. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Janek Speit
Titel Automated Classification of Design Decision in Software Architecture Documentation
Vortragstyp Masterarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Die Softwarearchitekturdokumentation (SAD) ist ein integrales Artefakt eines Softwareprojektes. Um die Qualität von SADs zu verbessern und nachgelagerte Aufgaben zu unterstützen, ist eine automatische Klassifizierung dieser Entwurfsentscheidungen erstrebenswert. In dieser Arbeit implementieren und evaluieren wir einen Ansatz zur automatischen Identifikation und Klassifizierung von Entwurfsentscheidungen auf der Grundlage einer feingranularen Taxonomie, bei der wir eine hierarchische Klassifikationsstrategie mit dem Einsatz von Transfer-Lernen durch vortrainierter Sprachmodelle kombinieren. Der Beitrag dieser Arbeit besteht darin, den Vorteil einer hierarchischen Klassifikationsstrategie für die automatische Klassifikation von Entwurfsentscheidungen gegenüber einem nicht-hierarchischen Ansatz zu untersuchen. Außerdem untersuchen und vergleichen wir die Effektivität verschiedener vortrainierter Sprachmodelle.
Vortragende(r) Stefanie Fischer
Titel Faster Feedback Cycles via Integration Testing Strategies for Serverless Edge Computing
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus in Präsenz
Kurzfassung Serverless computing allows software engineers to develop applications in the cloud without having to manage the infrastructure. The infrastructure is managed by the cloud provider. Therefore, software engineers treat the underlying infrastructure as a black box and focus on the business logic of the application. This lack of inside knowledge leads to an increased testing difficulty as applications tend to be dependent on the infrastructure and other applications running in the cloud environment. While isolated unit and functional testing is possible, integration testing is a challenge, as reliable results are often only achieved after deploying to the deployment environment because infrastructure specifics and other cloud services are only available in the actual cloud environment. This leads to a laborious development process. For this reason, this thesis deals with creating testing strategies for serverless edge computing to reduce feedback cycles and speed up development time. For evaluation, the developed testing strategies are applied to Lambda@Edge in AWS.

Donnerstag, 9. März 2023, 10:00 Uhr

iCal (Download)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dan Jia
Titel Reinforcement Learning for Solving the Knight’s Tour Problem
Vortragstyp Proposal
Betreuer(in) Edouard Fouché
Vortragsmodus online
Kurzfassung The knight’s tour problem is an instance of the Hamiltonian path problem that is a typical NP-hard problem. A knight makes L-shape moves on a chessboard and tries to visit all the squares exactly once. The tour is closed if a knight can finish a complete tour and end on a square that is a neighbourhood of its starting square; Otherwise, it is open. Many algorithms and heuristics have been proposed to solve this problem. The most well-known one is warnsdorff’s heuristic. Warnsdorff’s idea is to move to the square with the fewest possible moves in a greedy fashion. Although this heuristic is fast, it does not always return a closed tour. Also, it only works on boards of certain dimensions. Due to its greedy behaviour, it can get stuck into a local optimum easily. That is similar to the other existing approaches. Our goal in this thesis is to come up with a new strategy based on reinforcement learning. Ideally, it should be able to find a closed tour on chessboards of any size. We will consider several approaches: value-based methods, policy optimization and actor-critic methods. Compared to previous work, our approach is non-deterministic and sees the problem as a single-player game with a tradeoff between exploration and exploitation. We will evaluate the effectiveness and efficiency of the existing methods and new heuristics.

Freitag, 17. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Rakan Al Masri
Titel Generating Causal Domain Knowledge for Cloud Systems Monitoring
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus in Präsenz
Kurzfassung While standard machine learning approaches rely solely on data to learn relevant patterns, in certain fields, this may not be sufficient. Researchers in the Healthcare domain, have successfully applied causal domain knowledge to improve prediction quality of machine learning models, especially for rare diseases. The causal domain knowledge informs the machine learning model about similar diseases, thus improving the quality of the predictions.

However, some domains, such as Cloud Systems Monitoring, lack readily available causal domain knowledge, and thus the knowledge must be approximated. Therefore, it is important to have a systematic investigation of the processes and design decision that affect the knowledge generation process.

In this study, we showed how causal discovery algorithms can be employed to generate causal domain knowledge from raw textual logs in the Cloud Systems Monitoring domain. We also investigated the impact of various design choices on the domain knowledge generation process through systematic testing across multiple datasets and shared the insights we gained. To our knowledge, this is the first time such an investigation has been conducted.

Freitag, 24. März 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Yannick Ettwein
Titel Explainable Artificial Intelligence for Decision Support
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus in Präsenz
Kurzfassung Policy makers face the difficult task to make far-reaching decisions that impact the life of the the entire population based on uncertain parameters that they have little to no control

over, such as environmental impacts. Often, they use scenarios in their decision making process. Scenarios provide a common and intuitive way to communicate and characterize different uncertain outcomes in many decision support applications, especially in broad public debates. However, they often fall short of their potential, particularly when applied for groups with diverse interests and worldviews, due to the difficulty of choosing a small number of scenarios to summarize the entire range of uncertain future outcomes. Scenario discovery addresses these problems by using statistical or data-mining algorithms to find easy-to-interpret, policy-relevant regions in the space of uncertain input parameters of computer simulation models. One of many approaches to scenario discovery is subgroup discovery, an approach from the domain of explainable Artificial Intelligence.

In this thesis, we test and evaluate multiple different subgroup discovery methods for their applicabilty to scenario discovery applications.

Vortragende(r) Georg Gntuni
Titel Streaming MMD Change Detection
Vortragstyp Bachelorarbeit
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung Kernel methods are among the most well-known approaches in data science. Their ability to represent probability distributions as elements in a reproducing kernel Hilbert space gives rise to maximum mean discrepancy (MMD). MMD quantifies the dissimilarity of two distributions and allows powerful two-sample tests on many domains. One important application of general two-sample tests is change detection in data streams: Here, one tests the null hypothesis that the distributions of data within the stream do not change versus the alternative hypothesis that the distributions do change; a change in distribution then indicates a change point. The broad applicability of kernel-based two-sample tests renders their use for change detection in data streams highly desirable. But, their quadratic runtime complexity prohibits their application. While approximations for kernel methods that reduce their runtime in the static setting exist, their application to data streams is challenging.

In this thesis, we propose a novel change detector, RADMAN, which leverages the random Fourier feature-based kernel approximation to efficiently detect changes in data streams with a polylogarithmic runtime complexity of O(log^2 n) per insert operation, with n the total number of observations. The proposed approach runs significantly faster than existing methods but obtains similar result quality. Our experiments on synthetic and real-world data sets show that it performs better than current state-of-the-art approaches.