Semantische Suche

Freitag, 14. April 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Paul Giza
Titel CGFLEX: A Flexible Framework for Causal Graph-based Data Synthesis
Vortragstyp Masterarbeit
Betreuer(in) Bela Böhnke
Vortragsmodus in Präsenz
Kurzfassung Algorithms that extract dependencies from data and represent them as causal graphs must also be tested. For such tests, data with a known ground truth is required, but this is rarely available. Generating data under controlled conditions through simulations is expensive and time-consuming. A solution to this problem is to create synthetic datasets, where dependencies are predefined, to evaluate the results of these algorithms.

This work focuses on building a framework for the synthesis of data. In the framework, the synthesis process begins with generating a random dependency graph, specifically a directed acyclic graph. Each node in the graph, except the source nodes, has parent nodes and represents a variable. In the next step, each node is populated with predefined random dependencies. A dependency is a model that determines the value of a variable based on its parent variables. From this structure, datasets can be sampled. Users can control the properties of the causal graph through various parameters and choose from multiple types of dependencies, representing different complexity levels.

Additionally, the sampling process allows for interactivity by enabling the exchange of dependencies during the sampling process. Dependencies can be exchanged with fixed values, probability distributions, or time series functions. This flexibility provides a robust tool for improving and comparing the mentioned algorithms under various conditions.

Freitag, 28. April 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: https://sdq.kastel.kit.edu/wiki/SDQ-Oberseminar/Microsoft_Teams

Vortragende(r) Hannes Greule
Titel Evidence-based Token Abstraction for Software Plagiarism Detection
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Programming assignments for students are target of plagiarism. Especially for graded assignments, instructors want to detect plagiarism among the students. For larger courses, however, manual inspection of all submissions is a resourceful task. For this purpose, there are numerous tools that can help detect plagiarism in submissions. Many well-known plagiarism detection tools are token-based detectors. In an abstraction step, they map source code to a list of tokens, and such lists are then compared with each other. While there is much research in the area of comparison algorithms, the mapping is often only considered superficially. In this work, we conduct two experiments that address the issue of token abstraction. For that, we design different token abstractions and explain their differences. We then evaluate these abstractions using multiple datasets. We show that different abstractions have pros and cons, and that a higher abstraction level does not necessarily perform better. These findings are useful when adding support for new programming languages and for improving existing plagiarism detection tools. Furthermore, the results can be helpful to choose abstractions tailored to specific requirements.
Vortragende(r) Jonas Strittmatter
Titel Token-Based Plagiarism Detection for Statecharts
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung In the field of software engineering, existing plagiarism detection systems have primarily focused on detecting cases of plagiarism in code. However, other artefacts such as models also play a crucial role in the development process. Statecharts, in particular, are used to model the behavior of a system. This thesis investigates the applicability and challenges of applying token-based plagiarism detection systems to statecharts. We extend the plagiarism detector JPlag to support detecting cases of plagiarism in statecharts. Our approach is evaluated using a dataset of student assignments from a modeling course, where we generate plagiarized statecharts by adopting common obfuscation attacks. We study the effects of the token-extraction strategy, sorting techniques and the minimum token match parameter. The results suggest that an approach tailored to the specific kind of model, such as statecharts, works better than a generic solution for models.

Freitag, 5. Mai 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: https://sdq.kastel.kit.edu/wiki/SDQ-Oberseminar/Microsoft_Teams

Vortragende(r) Lukas Burgey
Titel Continuous Integration of Performance Models for Lua-Based Sensor Applications
Vortragstyp Masterarbeit
Betreuer(in) Manar Mazkatli
Vortragsmodus in Präsenz
Kurzfassung Architecture-level performance models of software like the PCM can aid with the development of the software by preventing architecture degradation and helping to diagnose performance issues during the implementation phase.

Previously, manual intervention was required to create and update such models. The CIPM approach can be employed to automatically make a calibrated PCM instance available during the development of software. A prototypical implementation of the CIPM approach targets microservice-based web applications implemented in Java. No implementations for other programming languages exist and the process of adapting the CIPM approach to support another programming language has previously not been explored.

We present an approach to adapting CIPM to support Lua-based sensor applications. A prototypical implementation of the adapted approach was evaluated using real-world Lua-based sensor applications from the SICK AppSpace ecosystem. The evaluation demonstrates the feasibility of the adapted approach, but also reveals minor technical issues with the implementation.

Vortragende(r) Moritz Brödel
Titel Preventing Automatic Code Plagiarism Generation Through Token String Normalization
Vortragstyp Bachelorarbeit
Betreuer(in) Timur Sağlam
Vortragsmodus in Präsenz
Kurzfassung Code plagiarism is a significant problem in computer science education. Token-based plagiarism detectors, which represent the state-of-the-art in code plagiarism detection, excel at identifying manually plagiarized submissions. Unfortunately, they are vulnerable to automatic plagiarism generation, particularly when statements are inserted or reordered. Therefore, this thesis introduces token string normalization, which makes the results of token-based plagiarism detectors invariant to statement insertion and reordering. It inher- its token-based plagiarism detectors’ high language independence and utilizes a program graph. We integrate token string normalization into the state-of-the-art token-based plagiarism detector JPlag. We show that this prevents automatic plagiarism generation using statement insertion and reordering. Additionally, we confirm that JPlag’s existing capabilities are retained.
Vortragende(r) Alp Toraç Genç
Titel Prototypical implementation of discrete-event-based co-simulation of hardware and software
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Weber
Vortragsmodus in Präsenz
Kurzfassung Computer-supported simulations provide multiple ways to analyse design decisions and avoid many possible mistakes. For simulating large and complex systems, multiple simulation tools may be necessary, as having the means to simulate in only one tool may not be the best approach. In such cases, co-simulation can be used to simulate the said system by interconnecting the mentioned simulation tools using a co-simulation standard. A system that consists of hardware and software falls under this category of systems.

Depending on how a system is to be co-simulated, choosing a co-simulation standard can be challenging, as there are many factors and trade-offs to consider. In this thesis, existing co-simulation standards with discrete-event-based co-simulation support will be researched and compared to one another. This comparison will then be used to choose a co-simulation standard for an exemplary case of hardware-software co-simulation, which will be prototypically implemented and evaluated.

Freitag, 12. Mai 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Steven Lorenz
Titel Active Learning for experimental exploration
Vortragstyp Proposal
Betreuer(in) Federico Matteucci
Vortragsmodus in Präsenz
Kurzfassung A ranking is the result of running an experiment, a set of encoders is applied to an

experimental condition (dataset, model, tuning, scoring) and are then ranked according to their performance. To draw conclusions about the performance of the encoders for a set of experimental conditions, one can aggregate the rankings into a consensus ranking. (i.e. taking the median rank) The goal of the thesis is to explore the space of consensus rankings and find all possible consensus rankings. However, running an experiment is a very time-consuming task. Therefore we utilize Active Learning, to avoid running unnecessary experiments. In Active Learning, the learner can choose the data it is trained on and achieves greater accuracy with fewer labeled data.

Freitag, 26. Mai 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: https://sdq.kastel.kit.edu/wiki/SDQ-Oberseminar/Microsoft_Teams

Vortragende(r) Niklas Brüning
Titel Erhaltung des Endanwenderflows in PREEvision durch asynchrone Job-Verarbeitung
Vortragstyp Bachelorarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Viele modellgetriebene Entwicklungsumgebungen verfolgen einen rein sequenziellen Ansatz. Modelltransformationen werden sequenziell ausgeführt und zu einem Zeitpunkt darf stets nur eine Modelltransformation ausgeführt werden. Auf entsprechend großen Datenmengen ergeben sich hierdurch jedoch einige Einschränkungen. So kann es dazu kommen, dass Nutzer mehrere Minuten oder sogar Stunden auf den Abschluss einer Modelltransformation warten müssen und die Software währenddessen nicht für Nutzereingaben zur Verfügung steht, selbst wenn die Modelltransformation nur auf einen Teil des Modells zugreift. Dieser Zustand kann jedoch den Nutzerflow unterbrechen, einen mentalen Zustand des Nutzers, der gleichzeitig produktiv ist und als belohnend wahrgenommen wird.

Eine Möglichkeit, um das Risiko zu minimieren, dass der Nutzerflow unterbrochen wird, ist die Wartezeit für den Nutzer zu verkürzen, indem Modelltransformationen asynchron im Hintergrund ausgeführt werden. Der Nutzer kann dann mit eingeschränkt weiterarbeiten, während die Modelltransformation durchgeführt wird.

Im Kontext von modellgetriebener Softwareentwicklung findet sich zu Nebenläufigkeit nur wenig Forschung. Zwar gibt es einige Ambitionen, Modelltransformationen zu parallelisieren, jedoch gibt es keine Forschung dazu, Modelltransformationen asynchron auszuführen um weitere Modelltransformationen simultan durchführen zu können.

Die vorliegende Arbeit stellt am Beispiel der modellgetrieben entwickelten Software PREEvision der Firma Vector Informatik GmbH, Mechanismen und mögliche Implementierungen vor, mit denen simultane Modelltransformationen realisiert werden können. Für vier Operationen in PREEvision wird außerdem beispielhaft beschrieben, wie die Operationen mit Hilfe der vorgestellten Mechanismen so modifiziert werden können, dass diese asynchron ausgeführt werden. Die Prototypen der beschriebenen Modifikationen werden anschließend im Hinblick auf die Unterbrechung des Nutzerflows und die Korrektheit evaluiert. Abschließend zieht die Arbeit ein Fazit über die Anwendbarkeit der vorgestellten Mechanismen und darüber, ob der Nutzer durch die Prototypen seltener auf Wartedialoge warten muss.

Vortragende(r) Yuhao Wang
Titel Inkrementelle Modellreduktion zur Verkürzung der Testzyklen in der Transformationsentwicklung
Vortragstyp Bachelorarbeit
Betreuer(in) Erik Burger
Vortragsmodus in Präsenz
Kurzfassung Modellgetriebene Softwareentwicklung (MDD) ist ein Paradigma der Softwareentwicklung, in dem das Modell eine zentrale Rolle spielt. In der MDD wird das Problemfeld durch das Model abstrakt und repräsentativ beschrieben. Im Laufe der Entwicklung wird das Modell durch Modelltransformation schrittweise konkretisiert und schließlich in Programmcode umgewandelt. Je umfangreicher und komplexer das Problemfelds ist, desto größer ist die Anzahl der Modellelemente und desto komplexer ist der Zusammenhang zwischen den Modellelementen. Aus diesem Grund ist die Transformation eines solch großen Modells zeitaufwendig und fehleranfällig.

Es werden in der Entwicklung mehrmals Test durchgeführt, um die Korrektheit des Modells und der Transformation zu gewährleisten. Die große Anzahl der Elemente im Modell verlangsamt den Test und erschwert das Finden der Fehlerursache im Modell und in der Transformation. Daher wurde im Rahmen dieser Bachelorarbeit untersucht, ob ein Ausschnitt des Modells existiert, welcher folgende Eigenschaften hat: Dieser Ausschnitt soll nur Teile des originalen Modells enthalten. Weiter sollen mit diesem Ausschnitt alle Fehler des vollständigen Modells repräsentiert werden können. Die Ursache und Korrektur des fehlerhaften Modells und der fehlerhaften Transformation werden im Rahmen dieser Arbeit nicht untersucht. Die Arbeit konzentriert sich auf das Erstellen und Untersuchen dieses Ausschnitts des Modells.

Freitag, 2. Juni 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Simon Benedict
Titel Online Nyström MMD Approximation
Vortragstyp Proposal
Betreuer(in) Florian Kalinke
Vortragsmodus in Präsenz
Kurzfassung In data analysis, the ability to detect and understand critical shifts in information patterns holds immense significance. Whether it is monitoring real-time network traffic, identifying anomalies in financial markets, or tracking fluctuations in climate data, the ability to swiftly identify change points is crucial for effective decision-making. Since the default implementation of MMD is quadratic the algorithms to enable this however tend to exceed runtime limits for certain contexts, such as those where the speed and volume of incoming data is relatively high. In continuation of recent developments in change point detection optimization through estimators, notably RADMAN, we propose to integrate the “Nyström” estimator into a similar context of exponential bucketing to improve on this matter. This thesis will focus on the concept, the implementation and testing of this construct and its comparison to other recent approaches.

Freitag, 9. Juni 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Marvin Schäfer
Titel Automatisiertes GUI-basiertes Testen einer Passwortmanager-Applikation mit Neuroevolution
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus in Präsenz
Kurzfassung Software-Testing ist essenziell zur Gewährleistung der Qualität und Funktionalität von Softwareprodukten. Es existieren sowohl manuelle als auch automatisierte Methoden. Allerdings weisen sowohl automatisierte Verfahren als auch menschliche und skriptbasierte Tests bezüglich Kosteneffizienz und Zeitaufwand Einschränkungen auf. Monkey-Testing, gekennzeichnet durch zufällige Klicks auf der Benutzeroberfläche, berücksichtigt dabei oft nicht ausreichend die Logik der Applikation.

Diese Bachelorarbeit konzentriert sich auf die automatisierte neuroevolutionäre Testmethode, die neuronale Netze als Testagenten nutzt und diese mittels evolutionärer Algorithmen über mehrere Generationen hinweg verfeinert. Zur Evaluierung dieser Agenten und zum Vergleich mit Monkey-Testing wurde eine simulierte Version einer Passwort-Manager Applikation eingesetzt. Dabei wurde eine Belohnungsstruktur innerhalb der simulierten Anwendung implementiert. Die Ergebnisse verdeutlichen, dass das neuroevolutionäre Testverfahren im Hinblick auf die erzielten Belohnungen im Vergleich zum Monkey-Testing signifikant besser performt. Dies führt zu einer besseren Berücksichtigung der Anwendungslogik im Testprozess.

Freitag, 16. Juni 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Aleksandra Pawelek
Titel Collective Entity Matching for Linking Structures in Attributed Material Graphs
Vortragstyp Proposal
Betreuer(in) Daniel Betsche
Vortragsmodus in Präsenz
Kurzfassung In data analysis, entity matching (EM) or entity resolution is the task of finding the same entity within different data sources. When joining different data sets, it is a required step where the same entities may not always share a common identifier. When applied to graph data like knowledge graphs, ontologies, or abstractions of physical systems, the additional challenge of entity relationships comes into play. Now, not just the entities themselves but also their relationships and, therefore, their neighborhoods need to match. These relationships can also be used to our advantage, which builds the foundation for collective entity matching (CEM).

In this bachelor thesis, we focus on a graph data set based on a material simulation with the intent to match entities between neighboring system states. The goal is to identify structures that evolve over time and link their states with a common identifier. Current CEM Algorithms assume perfect matches to be possible, i.e., every entity can be matched. We want to overcome this challenge and address the high imbalance of potential candidates and impossible matches. A third major challenge is the large volumes of data which requires our algorithm to be efficient.

Freitag, 16. Juni 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Lena Gerlach
Titel Untersuchung des Einflusses von Kommunikationsmodellen auf die Zusammensetzbarkeit von Informationsflusseigenschaften
Vortragstyp Bachelorarbeit
Betreuer(in) Christopher Gerking
Vortragsmodus in Präsenz
Kurzfassung In der Softwareentwicklung wird häufig das Prinzip verwendet, ein großes System aus kleineren Teilsystemen zusammenzusetzen. Dies erfordert eine Kommunikation zwischen den Teilsystemen, um Informationen auszutauschen. Allerdings kann dabei der Informationsfluss durch das Gesamtsystem unsicher werden und somit die Vertraulichkeit, eine der wichtigsten Sicherheitseigenschaften eines Systems, verletzt werden. Um sicheren Informationsfluss zu erzielen, müssen sogenannte Informationsflusseigenschaften erfüllt werden. Aus der Literatur ist bekannt, dass Informationsflusseigenschaften bei der Komposition von sicheren Systemen verletzt werden können. Das bedeutet, wenn zwei sichere Systeme zusammengesetzt werden, besteht die Möglichkeit, dass das Gesamtsystem unsicher wird. Hierbei spielt die Art der Kommunikation zwischen den Teilsystemen eine entscheidende Rolle. Die Literatur liefert Ergebnisse, die zeigen, dass synchrone Kommunikation die Zusammensetzbarkeit verletzt, während asynchrone Kommunikation die Zusammensetzbarkeit gewährleistet. Allerdings existieren in der Literatur keine konkreten Ergebnisse darüber, wie sich Abstufungen von synchroner zu asynchroner Kommunikation auf die Zusammensetzbarkeit auswirken.

In dieser Arbeit wird untersucht, wie sich verschiedene Kommunikationsformen zwi- schen synchroner und asynchroner Kommunikation auf die Zusammensetzbarkeit von Informationsflusseigenschaften auswirken. Hierfür werden generische Konzepte zur Modellierung asynchroner Kommunikationsformen entwickelt. Die Untersuchung erfolgt mithilfe von Timed Automata. Es wird ein Beispiel modelliert, in dem zwei sichere Systeme, die als Timed Automata modelliert sind, zusammengesetzt werden und unter synchroner Kommunikation ein unsicheres Gesamtsystem bilden. Anschließend wird die synchrone Kommunikation mithilfe der entwickelten Modellierungskonzepte durch asynchrone Kommunikationsformen ersetzt und für jede Form wird die Sicherheit des zusammengesetzten Systems überprüft. Zur Modellierung und Überprüfung des Gesamtsystems hinsichtlich des Erhalts von Informationsflusseigenschaften wird in dieser Arbeit das Werkzeug UPPAAL verwendet. Neben den Modellierungskonzepten liefert diese Arbeit konkrete Ergebnisse über die Auswirkungen der Kommunikationsformen auf die Zusammensetzbarkeit, was einen weiteren Beitrag darstellt. Basierend auf diesen Ergebnissen werden die Eigenschaften einer Kommunikationsform abgeleitet, die für die Zusammensetzbarkeit erforderlich sind, sowie Eigenschaften, die sich negativ auswirken. Im Hinblick auf die abgeleiteten Eigenschaften wird für die prozedurale Kommunikation diskutiert, wie diese sich auf die Zusammensetzbarkeit auswirkt. Dafür wird sie in die synchrone und asynchrone Kommunikation eingeordnet.

Freitag, 23. Juni 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Tobias Manske
Titel Integrating Architecture-based Confidentiality Analysis with Code-based Information Flow Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Moderne Softwaresysteme müssen einer Vielzahl von Sicherheitsanforderungen gerecht werden. Diese Anforderungen scheinen im Laufe der Zeit immer strenger zu werden. Heutzutage führt ein Softwaresystem, das Vertraulichkeitsanforderungen nicht erfüllt, oft zur unbeabsichtigten Offenlegung sensibler Daten. Dies ist oft mit finanziellen Kosten verbunden, da die DSGVO Bußgelder eingeführt und erhöht hat, kann aber auch den Ruf eines Unternehmens beeinträchtigen und zu Kundenverlusten führen. Viele Sicherheitslücken können aus Diskrepanzen zwischen der Architekturplanung und der Implementierung des Codes entstehen. Aus diesem Grund untersucht diese Arbeit die Integration einer statischen, architekturbasierten Vertraulichkeitsanalyse mit einer statischen, codebasierten Informationsflussanalyse. Durch die Kombination dieser beiden Analysen möchten wir zeigen, dass wir eine Diskrepanz zwischen Design und Implementierung identifizieren können. Der in dieser Arbeit gewählte Ansatz behandelt die Architekturplanung als das beabsichtigte Verhalten des Systems. Es werden die erforderlichen Artefakte generiert, um eine codebasierte Analyse durchzuführen und zu überprüfen, ob die auf der Architektur definierten Eigenschaften auf die Implementierung anwendbar sind. In einer kleinen Studie haben wir die Durchführbarkeit des Ansatzes evaluiert. Zusammenfassend zielt diese Arbeit darauf ab, die Lücke zwischen der architekturellen Sicht und der Codesicht zu überbrücken, indem Vertraulichkeitseigenschaften in beiden verbunden werden.

Freitag, 7. Juli 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Jamil Bagga
Titel Developing a Database Application to Compare the Google Books Ngram Corpus to German News Corpora
Vortragstyp Proposal
Betreuer(in) Fabian Richter
Vortragsmodus in Präsenz
Kurzfassung This thesis focuses on the development of a database application that enables a comparative analysis between the Google Books Ngram Corpus(GBNC) and a German news corpora. The GBNC provides a vast collection of books spanning various time periods, while the German news corpora encompass up-to-date linguistic data from news sources. Such comparison aims to uncover insights into language usage patterns, linguistic evolution, and cultural shifts within the German language.

Extracting meaningful insights from the compared corpora requires various linguistic metrics, statistical analyses and visualization techniques. By identifying patterns, trends and linguistic changes we can uncover valuable information on language usage evolution over time. This thesis provides a comprehensive framework for comparing the GBNC to other corpora, showcasing the development of a database application that enables not only valuable linguistic analyses but also shed light on the composition of the GBNC by highlighting linguistic similarities and differences.

Freitag, 14. Juli 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Simeon Becker
Titel Konsistenzhaltung von Eingabemodellen für Architekturanalysen und statischen Quelltextanalysen für Sicherheit
Vortragstyp Bachelorarbeit
Betreuer(in) Frederik Reiche
Vortragsmodus in Präsenz
Kurzfassung Architekturanalysen können in Architekturmodellen Sicherheitseigenschaften spezifizieren. Diese Spezifikationen können von statischen Sicherheitsanalysen anhand dem Quelltext überprüft werden. Dafür müssen sich diese Modelle alle auf demselben Stand befinden. Die manuelle Konsistenzhaltung der Modelle ist jedoch aufwändig.

Daher wird dieser Arbeit ein Konzept für eine automatische Konsistenzhaltung vier verschiedener Modelle umgesetzt, welche als Eingabemodelle für eine statische Sicherheitsanalyse dienen. Diese vier Modelle sind ein Architekturmodell, dessen Quelltext und jeweils dazu passende Annotationen für eine statische Sicherheitsanalyse. Es wird zunächst ein Konzept für die Konsistenzhaltung zwischen diesen vier Modelltypen entwickelt. Für das entwickelte Konzept wurde anhand einer Fallstudie mit vier konkreten Metamodellen in dem Framework Vitruvius eine Konsistenzhaltung implementiert. Für diese wurde auf einer existierenden Konsistenzhaltung zwischen dem Quelltext und der Architekturmodellierung aufgebaut. Diese Implementierung wurde anhand eines Testmodells evaluiert. Diese hat ergeben, dass es machbar ist, anhand des in dieser Arbeit vorgestellten Konzeptes eine Konsistenzhaltung für die Eingabemodelle zu implementieren. Jedoch ist die Implementierung der Regeln aufwändig bei komplexen Abbildungen zwischen den Elementen.

Freitag, 14. Juli 2023, 13:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) David Schulmeister
Titel Hidden Outliers in Manifolds
Vortragstyp Proposal
Betreuer(in) Jose Cribeiro
Vortragsmodus in Präsenz
Kurzfassung Hidden outliers represent instances of disagreement between a full-space and an ensemble. This adversarial nature naturally replicates the subspace behavior that high-dimensional outliers exhibit in reality. Due to this, they have been proven useful for representing complex occurrences like fraud, critical infrastructure failure, and healthcare data, as well as for their use in general outlier detection as the positive class of a self-supervised learner. However, while interesting, hidden outliers' quality highly depends on the number of subspaces selected in the ensemble out of the total possible. Since the number of subspaces increases exponentially with the number of features, this makes high-dimensional applications of Data Analysis, such as Computer Vision, computationally unfeasible. In this thesis, we are going to study the generation of hidden outliers on the embedded data manifold using deep learning techniques to overcome this issue. More precisely, we are going to study the behavior, characteristics, and performance in multiple use-cases of hidden outliers in the data manifold.
Vortragende(r) Denis Wambold
Titel Subspace Generative Adversarial Learning for Unsupervised Outlier Detection
Vortragstyp Proposal
Betreuer(in) Jose Cribeiro
Vortragsmodus in Präsenz
Kurzfassung Outlier detection is an important yet challenging task, especially for unlabeled, high-dimensional, datasets. Due to their self-supervised generative nature, Generative Adversarial Networks (GAN) have proven themselves to be one of the most powerful deep learning methods for outlier detection. However, most state-of-the-art GANs for outlier detection share common limitations. Oftentimes we only achieve great results if the model’s hyperparameters are properly tuned or the underlying network structure is adjusted. This optimization is not possible in practice when the data is unlabeled. If not tuned properly, it is not unusual that a state-of-the-art GAN method is outperformed by simpler shallow methods.

We propose using a GAN architecture with feature ensemble learning to address hyperparameter sensibility and architectural dependency. This follows the success of feature ensembling in mitigating these problems inside other areas of Deep Learning. This thesis will study the optimization problem, training, and tuning of feature ensemble GANs in an unsupervised scenario, comparing it to other deep generative methods in a similar setting.

Freitag, 21. Juli 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Vincenzo Pace
Titel Attention Based Selection of Log Templates for Automatic Log Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Pawel Bielski
Vortragsmodus in Präsenz
Kurzfassung Log analysis serves as a crucial preprocessing step in text log data analysis, including anomaly detection in cloud system monitoring. However, selecting an optimal log parsing algorithm tailored to a specific task remains problematic.

With many algorithms to choose from, each requiring proper parameterization, making an informed decision becomes difficult. Moreover, the selected algorithm is typically applied uniformly across the entire dataset, regardless of the specific data analysis task, often leading to suboptimal results.

In this thesis, we evaluate a novel attention-based method for automating the selection of log parsing algorithms, aiming to improve data analysis outcomes. We build on the success of a recent Master Thesis, which introduced this attention-based method and demonstrated its promising results for a specific log parsing algorithm and dataset. The primary objective of our work is to evaluate the effectiveness of this approach across different algorithms and datasets.

Freitag, 18. August 2023, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: https://kit-lecture.zoom.us/j/67744231815

Vortragende(r) Aaron Gätje
Titel Graph Attention Network for Injection Molding Process Simulation
Vortragstyp Masterarbeit
Betreuer(in) Daniel Ebi
Vortragsmodus in Präsenz
Kurzfassung Graph Neural Networks (GNNs) have demonstrated great potential for simulating physical systems that can be represented as graphs. However, training GNNs presents unique challenges due to the complex nature of graph data. The focus of this thesis is to examine their learning abilities by developing a GNN-based surrogate model for the injection molding process from materials science. While numerical simulations can accurately model the mold filling with molten plastic, they are computationally expensive and require significant trial-and-error for parameter optimization.

We propose a GNN-based model that can predict the fill times and physical properties of the mold filling process. We model the mold geometry as a static graph and encode the process information into node, edge, and global features. We employ a self-attention mechanism to enhance the learning of the direction and magnitude of the fluid flow. To further enforce the physical constraints and behaviors of the process, we leverage domain knowledge to construct features and loss functions. We train our model on simulation data, using a multi-step loss to capture the temporal dependencies and enable it to iteratively predict the filling for unseen molds. Thereby, we compare our models with different distance-based heuristics and conventional machine learning models as baselines in terms of predictive performance, computational efficiency, and generalization ability. We evaluate our architectural and training choices, and discuss both the potential applications and challenges of using GNNs for surrogate modeling of injection molding.

Vortragende(r) Christoph Batke
Titel Improving SAP Document Information Extraction via Pretraining and Fine-Tuning
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus in Präsenz
Kurzfassung Techniques for extracting relevant information from documents have made significant progress in recent years and became a key task in the digital transformation. With deep neural networks, it became possible to process documents without specifying hard-coded extraction rules or templates for each layout. However, such models typically have a very large number of parameters. As a result, they require many annotated samples and long training times. One solution is to create a basic pretrained model using self-supervised objectives and then to fine-tune it using a smaller document-specific annotated dataset. However, implementing and controlling the pretraining and fine-tuning procedures in a multi-modal setting is challenging. In this thesis, we propose a systematic method that consists in pretraining the model on large unlabeled data and then to fine-tune it with a virtual adversarial training procedure. For the pretraining stage, we implement an unsupervised informative masking method, which improves upon standard Masked-Language Modelling (MLM). In contrast to randomly masking tokens like in MLM, our method exploits Point-Wise Mutual Information (PMI) to calculate individual masking rates based on statistical properties of the data corpus, e.g., how often certain tokens appear together on a document page. We test our algorithm in a typical business context at SAP and report an overall improvement of 1.4% on the F1-score for extracted document entities. Additionally, we show that the implemented methods improve the training speed, robustness and data-efficiency of the algorithm.

Freitag, 15. September 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: https://sdqweb.ipd.kit.edu/wiki/SDQ-Oberseminar/Microsoft_Teams

Vortragende(r) Mohammad Nour Dahi
Titel Schnittstellenkonzept für Hardwaresimulationen zur Co-Simulation mit Software
Vortragstyp Bachelorarbeit
Betreuer(in) Sebastian Weber
Vortragsmodus in Präsenz
Kurzfassung Hardwaresimulationen dienen dazu, die Hardware zu simulieren und somit das Verhalten der Software auf der Hardware zu testen. Beim Testen von Software, die auf Hardware läuft, entsteht bei jeder Simulation ein Zielkonflikt zwischen Genauigkeit und Geschwindigkeit. Es gibt verschiedene Hardwaresimulationen zur Auswahl, die eine höhere Genauigkeit bieten, aber längere Ausführungszeiten erfordern. Wenn jedoch die Geschwindigkeit der Co-Simulation, die mehrere Simulationen kombiniert, von größter Bedeutung ist, wählt man eine Simulation, die zwar geringere Genauigkeit bietet, aber schneller ausgeführt werden kann. Je nach Zielsetzung erfordert die Co-Simulation unterschiedliche Hardwaresimulationen. Ein Austausch von Hardwaresimulationen kann jedoch aufwändig sein und Anpassungen an der Co-Simulation erfordern. Diese Arbeit zielt darauf ab, eine allgemeine Schnittstelle für Hardwaresimulationen zu entwickeln, die den Wechsel erleichtert, ohne die Co-Simulation zu beeinträchtigen. Eine allgemeine Schnittstelle für alle Hardwaresimulationen ist jedoch nicht realisierbar. Daher erfolgt eine Klassifizierung, um ähnliche Simulationen zu gruppieren und für eine Klasse eine allgemeine Schnittstelle zu entwickeln.

Freitag, 22. September 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)

Vortragende(r) Niklas Kuder
Titel Kritische Workflows in der Fertigungsindustrie
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Um mögliche Inkonsistenzen zwischen technischen Modellen und ihren verursachenden Workflows in der Fertigungsindustrie zu identifizieren, wurde der gesamte Fertigungsprozess eines beispielhaften Präzisionsfertigers in einzelne Workflows aufgeteilt. Daraufhin wurden neun Experteninterviews durchgeführt, um mögliche Inkonsistenzen zwischen technischen Modellen zu identifizieren und diese in die jeweiligen verursachenden Workflows zu kategorisieren. Insgesamt wurden 13 mögliche Inkonsistenzen dargestellt und ihre jeweilige Entstehung erläutert. In einer zweiten Interview-Iteration wurden die Experten des Unternehmens erneut zu jeder zuvor identifizierten Inkonsistenz befragt, um die geschätzten Auftrittswahrscheinlichkeiten der Inkonsistenzen und mögliche Auswirkungen auf zuvor durchgeführte, oder darauf folgende Workflows in Erfahrung zu bringen.
Vortragende(r) Robin Schöppner
Titel Using Large Language Models To Analyze Software Architecture Documentation
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus in Präsenz
Kurzfassung Begrenzte Trainingsdaten stellen eine Herausforderung für Traceability Link Recovery (TLR) und Inconsistency Detection (ID) dar. Große Sprachmodelle (LLMs) können dieses Problem lösen, da sie oft kein spezifisches Training benötigen. In dieser Arbeit erforschen wir verschiedene Techniken und Methoden für den Einsatz von GPT-4 für TLR und ID. Im Vergleich mit State-of-the-Art-Ansätzen erzielen unsere Ansätze beim Unmentioned-Model-Element-ID ähnliche Leistung. In der Disziplin der Missing-Model-Element ID konnten wir ihre Leistung jedoch nicht erreichen. Beim TLR erzielt Chain-of-Thought-Prompting die besten Ergebnisse, schlägt jedoch auch schlechter ab als State-of-the-Art. Die Ergebnisse sind jedoch vielversprechend und es ist anzunehmen, dass fortschrittlichere LLMs und Techniken zu Verbesserungen führen.
Vortragende(r) Edgar Hipp
Titel Verschlüsselung von änderungsbasierten Modellen
Vortragstyp Bachelorarbeit
Betreuer(in) Thomas Weber
Vortragsmodus in Präsenz
Kurzfassung Im Rahmen der Bachelorarbeit wird eine prototypische Implementation für die symmetrische, asymmetrische und Attribute-basierte Ver -und Entschlüsselung von Modelländerungen innerhalb Vitruvius vorgestellt. Vor -und Nachteile, Skalierbarkeit und Performanz dieser Verfahren werden besprochen.

Freitag, 22. September 2023, 11:30 Uhr

iCal (Download)
Ort: TBD

Vortragende(r) Julien Aziz
Titel Change-Adaptive Active Learning on Data Streams
Vortragstyp Masterarbeit
Betreuer(in) Marco Heyden
Vortragsmodus in Präsenz
Kurzfassung Data streams are ubiquitous in modern applications such as predictive maintenance or quality control. Data streams can change in unpredictable ways, challenging existing supervised learning algorithms that assume a stationary relationship between input data and labels. Supervised learning algorithms for data streams must therefore "adapt" to changing data distributions. Active learning (AL), a sub-field of supervised learning, aims to reduce the total cost of labeling by identifying the most valuable data points for training. However, existing stream-based AL methods have difficulty adapting to changes in data streams as they rely mainly on the sparsely labeled data and ignore the regionality of changes, resulting in slow change adaptions.

To address these issues, this thesis presents an active learning framework for data streams that adapts to regional changes in the underlying data stream. Our idea is to enrich hierarchical data stream clustering with labeling statistics to measure the regionality and relevance of changes. Using such information in stream-based active learning leads to more effective labeling, resulting in faster change adaption.

Freitag, 6. Oktober 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: https://sdq.kastel.kit.edu/institutsseminar/Microsoft_Teams

Vortragende(r) Mona Schulz
Titel (Freiwillige Teilnahme) Abschlussvortrag Praxis der Forschung SS23 II
Vortragstyp Vortrag
Betreuer(in) Kai Marquardt
Vortragsmodus in Präsenz
Kurzfassung Gamify Your Learning Experience -- Möglichkeiten von Gamification Lernprozesse und -erfolge zu visualisieren

Gamification enhances education by boosting motivation and fostering effective learning. This paper explores the link between game design elements and intrinsic motivation in education. Drawing from 24 scholarly papers, it identifies ten key game design elements: badges, points, leaderboards, virtual currency, progress bars, achievements, avatars, concept maps, storytelling, and feedback. To evaluate their impact, a survey using mockups was conducted. Results highlight the popularity of combinations like concept maps with progress bars and points with feedback. The study also uncovers correlations between preferred elements and learner characteristics. By uncovering these insights, the research advances gamification in education and guides tailored approaches for boosting student motivation.

Freitag, 3. November 2023, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: https://sdq.kastel.kit.edu/wiki/SDQ-Institutsseminar/Microsoft_Teams

Vortragende(r) Tom Hüller
Titel Automated Consistency of Legal and Software Architecture System Specifications for Data Protection Analysis
Vortragstyp Bachelorarbeit
Betreuer(in) Nicolas Boltz
Vortragsmodus in Präsenz
Kurzfassung Data breaches exposing personal information mean a significant loss of customer trust and leave companies vulnerable to civil lawsuits. This makes identifying problems in early development phases an important part of keeping software development costs predictable and manageable.

In this thesis, we present approaches that allow system architects to extract legal specifications from artifacts created during system design and analyze them for GDPR compliance. We provide a model transformation between a DFD representation and a GDPR metamodel, which aims to model some of the complex requirements of the GDPR. The transformations work in both directions while keeping additional information to allow the architect to make changes to the system on either the architectural or legal side of the transformation. We provide an analysis tool that is able to identify GDPR violations on the GDPR metamodel, allowing analysis on both sides of the transformation.