Attribut:Kurzfassung

Aus SDQ-Institutsseminar

Dies ist ein Attribut des Datentyps Text.

Unterhalb werden 20 Seiten angezeigt, auf denen für dieses Attribut ein Datenwert gespeichert wurde.
S
Source code plagiarism is a widespread problem in computer science education. To counteract this, software plagiarism detectors can help identify plagiarized code. Most state-of-the-art plagiarism detectors are token-based. It is common to design and implement a new dedicated language module to support a new programming language. This process can be time-consuming, furthermore, it is unclear whether it is even necessary. In this thesis, we evaluate the necessity of dedicated language modules for Java and C/C++ and derive conclusions for designing new ones. To achieve this, we create a language module for the intermediate representation of LLVM. For the evaluation, we compare it to two existing dedicated language modules in JPlag. While our results show that dedicated language modules are better for plagiarism detection, language modules for intermediate representations show better resilience to obfuscation attacks.  +
Bei Modelltransformationen kann es vorkommen, dass Objekte dupliziert werden müssen. Das ist zum Beispiel der Fall, wenn eine Relation zu einer Komposition transformiert wird. Die Probleme können allerdings auch komplexer sein, wenn Quellmetamodell und Zielmetamodell sich stark voneinander unterscheiden. Die graphische Modelltransformationssprache M²ToS wurde um zwei Sprachkonzepte erweitert, sodass es einfacher ist Objekte dynamisch bei einer Modelltransformation zu Vervielfältigen. Eines der Konzepte kann beeinflussen, wie Objekte bei einer Transformation übertragen werden. Das andere Konzept kann durch eine Nachbereitung des Zielmodells Objekte bei Bedarf duplizieren. Die beiden Spracherweiterung wurden anhand von einem Katalog von Modelltransformationsoperatoren, einigen Praxisbeispielen und durch eine Umfrage zur Benutzbarkeit evaluiert. Dabei hat sich herausgestellt, dass die Sprachkonzepte die Mächtigkeit von M²ToS zwar erhöhen, die Komplexität der Sprache für den Benutzer aber auch erhöht wird.  +
The goal of this thesis is to provide a generic concept of a correspondence model (CM) to map high-level model elements to corresponding low-level model elements and to generate this mapping during implementation of the high-level model using a correspondence model generator (CGM). In order to evaluate our approach, we implement and integrate the CM for the iObserve project. Further we implement the proposed CMG and integrate it into ProtoCom, the source code generator used by the iObserve project. We first evaluate the feasibility of this approach by checking whether such a correspondence model can be specified as desired and generated by the CGM. Secondly, we evaluate the accuracy of the approach by checking the generated correspondences against a reference model.  +
The reliable detection of change points is a fundamental task when analysing data across many fields, e.g., in finance, bioinformatics, and medicine. To define “change points”, we assume that there is a distribution, which may change over time, generating the data we observe. A change point then is a change in this underlying distribution, i.e., the distribution coming before a change point is different from the distribution coming after. The principled way to compare distributions, and to find change points, is to employ statistical tests. While change point detection is an unsupervised problem in practice, i.e., the data is unlabelled, the development and evaluation of data analysis algorithms requires labelled data. Only few labelled real world data sets are publicly available and many of them are either too small or have ambiguous labels. Further issues are that reusing data sets may lead to overfitting, and preprocessing (e.g., removing outliers) may manipulate results. To address these issues, van den Burg et al. publish 37 data sets annotated by data scientists and ML researchers and use them for an assessment of 14 change detection algorithms. Yet, there remain concerns due to the fact that these are labelled by hand: Can humans correctly identify changes according to the definition, and can they be consistent in doing so? The goal of this Bachelor's thesis is to algorithmically label their data sets following the formal definition and to also identify and label larger and higher-dimensional data sets, thereby extending their work. To this end, we leverage a non-parametric hypothesis test which builds on Maximum Mean Discrepancy (MMD) as a test statistic, i.e., we identify changes in a principled way. We will analyse the labels so obtained and compare them to the human annotations, measuring their consistency with the F1 score. To assess the influence of the algorithmic and definition-conform annotations, we will use them to reevaluate the algorithms of van den Burg et al. and compare the respective performances.  
The reliable detection of change points is a fundamental task when analyzing data across many fields, e.g., in finance, bioinformatics, and medicine. To define “change points”, we assume that there is a distribution, which may change over time, generating the data we observe. A change point then is a change in this underlying distribution, i.e., the distribution coming before a change point is different from the distribution coming after. The principled way to compare distributions, and thus to find change points, is to employ statistical tests. While change point detection is an unsupervised problem in practice, i.e., the data is unlabeled, the development and evaluation of data analysis algorithms requires labeled data. Only a few labeled real-world data sets are publicly available, and many of them are either too small or have ambiguous labels. Further issues are that reusing data sets may lead to overfitting, and preprocessing may manipulate results. To address these issues, Burg et al. publish 37 data sets annotated by data scientists and ML researchers and assess 14 change detection algorithms on them. Yet, there remain concerns due to the fact that these are labeled by hand: Can humans correctly identify changes according to the definition, and can they be consistent in doing so?  +
State of the Art Vortrag im Rahmen der Praxis der Forschung.  +
In dieser Arbeit geht es um die Analyse von LLVM-Quellcode mit dem Ziel, einen Indikator für die Anzahl der CPU-Instruktionen zu finden. Ein Indikator ist ein geschlossener Term, der für eine bestimmte Eingabe die Anzahl der CPU-Instruktionen eines Stück Codes liefert. Diese Definition korreliert mit der Eingabegröße eines Programmes. Wir analysieren den Kontrollflussgraph und Schleifenbedingungen, um Variablen im Code zu finden, die stellvertretend für die Eingabegröße stehen. Diese Indikator-Ermittlung ist ein Fundament für bessere Online-Autotuner in der Zukunft, die sich automatisch auf Eingaben wechselnder Größen einstellen können.  +
The evaluation of data stream mining algorithms is an important task in current research. The lack of a ground truth data corpus that covers a large number of desireable features (especially concept drift and outlier placement) is the reason why researchers resort to producing their own synthetic data. This thesis proposes a novel framework ("streamgenerator") that allows to create data streams with finely controlled characteristics. The focus of this work is the conceptualization of the framework, however a prototypical implementation is provided as well. We evaluate the framework by testing our data streams against state-of-the-art dependency measures and outlier detection algorithms.  +
The extraction of knowledge from data streams is one of the most crucial tasks of modern day data science. Due to their nature data streams are ever evolving and knowledge derrived at one point in time may be obsolete in the next period. The need for specialized algorithms that can deal with high-dimensional data streams and concept drift is prevelant. A lot of research has gone into creating these kind of algorithms. The problem here is the lack of data sets with which to evaluate them. A ground truth for a common evaluation approach is missing. A solution to this could be the synthetic generation of data streams with controllable statistical propoerties, such as the placement of outliers and the subspaces in which special kinds of dependencies occur. The goal of this Bachelor thesis is the conceptualization and implementation of a framework which can create high-dimensional data streams with complex dependencies.  +
Der Vergleich von zwei Sprachkorpora wird durch einen Homogenitätstest realisiert. Aufgrund der Verfügbarkeit vieler Sprachkorpora unterschiedlicher Sprachen als auch deren zeitlichen Entwicklung, ist diese Methode nicht mehr ausreichend. Diese Arbeit beschäftigt sich damit unterschiedlich sprachige Korpora vergleichbar zu machen. Darüber hinaus werden erste Ansätze zum Vergleich zeitlicher Entwicklungen zwischen verschiedenen Sprachkorpora gegeben.  +
Kernel methods are among the most well-known approaches in data science. Their ability to represent probability distributions as elements in a reproducing kernel Hilbert space gives rise to maximum mean discrepancy (MMD). MMD quantifies the dissimilarity of two distributions and allows powerful two-sample tests on many domains. One important application of general two-sample tests is change detection in data streams: Here, one tests the null hypothesis that the distributions of data within the stream do not change versus the alternative hypothesis that the distributions do change; a change in distribution then indicates a change point. The broad applicability of kernel-based two-sample tests renders their use for change detection in data streams highly desirable. But, their quadratic runtime complexity prohibits their application. While approximations for kernel methods that reduce their runtime in the static setting exist, their application to data streams is challenging. In this thesis, we propose a novel change detector, RADMAN, which leverages the random Fourier feature-based kernel approximation to efficiently detect changes in data streams with a polylogarithmic runtime complexity of O(log^2 n) per insert operation, with n the total number of observations. The proposed approach runs significantly faster than existing methods but obtains similar result quality. Our experiments on synthetic and real-world data sets show that it performs better than current state-of-the-art approaches.  +
Many modern applications take a potentially infinite stream of events as input to interpret and process the data. The established approach to handle such tasks is called Event Stream Processing. The underlying technologies are designed to process this stream efficiently, but applications based on this approach can become hard to maintain, as the application grows. A model-driven approach can help to manage increasing complexity and changing requirements. This thesis examines how a combination of Event Stream Processing and Model-Driven Engineering can be used to handle an incoming stream of events. An architecture that combines these two technologies is proposed and two case studies have been performed. The DEBS grand challenges from 2015 and 2016 have been used to evaluate applications based on the proposed architecture towards their performance, scalability and maintainability. The result showed that they can be adapted to a variety of change scenarios with an acceptable cost, but that their processing speed is not competitive.  +
Data streams are omnipresent. Think of sensor data, bank transactions, or stock movements. We assume that such data is generated according to an underlying distribution, which may change at so-called change points. These points signal events of interest; hence one wants to detect them. A principled approach for finding such change points is to use maximum mean discrepancy (MMD) for a statistical hypothesis test, with the null hypothesis that the distribution does not change. However, the quadratic runtime of MMD prohibits its application in the streaming setting. Approximations for that setting exist but these suffer from high variance. In the static setting, the so-called Nyström method allows to reduce the quadratic runtime of MMD with only a slight increase in variance. We propose an algorithm to employ Nyström estimators for MMD in the streaming setting and compare it to existing approximations.  +
Die Anzahl der Funktionen, die in Software realisiert werden, nimmt in modernen Fahrzeugen immer weiter zu. Da davon verstärkt auch sicherheitskritische Funktionen wie Fahrsicherheits- und Fahrerassistenzsysteme betroffen sind, steigen die Anforderungen an die Zuverlässigkeit der zugrundeliegenden Hardware. Das bedeutet, dass Hardware-Komponenten nicht ausfallen dürfen, sobald kritische Funktionen auf ihr betrieben werden. Um mit diesen Herausforderungen umzugehen, definiert die Industrienorm ISO 26262 (ISO, 2011) ein Vorgehensmodell, dass die funktionale Sicherheit eines Systems mit elektrischen/elektronischen Komponenten im Kraftfahrzeug gewährleisten soll. Sie passt die IEC 61508 (IEC, 2010) an die spezifischen Gegebenheiten im Automobilbereich an. Nach ISO 26262 muss ein System bereits zur Entwurfszeit hinreichend auf seine Zuverlässigkeit analysiert werden. Denn eine Anpassung der Architektur ist nur möglich, wenn Hardware-Ausfälle frühzeitig im Entwicklungsprozess berücksichtigt werden. Mit Hilfe eines Systematic Literature Reviews soll in dieser Arbeit untersucht werden, welche Ansätze es in der Literatur zur Ausfallmodellierung der Hardware-Komponenten von sicherheitskritischen Systemen gibt. Die Recherche lieferte zwei Ansätze: Einer zeigt, wie die Modellierung von Hardware-Ausfällen um eine Weibull-verteile Ausfallrate erweitert werden kann. Ein anderer zeigt, wie die Zustandsmodellierung um einen weiteren Fehlerzustand ergänzt werden kann. Für diese Erweiterungen wurde eine Konzeption skizziert und anschließend deren Integration in die Modellauswertung von Palladio diskutiert.  +
Nach der Entwicklung eines Informationssystems im Rahmen einer studentischen Teamarbeit am Lehrstuhl "Systeme der Informationsverwaltung", das den Studierenden bei der Studienplanung unterstützt, soll dieses System erweitert werden, sodass es auch den Dozenten bei der Einplanung ihrer Lehrveranstaltungen in das Lehrangebot des jeweiligen Modulhandbuchs unterstützen kann. In dieser Arbeit wurde eine Anforderungsanalyse durchgeführt und konzipiert, wie das existierende System erweitert werden kann. Der Lehrstuhl hat bereits umfangreiche Erfahrung in datengestützter Verifikation von Prozessabläufen unter Nutzung von Petri Netzen. Da ein Studienplan als Ablauf seiner Lehrveranstaltungen als Prozess allerdings mit involvierten Daten modelliert werden kann, wurden in dieser Arbeit Verifikationsmethoden untersucht und kombiniert, um eine Datenwert-basierte Verifikation von Petri-Netz-Modellen zu ermöglichen. Anhand der Ergebnisse wurden Tests durchgeführt, um zu untersuchen, inwiefern solche Verifikationsmethoden die Studienpläne auf Korrektheit überprüfen können. Die Tests und die Untersuchungen haben gezeigt, dass ein Einsatz von Verifikationsmethoden für Petri-Netze zur Unterstützung eines solchen Systems unter bestimmten Einschränkungen ermöglicht werden kann.  +
Outlier detection is an important yet challenging task, especially for unlabeled, high-dimensional, datasets. Due to their self-supervised generative nature, Generative Adversarial Networks (GAN) have proven themselves to be one of the most powerful deep learning methods for outlier detection. However, most state-of-the-art GANs for outlier detection share common limitations. Oftentimes we only achieve great results if the model’s hyperparameters are properly tuned or the underlying network structure is adjusted. This optimization is not possible in practice when the data is unlabeled. If not tuned properly, it is not unusual that a state-of-the-art GAN method is outperformed by simpler shallow methods. We propose using a GAN architecture with feature ensemble learning to address hyperparameter sensibility and architectural dependency. This follows the success of feature ensembling in mitigating these problems inside other areas of Deep Learning. This thesis will study the optimization problem, training, and tuning of feature ensemble GANs in an unsupervised scenario, comparing it to other deep generative methods in a similar setting.  +
Modern data mining often takes place on high-dimensional data streams, which evolve at a very fast pace: On the one hand, the "curse of dimensionality" leads to a sparsely populated feature space, for which classical statistical methods perform poorly. Patterns, such as clusters or outliers, often hide in a few low-dimensional subspaces. On the other hand, data streams are non-stationary and virtually unbounded. Hence, algorithms operating on data streams must work incrementally and take concept drift into account. While "high-dimensionality" and the "streaming setting" provide two unique sets of challenges, we observe that the existing mining algorithms only address them separately. Thus, our plan is to propose a novel algorithm, which keeps track of the subspaces of interest in high-dimensional data streams over time. We quantify the relevance of subspaces via a so-called "contrast" measure, which we are able to maintain incrementally in an efficient way. Furthermore, we propose a set of heuristics to adapt the search for the relevant subspaces as the data and the underlying distribution evolves. We show that our approach is beneficial as a feature selection method and as such can be applied to extend a range of knowledge discovery tasks, e.g., "outlier detection", in high-dimensional data-streams.  +
Im Forschungsbereich Softwaretechnik werden viele Publikationen in Form von wissenschaftlichen Aufsätzen veröffentlicht. Für Wissenschaftler ist es wichtig, das gewonnene Wissen zu organisieren und zugänglich zu machen. Zur Erfassung und Strukturierung von Publikationen ist der Open Research Knowledge Graph (ORKG) ein System, das Publikationen aus verschiedenen Forschungsbereichen verwalten, visualisieren und vergleichen kann. Aktuell wird das Hinzufügen von Publikationen manuell durch die Nutzer durchgeführt. Um diesen Prozess zu verbessern und zu erleichtern, kann eine automatische Klassifizierung eingesetzt werden. In dieser Masterarbeit stellen wir einen Ansatz zur Unterstützung des Import-Prozesses für den ORKG vor, indem wir Publikationen aus dem Bereich der Softwarearchitektur mit Sprachmodellen klassifizieren. Für den Ansatz beurteilen wir, wie gut die Sprachmodelle abschneiden und welchen Umwelteinfluss die Klassifizierung hat. Für die Klassifizierung greifen wir auf den Datensatz zurück, welcher eine Taxonomie und einen Datensatz mit Softwarearchitektur-Veröffentlichungen beinhaltet. Auf dem Datensatz wenden wir verschiedene Techniken wie Splitting und Oversampling an, bevor wir ihn an die Sprachmodelle übergeben. Für die Klassifizierung verwenden wir zwei verschieden Ansätze. Zum einen trainieren wir Sprachmodelle und führen eine Hyperparameter Suchen durch. Zum anderen verwenden wir einen Zero-Shot Ansatz um Vorhersagen für die Softwarearchitektur Publikationen zu erhalten. Wir konnten zeigen, dass die trainierten Sprachmodelle gut funktionieren, wenn genügend Vertreter für die Label vorhanden sind. Mit der Oversampling-Strategie konnten wir unsere Ergebnisse verbessern. Für Kategorien mit weniger Labels konnten wir zeigen, dass der Zero-Shot Ansatz besser abschneidet. Für den Umwelteinfluss konnten wir zeigen, dass das kleinere Sprachmodell DistilBERT für die trainierten Sprachmodelle und Mistral bzw. Llama2:7b für den Zero-Shot Ansatz im Vergleich zu größeren Sprachmodellen wie DeBERTa und Llama2:70b weniger CO2-Emissionen verursachen, um gute Ergebnisse zu erzielen. Unsere erstellte Implementierung kann für zukünftige Vorhersagen in Wissensmanagementsystemen integriert werden und unterstützt die Vorhersage für neue Taxonomien und Datensätze.  
Manufacturing optimization is crucial for organizations to remain competitive in the market. However, complex processes, such as textile forming, can be challenging to optimize, requiring significant resources. Surrogate-based optimization is an efficient method that uses simplified models to guide the search for optimal parameter combinations of manufacturing processes. Moreover, incorporating uncertainty estimates into the model can further speed up the optimization process, which can be achieved by using Bayesian deep neural networks. Additionally, convolutional neural networks can take advantage of spatial information in the images that are part of the textile forming parameters. In this work, a Bayesian deep convolutional surrogate model is proposed that uses all available process parameters to predict the shear angle of a textile element. By incorporating background information into the surrogate model, it is expected to predict detailed process results, leading to greater efficiency and increased product quality.  +