Attribut:Kurzfassung

Aus SDQ-Institutsseminar

Dies ist ein Attribut des Datentyps Text.

Unterhalb werden 50 Seiten angezeigt, auf denen für dieses Attribut ein Datenwert gespeichert wurde.
K
Die Einhaltung datenschutzrechtlicher Aspekte sind in der Softwareentwicklung von zunehmender Bedeutung. Um den Prozess der Zusammenarbeit zwischen Softwarearchitekten und Rechtsexperten zu vereinfach und eine selbständigere Arbeitsweise des Softwarearchitekten zu erlangen, wird in dieser Bachelorarbeit ein Konzept zum automatisierten Annotieren rechtlicher Kommentare entwickelt. Im ersten Schritt wird ein Katalog relevanter rechtlicher Kommentare zur DSGVO zusammengestellt, welcher im darauf folgenden Schritt zentraler Bestandteil des Annotationsmechanismus ist. Bei diesem werden die formulierten Kommentare den entsprechenden Modellklassen einer DSGVO-Instanz als Paare zugeordnet und ausgegeben. Durch diese Zuordnung erhält der Softwarearchitekt erste Hinweise auf Datenschutzaspekte, die in seinem Softwaremodell relevant sind und die er im Speziellen berücksichtigen sollte. Darüber hinaus wird er für die DSGVO sensibilisiert und in seiner Modellierung unterstützt.  +
Durch die voranschreitende Vernetzung und Digitalisierung vergrößert sich die Angriffsfläche von Industrieanlagen drastisch. Umso wichtiger wird es beim Entwurf von Industrie 4.0 Anlagen, so früh wie möglich eine Betrachtung der Sicherheitsaspekte vorzunehmen. Die Durchführung von Sicherheitsanalysen zur Entwurfszeit sind jedoch Aufwändig und müssen immer händisch von einem Sicherheitsexperten durchgeführt werden. Obwohl bereits Lösungsansätze zur modellbasierten Unterstützung von Sicherheitsanalysen existieren, sind diese nicht auf den Kontext der Industrie 4.0 zugeschnitten. In dieser Bachelorarbeit werden zwei Konzepte für eine modellbasierte Unterstützung von Sicherheitsanalysen im frühen Entwurf von Industrie 4.0 Anlagen vorgestellt. Dabei werden die Sicherheitsanforderungen von Datenflüssen über die gesamte Anlage hinweg betrachtet und weiterhin eine kontextbasierte Sicherheitsanalyse zur Unterstützung vorgeschlagen.  +
Die Vernetzung von Software über das Internet und andere Kanäle stellt eine grundsätzliche Gefahr für die Sicherheit von Daten und Systemen dar. Gelangen Informationen in die falschen Hände können enorme wirtschaftliche und soziale Schäden entstehen. Es ist deshalb wichtig die Sicherheit von Systemen bereits zur Entwurfszeit zu berücksichtigen. Mittels Analysewerkzeugen auf Architektursicht können Sicherheitseigenschaften auf einer höheren Abstraktionsebene frühzeitig definiert und überprüft werden. Auf Quelltext-sicht bieten statische, musterbasierte Analysewerkzeuge einen Ansatz zur Überprüfung der korrekten Verwendung von kritischen Schnittstellen. Bisher wurde noch keine Kombination dieser beiden Analyseansätze vorgenommen, um die auf Architektursicht getroffenen Annahmen der im Quelltext umgesetzten Sicherheitseigenschaften auf fehlerhafte Umsetzung zu überprüfen. Deshalb wird untersucht, wie sich eine Kopplung der beiden Sichten und eine Rückführung der Ergebnisse einer Quelltextanalyse in die Architektursicht realisieren lässt. Die vorliegende Arbeit definiert zunächst die für eine Kopplung notwendigen Eigenschaften der Analysen. Darauf basierend wird dann ein Ansatz für eine Kopplung konzipiert. Eine konkrete Umsetzung des Ansatzes wurde im Rahmen der vorliegenden Arbeit mit den Rahmenwerken Confidentiality4CBSE auf Architektursicht und CogniCrypt auf Quelltextsicht in Java vorgenommen. Die Evaluation des Ansatzes erfolgt an Hand eines Fallbeispiels. Die Ergebnisse zeigen, dass die Kopplung von Architekturanalysen mit musterbasierten Quelltextsicherheitsanalysen machbar ist und dass durch die Kopplung von Quelltextfehler mit der Architekturanalyse zusätzliche Fehler aufgedeckt werden.  +
Um mögliche Inkonsistenzen zwischen technischen Modellen und ihren verursachenden Workflows in der Fertigungsindustrie zu identifizieren, wurde der gesamte Fertigungsprozess eines beispielhaften Präzisionsfertigers in einzelne Workflows aufgeteilt. Daraufhin wurden neun Experteninterviews durchgeführt, um mögliche Inkonsistenzen zwischen technischen Modellen zu identifizieren und diese in die jeweiligen verursachenden Workflows zu kategorisieren. Insgesamt wurden 13 mögliche Inkonsistenzen dargestellt und ihre jeweilige Entstehung erläutert. In einer zweiten Interview-Iteration wurden die Experten des Unternehmens erneut zu jeder zuvor identifizierten Inkonsistenz befragt, um die geschätzten Auftrittswahrscheinlichkeiten der Inkonsistenzen und mögliche Auswirkungen auf zuvor durchgeführte, oder darauf folgende Workflows in Erfahrung zu bringen.  +
L
Fehler in einer Software können unter Umständen nicht behoben werden, da die Fehlerursache in der Architektur der Software liegt. Um diesen Fall vorzubeugen, gibt es verschiedenste Ansätze diese Fehler frühzeitig zu erkennen und zu eliminieren. Ein Ansatz sind Sicherheitsanalysen auf Architekturebene. Diese spezifizieren den Aspekt der Sicherheit auf unterschiedliche Weise und können dadurch verschiedene Erkenntnisse über die Sicherheit des Systems erhalten. Dabei wäre es praktischer, wenn die Erkenntnisse der Sicherheitsanalysen kombiniert werden können, um ein aussagekräftigeres Ergebnis zu erzielen. In dieser Arbeit wird ein Ansatz zum Kombinieren von zwei Architektur Sicherheitsanalysen vorgestellt. Die erste Analyse erkennt physische Schwachstellen durch einen Angreifer im System. Die zweite Analyse erkennt mögliche Ausbreitungsschritte eines Angreifers im System. Die Analysen werden kombiniert, indem die Ergebnisse der ersten Analyse zum Erstellen der Eingabemodelle für die zweite Analyse genutzt werden. Dafür wird ein Ausgabemetamodell erstellt und ein Parser implementiert, welcher die Ergebnisse der ersten Analyse in eine Instanz des Ausgabemetamodells übersetzt. Daraus werden die benötigten Informationen für die zweite Analyse extrahiert. Die Machbarkeit und der Mehrwert des Ansatzes wird in einer Fallstudie evaluiert. Diese ergab, dass die Übertragung machbar ist und aussagekräftigere Ergebnisse erzielt werden konnten.  +
In der Softwareentwicklung ist die Konsistenz zwischen Artefakten ein wichtiges Thema. Diese Arbeit schlägt eine Struktur zur Erkennung von korrespondierenden und fehlenden Elementen zwischen einer Dokumentation und einem formalen Modell vor. Zunächst identifiziert und extrahiert der Ansatz die im Text beschriebenen Modell-instanzen und -beziehungen. Dann verbindet der Ansatz diese Textelemente mit ihren entsprechenden Gegenstücken im Modell. Diese Verknüpfungen sind mit Trace-Links vergleichbar. Der Ansatz erlaubt jedoch die Abstufung dieser Links. Darüber hinaus werden Empfehlungen für Elemente generiert, die nicht im Modell enthalten sind. Der Ansatz identifiziert Modellnamen und -typen mit einem F1-Wert von über 54%. 60% der empfohlenen Instanzen stimmen mit den in der Benutzerstudie gefundenen Instanzen überein. Bei der Identifizierung von Beziehungen und dem Erstellen von Verknüpfungen erzielte der Ansatz vielversprechende Ergebnisse. Die Ergebnisse können durch zukünftige Arbeiten verbessert werden. Dies ist realisierbar da der Entwurf eine einfache Erweiterung des Ansatzes erlaubt.  +
In high-volume data streams it is often unpractical to monitor all observations -- often we are only interested in deviations from the normal operation. Detecting outlying observations in data streams is an active area of research. However, most approaches assume that the data's dimensionality, i.e., the number of attributes, stays constant over time. This assumption is unjustified in many real-world use cases, such as sensor networks or computer cluster monitoring. Feature-evolving data streams do not impose this restriction and thereby pose additional challenges. In this thesis, we extend the well-known Local Outlier Factor (LOF) algorithm for outlier detection from the static case to the feature-evolving setting. Our algorithm combines subspace projection techniques with an appropriate index structure using only bounded computational resources. By discarding old observations our approach also deals with concept drift. We evaluate our approach against the respective state-of-the-art methods in the static case, the streaming case, and the feature-evolving case.  +
With the increasing popularity of location-based services and mobile online social networks (mOSNs), secrecy concerns have become one of the main worries of its users due to location information exposure. Users are required to store their location, i.e., physical position, and the relationships that they have with other users, e.g., friends, to have access to the services offered by these networks. This information, however, is sensitive and has to be protected from unauthorized access. In this thesis, we aim to offer location-based services to users of mOSNs while guaranteeing that an adversary, including the service provider, will not be able to learn the locations of the users (location secrecy) and the relationship existing between them (relationship secrecy). We consider both linking attacks and collusion attacks. We propose two approaches R-mobishare and V-mobishare, which combine existing cryptographic techniques. Both approaches use, among others, private broadcast encryption and homomorphic encryption. Private broadcast encryption is used to protect the relationships existing between users, and homomorphic encryption is used to protect the location of the users. Our system allows users to query their nearby friends. Next, we prove that our proposed approaches fulfill our secrecy guarantees, i.e., location and relationship secrecy. Finally, we evaluate the query performance of our proposed approaches and use real online social networks to compare their performance. The result of our experiments shows that in a region with low population density such as suburbs, our first approach, R-mobishare, performs better than our approach V-mobishare. On the contrary, in a region with high population density such as downtown, our second approach, V-mobishare, perform better than R-mobishare.  +
M
The rapid growth of renewable energy sources and the increased sales in electric vehicels contribute to a more volatile power grid. Energy suppliers rely on data to predict the demand and to manage the grid accordingly. The rollout of smart meters could provide the necessary data. But on the other hand, smart meters can leak sensitive information about the customer. Several solution were proposed to mitigate this problem. Some depend on privacy measures to calculate the degree of privacy one could expect from a solution. This bachelor thesis constructs a set of experiments which help to analyse some privacy measures and thereby determine, whether the value of a privacy measure increases or decreases with an increase in privacy.  +
In Model-Driven software development, a complex system is often modeled in different, specialized models. To keep consistency, VITRUVIUS provides a mechanism to define consistency preserving actions for different models. Furthermore, versioning is an important task at developing software. There are various concepts and implementations for the versioning of models, e.g., EMFStore, but none of these are able to guarantee the cross-model consistency provided by VITRUVIUS. Thus, conflicting changes in different models may not be identified as conflicting while merging different branches. In this thesis, an approach is presented that defines a versioning system and preserves the consistency of models of the same system. The approach is based on a graph analysis of the dependency graph of the occurred changes. Besides a requirement relation the dependency graph includes a trigger relation. Afterwards, the two dependency graphs are scanned for a subgraph isomorphism. All changes outside of the isomorphism are potentially conflicting changes. At the manual change resolution, the trigger and the require relation is used to guarantee that a change is applicable and after its application all models are consistent with each other. The approach is illustrated and validated with an application, which combines component-based architectures and class diagrams.  +
Feature Selection ist ein Prozess, der redundante Features aus Datensätzen entfernt. Das resultiert in kürzeren Trainingszeiten und verbessert die Performance von Machine Learning Modellen, weswegen Feature Selection ein wichtiger Bestandteil von Machine Learning Pipelines ist. Die Berechnung der Feature Importance ist jedoch häufig sehr aufwendig und erfordert das Training von Modellen. Ziel dieser Arbeit ist es, einen Meta-Learning Ansatz zu entwickeln, um die Wichtigkeit verschiedener Features für ein Klassifikationsproblem vorherzusagen, ohne vorher ein Modell auf den Daten trainiert zu haben. Meta-Learning ist ein Bereich des maschinellen Lernens, das sich mit der Vorhersage der Performance von verschiedenen Machine Learning Modellen beschäftigt. Für Vorhersagen dieser Art wird ein Meta-Datensatz benötigt, dessen Einträge individuelle Datensätze repräsentieren, die von Meta-Features charakterisiert werden. Die Zielvariablen eines Meta-Datensatzes sind häufig die Performance-Werte verschiedener Klassifikationsmodelle auf den jeweiligen Datensätzen. Im Rahmen dieser Arbeit sollen Meta-Features erarbeitet und implementiert werden, die nicht nur ganze Datensätze, sondern individuelle Features eines Datensatzes charakterisieren. Als Zielvariablen werden Feature Importance Werte verschiedener Verfahren eingesetzt. Erste Ergebnisse zeigen, dass eine positive Korrelation zwischen tatsächlichen und vorhergesagten Feature Importance Werten besteht.  +
In the process of machine learning, the data to be analyzed is often not only numerical but also categorical data. Therefore, encoders are developed to convert categorical data into the numerical world. However, different encoders may have other impacts on the performance of the machine learning process. To this end, this thesis is dedicated to understanding the best encoder selection using meta-learning approaches. Meta-learning, also known as learning how to learn, serves as the primary tool for this study. First, by using the concept of meta-learning, we find meta-features that represent the characteristics of these data sets. After that, an iterative machine learning process is performed to find the relationship between these meta-features and the best encoder selection. In the experiment, we analyzed 50 datasets, those collected from OpenML. We collected their meta-features and performance with different encoders. After that, the decision tree and random forest are chosen as the meta-models to perform meta-learning and find the relationship between meta-features and the performance of the encoder or the best encoder. The output of these steps will be a ruleset that describes the relationship in an interpretable way and can also be generalized to new datasets.  +
Feature selection is essential to the field of machine learning, since its application results in an enhancement in training time as well as prediction error of machine learning models. The main problem of feature selection algorithms is their reliance on feature importance estimation, which requires the training of models and is therefore expensive computationally. To overcome this issue, we propose MetaLFI, a meta-learning system that predicts feature importance for classification tasks prior to model training: We design and implement MetaLFI by interpreting feature importance estimation as a regression task, where meta-models are trained on meta-data sets to predict feature importance for unseen classification tasks. MetaLFI calculates a meta-data set by characterizing base features using meta-features and quantifying their respective importance using model-agnostic feature importance measures as meta-targets. We evaluate our approach using 28 real-world data sets in order to answer essential research questions concerning the effectiveness of proposed meta-features and the predictability of meta-targets. Additionally, we compare feature rankings put out by MetaLFI to other feature ranking methods, by using them as feature selection methods. Based on our evaluation results, we conclude that the prediction of feature importance is a computationally cheap alternative for model-agnostic feature importance measures.  +
Feature Selection is an important process in Machine Learning to improve model training times and complexity. One state-of-the art approach is Wrapper Feature Selection where subsets of features are evaluated. Because we can not evaluate all 2^n subsets an appropriate search strategy is vital. Bayesian Optimization has already been successfully used in the context of hyperparameter optimization and very specific Feature Selection contexts. We want to look on how to use Bayesian Optimization for Feature Selection and discuss its limitations and possible solutions.  +
In the real world, mixed-type data is commonly used, which means it contains both categorical and numerical data. However, most algorithms can only learn from numerical data. This makes the selection of encoder becoming very important. In this presentation, I will present an approach by using ideas from meta-learning to predict the performance from the meta-features and encoders.  +
Active learning describes the topic of a human operator helping with the machine learning process. By asking for a classification of queries, the precision of the machine learning algorithm is increased. Existing research focuses on the idea of using a pool of unlabelled data points or use multiple class cases. We have developed a framework, that allows to synthesize a query in the one-class setting without requiring unlabelled data points. The optimal query is the data point with the highest amount of information. The amount of information for a specific data point is given by the informativeness function. We have created a framework to use metaheuristics to find the maximum of the informativeness function and thus determine the optimal query. We have also conducted experiments to provide a general guideline for the usage of metaheuristics in one-class query synthesis.  +
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.  +
Sobald ein System durch mehrere Modelle beschrieben wird, können sich diese verschiedenen Beschreibungen auch gegenseitig widersprechen. Modelltransformationen sind ein geeignetes Mittel, um das selbst dann zu vermeiden, wenn die Modelle von mehreren Parteien parallel bearbeitet werden. Es gibt mittlerweile reichhaltige Forschungsergebnisse dazu, Änderungen zwischen zwei Modellen zu transformieren. Allerdings ist die Herausforderung, Modelltransformationen zwischen mehr als zwei Modellen zu entwickeln, bislang unzureichend gelöst. Die Gemeinsamkeiten-Sprache ist eine deklarative, domänenspezifische Programmiersprache, mit der multidirektionale Modelltransformationen programmiert werden können, indem bidirektionale Abbildungsspezifikationen kombiniert werden. Da sie bis jetzt jedoch nicht empirisch validiert wurde, stellt es eine offene Frage dar, ob die Sprache dazu geeignet ist, realistische Modelltransformationen zu entwickeln, und welche Vorteile die Sprache gegenüber einer alternativen Programmiersprache für Modelltransformationen bietet. In dieser Abschlussarbeit entwerfe ich eine Fallstudie, mit der die Gemeinsamkeiten-Sprache evaluiert wird. Ich bespreche die Methodik und die Validität dieser Fallstudie. Weiterhin präsentiere ich Kongruenz, eine neue Eigenschaft für bidirektionale Modelltransformationen. Sie stellt sicher, dass die beiden Richtungen einer Transformation zueinander kompatibel sind. Ich leite aus praktischen Beispielen ab, warum wir erwarten können, dass Transformationen normalerweise kongruent sein werden. Daraufhin diskutiere ich die Entwurfsentscheidungen hinter einer Teststrategie, mit der zwei Modelltransformations- Implementierungen, die beide dieselbe Konsistenzspezifikation umsetzen, getestet werden können. Die Teststrategie beinhaltet auch einen praktischen Einsatzzweck von Kongruenz. Zuletzt stelle ich Verbesserungen der Gemeinsamkeiten-Sprache vor. Die Beiträge dieser Abschlussarbeit ermöglichen gemeinsam, eine Fallstudie zu Programmiersprachen für Modelltransformationen umzusetzen. Damit kann ein besseres Verständnis der Vorteile dieser Sprachen erzielt werden. Kongruenz kann die Benutzerfreundlichkeit beliebiger Modelltransformationen verbessern und könnte sich als nützlich herausstellen, um Modelltransformations-Netzwerke zu konstruieren. Die Teststrategie kann auf beliebige Akzeptanztests für Modelltransformationen angewendet werden.  
A cloud storage migration is usually done in one of two ways - via corresponding storage sync clients or SaaS migration tools. The SaaS migration tools can typically migrate the data significantly faster, as they are not as constrained by the Internet bandwidth as the users are. Such tools incorporate a server that reads the data from the user’s old cloud storage and copies it to another, desired cloud storage. This server is referred to as "migration server". The geographic location of the migration server can influence the duration of the cloud storage migration. Commonly, it is reported that closer distances yield better results in terms of speed over the Internet and hence, the expectation is that a migration server placed at the geographic midpoint between the data centers of the cloud storages involved, will lead to good results. We investigate different influences on cloud storage migration speed and conceptualize an algorithm for choosing a migration server location in a generic cloud storage migration scenario. In an experimental evaluation, the results of the algorithm are compared against the results of the geographic midpoint between the data centers of the cloud storages involved in the migration. midpoint, determine the necessity of developing an algorithm for choosing a migration serverlocation and ultimately present some of the guidelines for developing such an algorithm.  +
In Zeiten des Umstiegs auf erneuerbare Energien und dem Einsatz von Smart Metern zum Messen und Steuern des Netzes stellen sich neue Herausforderungen für die Stromversorgung. Um die Kommunikation des Smart Grids zu ermöglichen wird vorgeschlagen das Netzwerk in Microgrids zu unterteilen. Dazu wird eine sinnvolle Aufteilung und eine robuste Kommunikationstopologie benötigt. In dieser Arbeit werden die Anforderungen einer solchen Aufteilung und Topologie erarbeitet und verschiedene Lösungsansätze vorgeschlagen und verglichen. Basierend auf den Ergebnissen wird ein anpassungsfähiger Algorithmus entworfen, der ein Stromnetz in mehrere Microgrids zerlegt und eine Kommunikationstopologie erzeugt.  +
With architecture models, software developers and architects are able to enhance their documentation and communication, perform architecture analysis, design decisions and finally with PCM, can start quality predictions. However, the manual creation of component architecture models for complex systems is difficult and time consuming. Instead, the automatic generation of architecture models out of existing projects saves time and effort. For this purpose, a new approach is proposed which uses technology specific rule artifacts and a rule engine that transforms the source code of software projects into a model representation, applies the given rules and then automatically generates a static software architecture model. The resulting architecture model is then usable for quality prediction purposes inside the PCM context. The concepts for this approach are presented and a software system is developed, which can be easily extended with new rule artifacts to be useful for a broader range of technologies used in different projects. With the implementation of a prototype, the collection of technology specific rule sets and an evaluation including different reference systems the proposed functionality is proven and a solid foundation for future improvements is given.  +
In energy studies, researchers build models for dynamic systems to predict the produced electrical output precisely. Since experiments are expensive, the researchers rely on simulations of surrogate models. These models use differential equations that can provide decent results but are computationally expensive. Further, transition phases, which occur when an input change results in a delayed change in output, are modeled individually and therefore lacking generalizability. Current research includes Data Science approaches that need large amounts of data, which are costly when performing scientific experiments. Theory-Guided Data Science aims to combine Data Science approaches with domain knowledge to reduce the amount of data needed while predicting the output precisely. However, even state-of-the-art Theory-Guided Data Science approaches lack the possibility to model the slopes occuring in the transition phases. In this thesis we aim to close this gap by proposing a new loss constraint that represents both transition and stationary phases. Our method is compared with theoretical and Data Science approaches on synthetic and real world data.  +
Durch den gezielten Einsatz von Energiespeichern, wie bspw. Lithium-Ionen-Batterien, können Spitzenlasten in Verbrauchsprofilen und damit unter anderem auch für Großverbraucher von den Spitzenlasten abhängige Energiekosten reduziert werden. Die Planung solcher Energiespeicher wird in der Regel mit Hilfe historischer Daten durchgeführt. Im Zuge dieser Arbeit wurde der Einfluss von Störungen (z.B. durch Sampling) in derartigen Daten auf Peak-Shaving-Ansätze am Beispiel einer Produktionsanlage am KIT Campus Nord genauer betrachtet. Mit den gewonnen Informationen wurden verschiedene Prädiktionsmodelle erzeugt, welche die Abweichung der Ergebnisse auf gestörten Zeitreihen gegenüber ungestörten Zeitreihen vorhersagen. Es konnte festgestellt werden, dass durch die Kombination aus den Ergebnissen und den Vorhersage der Modelle in den meisten Fällen eine Verbesserung der absoluten Abweichung erzielt werden kann.  +
Dynamic systems that reconfigure themselves use message queues as a common method to achieve decoupling between senders and receivers. Predicting the quality of systems at design time is crucial as changes in later phases of development get way more costly. At the moment, there is no method to represent message queues on an architectural level and predict their quality impact on systems. This work proposes a meta-model for enabling such representation and a simulation interface between a simulation of a component-based architecture description language and a messaging simulation. The interface is implemented for the Palladio simulator SimuLizar and an AMQP simulation. This enables architectural representation of messaging and predicting quality attributes of message-driven self-adaptive systems. The evaluation with a case study shows the applicability of the approach and its prediction accuracy for Point-To-Point communication.  +
Integrating a Zero Trust Architecture (ZTA) into a system is a step towards establishing a good defence against external and internal threats. However, there are different approaches to integrating a ZTA which vary in the used components, their assembly and allocation. The earlier in the development process those approaches are evaluated and the right one is selected the more costs and effort can be reduced. In this thesis, we analyse the most prominent standards and specifications for integrating a ZTA and derive a general model by extracting core ZTA tasks and logical components. We model these using the Palladio Component Model to enable assessing ZTAs at design time. We combine performance and security annotations to create a single model which supports both performance and security analysis. By doing this we also assess the possibility of combining performance and security analyses.  +
Software itself and the contexts, it is used in, typically evolve over time. Analyzing and ensuring security of evolving software systems in contexts, that are also evolving, poses many difficulties. In my thesis I declared a number of goals and propose processes for the elicitation of attacks, their prerequisites and mitigating security patterns for a given architecture model and for annotation of it with security-relevant information. I showed how this information can be used to analyze the systems security, in regards of modeled attacks, using an attack validity algorithm I specify. Process and algorithm are used in a case study on CoCoME in order to show the applicability of each of them and to analyze the fulfillment of the previously stated goals. Security catalog meta-models and instances of catalogs containing a number of elements have been provided.  +
In dieser Arbeit werden Verfahren entwickelt, um die den Datenaustausch in Fabrikanlagen durch die Anwendung von modell- und änderungsgetriebener Konsistenzerhaltung, wie sie für die Softwaretechnik entwickelt wurde, zu unterstützen. In der Arbeit fokussieren wir uns dabei besonders auf die Eingabe einer fehlerhaften (nicht auflösbaren) Referenz. Dafür kategorisieren wir die Eigenschaften der Referenzen und des Typs des jeweiligen Fehlers und entwickeln basierend darauf ein Regelwerk. Zum anderen werden in CAEX Prototypen genutzt, um Objekte zu instantiieren. Dabei hängt es von den individuellen Eigenschaften ab, ob die Prototypen und Klone im Anschluss daran konsistent gehalten werden sollen. Hierfür entwickeln wir wiederum Kategorien für die jeweiligen Eigenschaften, und aufbauend darauf ein Regelwerk. Beispielsweise sollte bei einem Prototypen für einen Roboter eine Änderung an seiner Hardware nicht auf Klone übertragen werden, die bereits in Fabriken eingesetzt werden. Diesen Ansatz implementierten wir mithilfe des VITRUVIUS-Frameworks, das ein Framework zur modell- und änderungsgetriebenen Konsistenzerhaltung darstellt. Anhand dessen konnten wir die Funktionalität unserer Implementierung zeigen. Durch ein Beispielmodell konnten wir zeigen, dass unsere Kategorisierungen von Referenzen, Fehlertypen, Eigenschaften und Klonen in der Fabrikanlagenplanung anwendbar sind.  +
In der modernen Software-Entwicklung wird eine Vielzahl von Subsystemen von Drittanbietern wiederverwendet, deren Realisierungen und Varianten jeweils einen dedizierten Einfluss auf die Qualitätseigenschaften des Gesamtsystems implizieren. Doch nicht nur die Realisierung und Variante eines Subsystems, sondern auch die Platzierung in der Zielarchitektur haben einen Einfluss auf die resultierende Qualität. In dieser Arbeit wird der bestehende Ansatz zur Modellierung und Simulation von wiederverwendbaren Subsystemen in Palladio bzw. PerOpteryx um einen neuen Inklusionsmechanismus erweitert, der eine flexible, feingranulare Modellierung und anschließende automatisierte Qualitätsoptimierung der Platzierung von wiederverwendbaren Subsystemen ermöglicht. Dazu wird eine domänenspezifische Sprache definiert, die eine deklarativen Beschreibung der Einwebepunkte in einem Architekturmodell durch aspektorientierte Semantiken erlaubt. Mithilfe eines Modellwebers werden die wiederverwendbaren Subsysteme in eine annotierte Zielarchitektur eingewebt. Schließlich wird der Ansatz in die automatisierte Qualitätsoptimierung von PerOpteryx integriert, sodass der Architekt bei seinen Entwurfsentscheidungen bezüglich dieser Freiheitsgrade unterstützt wird. Das vorgestellte Verfahren wurde durch eine simulationsbasierte Fallstudie anhand von realen Applikationsmodellen evaluiert. Es hat sich gezeigt, dass der Ansatz geeignet ist, um eine Vielzahl von Architekturkandidaten automatisiert generieren bzw. evaluieren und somit einen Architekten bei seinen Entwurfsentscheidungen unterstützen zu können.  +
Zukünftige Anwendungen der Automobilindustrie, wie beispielsweise das autonome Fahren oder die fortschreitende Elektrifizierung der Fahrzeuge, resultieren in einer ständig steigenden Anzahl an Funktionen bzw. einen immer größer werdenden Bedarf an Rechenleistung der elektronischen Steuereinheiten. Damit derartige Anwendungen realisiert werden können, führte die Entwicklung bei sicherheitskritischen, echtzeitfähigen eingebetteten Systemen zu Prozessoren mit mehreren Kernen (Multicore-Prozessoren). Dies reduziert einerseits die Komplexität des Netzwerks innerhalb des Fahrzeugs, jedoch werden aber sowohl die Komplexität der Hardware-Architektur für das Steuergerät als auch die Komplexität der Software-Architektur erhöht, aufgrund des zeitlichen Verhaltens des Systems, der gemeinsamen Ressourcennutzung, des gemeinsamen Speicherzugriffs, etc. Dadurch entstehen auch neue Anforderungen an die Tools des Enwticklungsprozesses von Multicore-Systemen. Um eine nahtlose Toolchain für diesen Entwicklungsprozess zu entwerfen, muss es schon zu einer frühen Phase der Funktionsentwicklung möglich sein, die benötigten Multicore-Eigenschaften des Systems zu modellieren, um diese nachher evaluieren zu können.  +
Mit dem Palladio Komponentenmodell (PCM) lassen sich Softwaresysteme modellieren und simulieren. Moderne verteilte Software-Systeme werden jedoch nicht mehr einfach statisch deployed, sondern es wird ein gewünschter Zustand definiert, der mithilfe einer Kontrollschleife dann eingehalten werden soll. Das passiert dann bspw. durch das Starten oder Stoppen von Containern und Pods. In dieser Arbeit wurde eine Erweiterung des PCM um die Konzepte von Containerorchestrierungswerkzeugen wie Kubernetes erarbeitet und umgesetzt. Zusätzlich wurde ein Konzept erarbeitet um dynamische Containerbasierte Systeme zu simulieren. Es wurde dabei insbesondere die Allokation bzw. Reallokation von Pods zur Simulationszeit betrachtet. Abschließend wurde die Modellerweiterung evaluiert.  +
Heutige emergente und verteilte Softwaresysteme sollen auch bei Teilausfällen ein bestimmtes Minimum an Funktionalität bereitstellen. Die Nachweisbarkeit von Reaktionen auf Fehlerszenarien ist deshalb bereits in frühen Phasen der Entwicklung essenziell. Denn so lassen sich Aussagen über die Zuverlässigkeit und Resilienz an leichtgewichtigen Modellen statt teuren Experimenten treffen. Bisherige Performance-Analysen im Palladio-Komponenten-Modell (PCM) modellieren Ausfälle stochastisch und verhindern es so, bestimmte Fehlerauftritte gezielt zu untersuchen. Die, im Rahmen dieser Arbeit bereitgestellte Modellierung von verketteten Ausfallszenarien erlaubt eine explizite Szenariendefinition und integriert probabilistisch abhängige Fehlerauftritte in das PCM. Durch Anpassungen am Palladio-Plugin SimuLizar ist es nun außerdem möglich, die erstellten Modelle in der Simulation auszuwerten. Am Fallbeispiel eines Lastverteilungssystems konnte die Evaluation einerseits die technische Funktionalität der Implementierung validieren. Zusätzlich wird gezeigt, dass der Ansatz eine Einordnung verschiedener Entwurfsalternativen von LoadBalancern ermöglicht, wodurch die Entscheidungsfindung in der System-Entwicklung unterstützt werden kann.  +
Nachrichtenbasierte Middleware (MOM) wird in verschiedenen Domänen genutzt. Es gibt eine Vielzahl von verschiedenen MOMs, die jeweils unterschiedliche Ziele oder Schwerpunkte haben. Währende die einen besonderen Wert auf Performance oder auf Verfügbarkeit legen, möchten andere allseitig einsetzbar sein. Außerdem bieten MOMs eine hohe Konfigurierbarkeit an. Das Ziel dieser Masterarbeit ist es, den Softwarearchitekten bei der Wahl und der Konfiguration einer MOM bereits in der Designphase zu unterstützen. Existierende Modellierungs- und Vorhersagetechniken vernachlässigen den Einfluss von Warteschlangen. Dadurch können bestimmte Effekte der MOM nicht abgebildet werden, zum Beispiel, das Ansteigen der Latenz einer Nachricht, wenn die Warteschlange gefüllt ist. Die Beiträge der Masterarbeit sind: Auswahl und Ausmessen einer MOM, um Effekte und Ressourcenanforderungen zu untersuchen; Performance-Modellierung einer MOM mit Warteschlangen mit anschließender Kalibrierung; Eine Modeltransformation um bereits existierende Modell-Elemente wiederzuverwenden. Der Ansatz wurde mithilfe des SPECjms2007 Benchmarks evaluiert.  +
The presentation will be in English. Die Zielsetzung in dieser Arbeit war die Entwicklung eines Systems zur Verifikation von Mehrgüterauktionen als Workflows am Beispiel eines Auktionsdesigns. Aufbauend auf diversen Vorarbeiten wurde in dieser Arbeit das Clock-Proxy Auktionsdesign als Workflow modelliert und zur Verifikation mit Prozessverifikationsmethoden vorbereitet. Es bestehen bereits eine Vielzahl an Analyseansätzen für Auktionsdesign, die letztendlich aber auf wenig variierbaren Modellen basieren. Für komplexere Auktionsverfahren, wie Mehrgüterauktionen, die in dieser Arbeit betrachtet wurden, liefern diese Ansätze keine zufriedenstellenden Möglichkeiten. Basierend auf den bereits bestehenden Verfahren wurde ein Ansatz entwickelt, dessen Schwerpunkt auf der datenzentrierten Erweiterung der Modellierung und der Verifikationsansätze liegt. Im ersten Schritt wurden daher die Regeln und Daten in das Workflowmodell integriert. Die Herausforderung bestand darin, den Kontroll-und Datenfluss sowie die Daten und Regeln aus dem Workflowmodell über einen Algorithmus zu extrahieren und bestehende Transformationsalgorithmen hinreichend zu erweitern. Die Evaluation des Ansatzes zeigt, dass die Arbeit mit der entwickelten Software das globale Ziel, einen Workflow mittels Eigenschaften zu verifizieren, erreicht hat.  +
Undokumentierte Sicherheitsannahmen können zur Vernachlässigung von Softwareschwachstellen führen, da Zuständigkeit und Bezugspunkte von Sicherheitsannahmen häufig unklar sind. Daher ist das Ziel dieser Arbeit, Sicherheitsannahmen in den komponentenbasierten Entwurf zu integrieren. In dieser Arbeit wurde basierend auf Experteninterviews und Constructive Grounded Theory ein Modell für diesen Zweck abgeleitet. Anhand einer Machbarkeitsstudie wird der Einsatz des Annahmenmodells demonstriert.  +
Cloud-IoT is a new paradigm which has emerged from the combination of Cloud computing and IoT. The Smart Devices are connected straight to a Cloud application to perform calculations which are too complex for a on-site computation. This has the advantage that the resources of the cloud application can be scaled horizontally under heavy load, e.g. due to many connected devices. However, due to cost reasons, it may not be possible to allocate additional resources. Alternatively, the transmission rate of the smart devices can be reduced to reduce the incoming messages and thus the load on the cloud application. For this a controller is needed, which is able to calculate the magnitude of the adaptation of the transmission rate. In addition, the compliance with quality of service requirements should also be ensured. In the course of this thesis we design such a feedback controller based on fuzzy logic, which also pays attention to the compliance with quality of service requirements.  +
Despite promising performance of data science approaches in various applications, in industrial research and development the results can be often unsatisfactory due to the costly experiments that lead to small datasets to work with. Theory-guided Data Science (TGDS) can solve the problem insufficient data by incorporating existing industrial domain knowledge with data science approaches. In dynamical systems, like gas turbines, transition phases occur after a change in the input control signal. The domain knowledge about the steepness of these transitions can potentially help with the modeling of such systems using the data science approaches. There already exist TGDS approaches that use the information about the limits of the values. However it is currently not clear how to incorporate the information about the steepness of the transitions with them. In this thesis, we develop three different TGDS approaches to include these transition constraints in recurrent neural networks (RNNs) to improve the modeling of input-output behavior of dynamical systems. We evaluate the approaches on synthetic and real time series data by varying data availability and different degrees of steepness. We conclude that the TGDS approaches are especially helpful for flat transitions and provide a guideline on how to use the available transition constraints in real world problems. Finally, we discuss the required degree of domain knowledge and intellectual implementation effort of each approach.  +
Smart contracts are software systems employing the underlying blockchain technology to handle transactions in a decentralized and immutable manner. Due to the immutability of the blockchain, smart contracts cannot be upgraded after their initial deploy. Therefore, reasoning about a contract’s security aspects needs to happen before the deployment. One common vulnerability for smart contracts is improper access control, which enables entities to modify data or employ functionality they are prohibited from accessing. Due to the nature of the blockchain, access to data, represented through state variables, can only be achieved by employing the contract’s functions. To correctly restrict access on the source code level, we improve the approach by Reiche et al. who enforce access control policies based on a model on the architectural level. This work aims at correctly enforcing role-based access control (RBAC) policies for Solidity smart contract systems on the architectural and source code level. We extend the standard RBAC model by Sandhu, Ferraiolo, and Kuhn to also incorporate insecure information flows and authorization constraints for roles. We create a metamodel to capture the concepts necessary to describe and enforce RBAC policies on the architectural level. The policies are enforced in the source code by translating the model elements to formal specifications. For this purpose, an automatic code generator is implemented. To reason about the implemented smart contracts on the source code level, tools like solc-verify and Slither are employed and extended. Furthermore, we outline the development process resulting from the presented approach. To evaluate our approach and uncover problems and limitations, we employ a case study using the three smart contract software systems Augur, Fizzy and Palinodia. Additionally, we apply a metamodel coverage analysis to reason about the metamodel’s and the generator’s completeness. Furthermore, we provide an argumentation concerning the approach’s correct enforcement. This evaluation shows how a correct enforcement can be achieved under certain assumptions and when information flows are not considered. The presented approach can detect 100% of manually introduced violations during the case study to the underlying RBAC policies. Additionally, the metamodel is expressive enough to describe RBAC policies and contains no unnecessary elements, since approximately 90% of the created metamodel are covered by the implemented generator. We identify and describe limitations like oracles or public variables.  
Quality characteristics of a software system such as performance or reliability can determine its success or failure. In traditional software engineering, these characteristics can only be determined when parts of the system are already implemented and past the design process. Computer simulations allow to determine estimations of quality characteristics of software systems already during the design process. Simulations are build to analyse certain aspects of systems. The representation of the system is specialised for the specific analysis. This specialisation often results in a monolithic design of the simulation. Monolithic structures, however, can induce reduced maintainability of the simulation and decreased understandability and reusability of the representations of the system. The drawbacks of monolithic structures can be encountered by the concept of modularisation, where one problem is divided into several smaller sub-problems. This approach allows an easier understanding and handling of the sub-problems. In this thesis an approach is provided to describe the coupling of newly developed and already existing simulations to a modular simulation. This approach consists of a Domain-Specific Language (DSL) developed with model-driven technologies. The DSL is applied in a case-study to describe the coupling of two simulations. The coupling of these simulations with an existing coupling approach is implemented according to the created description. An evaluation of the DSL is conducted regarding its completeness to describe the coupling of several simulations to a modular simulation. Additionally, the modular simulation is examined regarding the accuracy of preserving the behaviour of the monolithic simulation. The results of the modular simulation and the monolithic version are compared for this purpose. The created modular simulation is additionally evaluated in regard to its scalability by analysis of the execution times when multiple simulations are coupled. Furthermore, the effect of the modularisation on the simulation execution times is evaluated. The obtained evaluation results show that the DSL can describe the coupling of the two simulations used in the case-study. Furthermore, the results of the accuracy evaluation suggest that problems in the interaction of the simulations with the coupling approach exist. However, the results also show that the overall behaviour of the monolithic simulation is preserved in its modular version. The analysis of the execution times suggest, that the modular simulation experiences an increase in execution time compared to the monolithic version. Also, the results regarding the scalability show that the execution time of the modular simulation does not increase exponentially with the number of coupled simulations.  
Monitoring in complex computing systems is crucial to detect malicious states or errors in program execution. Due to the computational complexity, it is not feasible to monitor all data streams in practice. We are interested in monitoring pairs of highly correlated data streams. However we can not compute the measure of correlation for every pair of data streams at each timestep. Picking highly correlated pairs, while exploring potentially higher correlated ones is an instance of the exploration / exploitation problem. Bandit algorithms are a family of online learning algorithms that aim to optimize sequential decision making and balance exploration and exploitation. A contextual bandit additional uses contextual information to decide better. In our work we want to use a contextual bandit algorithm to keep an overview over highly correlated pairs of data streams. The context in our work contains information about the state of the system, given as execution traces. A key part of our work is to explore and evaluate different representations of the knowledge encapsulated in traces. Also we adapt state-of-the-art contextual bandit algorithms to the use case of correlation monitoring.  +
Software systems are usually described through multiple models that address different development concerns. These models can contain shared information, which leads to redundant representations of the same information and dependencies between the models. These representations of shared information have to be kept consistent, for the system description to be correct. The evolution of one model can cause inconsistencies with regards to other models for the same system. Therefore, some mechanism of consistency restoration has to be applied after changes occurred. Manual consistency restoration is error-prone and time-consuming, which is why automated consistency restoration is necessary. Many existing approaches use binary transformations to restore consistency for a pair of models, but systems are generally described through more than two models. To achieve multi-model consistency preservation with binary transformations, they have to be combined through transitive execution. In this thesis, we explore transitive combination of binary transformations and we study what the resulting problems are. We develop a catalog of six failure potentials that can manifest in failures with regards to consistency between the models. The knowledge about these failure potentials can inform a transformation developer about possible problems arising from the combination of transformations. One failure potential is a consequence of the transformation network topology and the used domain models. It can only be avoided through topology adaptations. Another failure potential emerges, when two transformations try to enforce conflicting consistency constraints. This can only be repaired through adaptation of the original consistency constraints. Both failure potentials are case-specific and cannot be solved without knowing which transformations will be combined. Furthermore, we develop two transformation implementation patterns to mitigate two other failure potentials. These patterns can be applied by the transformation developer to an individual transformation definition, independent of the combination scenario. For the remaining two failure potentials, no general solution was found yet and further research is necessary. We evaluate the findings with a case study that involves two independently developed transformations between a component-based software architecture model, a UML class diagram and its Java implementation. All failures revealed by the evaluation could be classified with the identified failure potentials, which gives an initial indicator for the completeness of our failure potential catalog. The proposed patterns prevented all failures of their targeted failure potential, which made up 70% of all observed failures, and shows that the developed implementation patterns are applicable and help to mitigate issues occurring from transitively combining binary transformations.  
Die Arbeit geht der Frage nach, inwieweit eine Optimierung von Microservice-Architekturen unter Einbezug der zu erwarteten Kosten auf Modellebene möglich ist, und ob diese einen Entscheidungsprozess für eine konkrete Architektur unterstützen kann. Dazu werden die relevanten Kostenfaktoren identifiziert und in ein formales Kostenmodell zusammengeführt. Dieses unterstützt nicht nur mehrere Servicemodelle (IaaS, PaaS, OnPremise) und Cloud-Anbieter, sondern bezieht neben den eigentlichen Betriebskosten auch weitere Kostenfaktoren wie Personal oder Lizenzen mit ein.  +
Zur automatischen Erzeugung von Rückverfolgbarkeitsinformationen muss zunächst die Absicht der Anforderungen verstanden werden. Die Grundvoraussetzung hierfür bildet das Verständnis der Bedeutungen der Worte innerhalb von Anforderungen. Obwohl hierfür bereits klassische Systeme zur Wortbedeutungsauflösung existieren, arbeiten diese meist nur auf Wortebene und ignorieren sogenannte "Multiwort-Ausdrücke" (MWAs), deren Bedeutung sich von der Bedeutung der einzelnen Teilworte unterscheidet. Im Rahmen des INDIRECT-Projektes wird deshalb ein System entwickelt, welches die MWAs mithilfe eines einfach verketteten Zufallsfeldes erkennt und anschließend eine wissensbasierte Bedeutungsauflösung mit den Wissensbasen DBpedia und WordNet 3.1 durchführt. Um das System zu evaluieren wird ein Datensatz aus frei verfügbaren Anforderungen erstellt. Das Teilsystem für die Erkennung von MWAs erreicht dabei maximal einen F1-Wert von 0.81. Die Bedeutungsauflösung mit der Wissensbasis DBpedia erreicht maximal einen F1-Wert von 0.496. Mit der Wissensbasis WordNet 3.1 wird maximal ein F1-Wert von 0.547 erreicht.  +
N
Outlier detection often needs to be done unsupervised with high dimensional data in data streams. “Deep structured energy-based models” (DSEBM) and “Variational Denoising Autoencoder” (VDA) are two promising approaches for outlier detection. They will be implemented and adapted for usage in data streams. Finally, their performance will be shown in experiments including the comparison with state of the art approaches.  +
O
Das in Microsoft Excel integrierte Add-In JustLingo ist ein System, das ermöglicht, natürlichsprachliche Eingaben in die Formelsprache von Excel zu überführen. Motiviert durch die Möglichkeit einfache Algorithmenbeschreibungen der Benutzer zu erkennen, wird in dieser Arbeit eine zusätzliche Erweiterung zum bestehenden System vorgestellt, die das Themengebiet der Objektorientierung einführt. Dabei werden die Nutzereingaben zunächst in UML-Klassennotation überführt. Diese Zwischendarstellung kann dann in ausführbaren C#-Klassencode samt Klassen, Attribute sowie Methoden überführt werden. Zusätzlich verfügt der Prototyp über ein Werkzeug, das in den UML-Diagrammen nicht nur nach existierenden Entwurfsmustern der Softwaretechnik sucht, sondern auch teilweise vorhandene Muster automatisiert vervollständigen kann. Zur Evaluierung der Arbeit wurde das System mit Beschreibungen aus den Klausuraufgaben, die Informatikstudenten im dritten Semester lösen können müssen, konfrontiert. Bei den acht Klausuraufgaben sollten Klassen und deren Beziehungen sowie Attribute und Methoden in den Beschreibungen erkannt werden. Das System hat dabei einen Precision-Wert von 0,70, einen Recall-Wert von 0,59 und einen F-Wert von 0,63 erreicht.  +
Estimating dependency is essential for data analysis. For example in biological analysis, knowing the correlation between groups of proteins and genes may help predict genes functions, which makes cure discovery easier. The recently introduced Monte Carlo Dependency Estimation (MCDE) framework defines the dependency between a set of variables as the expected value of a stochastic process performed on them. In practice, this expected value is approximated with an estimator which iteratively performs a set of Monte Carlo simulations. In this thesis, we propose several alternative estimators to approximate this expected value. They function in a more dynamic way and also leverage information from previous approximation iterations. Using both probability theory and experiments, we show that our new estimators converge much faster than the original one.  +
Verifying anomaly detection results when working in on an unsupervised use case is challenging. For large datasets a manual labelling is economical unfeasible. In this thesis we create explanations to help verifying and understanding the detected anomalies. We develop a method to rule generation algorithm that describe frequent patterns in the output of autoencoders. The number of rules is significantly lower than the number of anomalies. Thus, finding explanations for these rules is much less effort compared to finding explanations for every single anomaly. Its performance is evaluated on a real-world use case, where we achieve a significant reduction of effort required for domain experts to understand the detected anomalies but can not specify the usefulness in exact numbers due to the missing labels. Therefore, we also evaluate the approach on benchmark dataset.  +
Hybrid presentation : https://kit-lecture.zoom.us/j/67744231815 Battery based load hiding gained a lot of popularity in recent years as an attempt to guarantee a certain degree of privacy for users in smart grids. Our work evaluates a set of the most common privacy measures for BBLH. For this purpose we define logical natural requirements and score how well each privacy measure complies to each requirement. We achieve this by scoring the response for load profile altering (e.g. noise addition) using measures of displacement. We also investigate the stability of privacy measures toward load profile length and number of bins using specific synthetic data experiments. Results show that certain private measures fail badly to one or many requirements and therefore should be avoided.  +
Recently, a deep learning model (t2vec) for trajectory similarity computation has been proposed. Instead of using the trajectories, it uses their deep representations to compute the similarity between them. At this current state, we do not have a clear idea how to interpret the t2vec similarity values, nor what they are exactly based on. This thesis addresses these two issues by analyzing t2vec on its own and then systematically comparing it to the the more familiar traditional models. Firstly, we examine how the model’s parameters influence the probability distribution (PDF) of the t2vec similarity values. For this purpose, we conduct experiments with various parameter settings and inspect the abstract shape and statistical properties of their PDF. Secondly, we consider that we already have an intuitive understanding of the classical models, such as Dynamic Time Warping (DTW) and Longest Common Subsequence (LCSS). Therefore, we use this intuition to analyze t2vec by systematically comparing it to DTW and LCSS with the help of heat maps.  +
In data analysis, the ability to detect and understand critical shifts in information patterns holds immense significance. Whether it is monitoring real-time network traffic, identifying anomalies in financial markets, or tracking fluctuations in climate data, the ability to swiftly identify change points is crucial for effective decision-making. Since the default implementation of MMD is quadratic the algorithms to enable this however tend to exceed runtime limits for certain contexts, such as those where the speed and volume of incoming data is relatively high. In continuation of recent developments in change point detection optimization through estimators, notably RADMAN, we propose to integrate the “Nyström” estimator into a similar context of exponential bucketing to improve on this matter. This thesis will focus on the concept, the implementation and testing of this construct and its comparison to other recent approaches.  +
Die Analyse der Lastenhefte für die Planung der Software bringt einen erheblichen manuellen Aufwand mit sich. Bei der Robert Bosch Engineering GmbH werden die Anforderungen aus den Lastenheften der Kunden auf eine V-Prozessmodell-Datenbank abgebildet. Diese Datenbank besteht aus sogenannten internen Anforderungen, die Richtlinien für Hardware-und Softwareentwicklung enthalten. Jede Kundenanforderung muss von den Mitarbeitern manuell auf eine oder mehrere interne Anforderungen abgebildet werden. In Rahmen dieser Arbeit wurde ein automatisiertes Verfahren entwickelt, welches den Mitarbeiter bei dem Abbildungsprozess unterstützen kann. Dafür wurde aus den Textdaten der Kundenanforderungen eine Ontologie automatisch generiert, welche Fachbegriffe und ihre Beziehungen enthält. Aus dieser Ontologie wurden Merkmale erzeugt, welche mit einem unüberwachten Verfahren des maschinellen Lernens, nämlich hiearchisches Clustering gruppiert wurden. Dadurch war es möglich eine neue Kundenanforderung in ein bestehendes Cluster einzuordnen und basierend auf die Kundenanforderungen in dem Cluster Vorschläge für die zutreffenden internen Anforderungen zu erhalten. Um die entstandene Ontologie zu evaluieren, wurde diese auf falsch extrahierte Konzepte und Beziehungen überprüft. 16% der Konzepte und 24% der Relationen erwiesen sich als falsch. Die Voraussage der Vorschläge erreichte einen F-Maß Wert von 62%, bei den Evaluationsmetriken Präzision@5 und Ausbeute@5.  +