Semantische Suche

Freitag, 8. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Ryan Christopher Arbai
Titel Konzept eines Dokumentationsassistenten zur Erzeugung strukturierter Anforderungen basierend auf Satzschablonen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Um die Qualität und Glaubwürdigkeit eines Produktes zu erhalten, ist ein systematisches Anforderungsmanagement erforderlich, wobei die Merkmale eines Produkts durch Anforderungen beschrieben werden. Deswegen wurde im Rahmen dieser Arbeit ein Konzept für einen Dokumentationsassistenten entwickelt, mit dem Benutzer strukturierte Anforderungen basierend auf den Satzschablonen nach SOPHIST erstellen können. Dies beinhaltet einen linguistischen Aufbereitungsansatz, der semantische Rollen aus freiem Text extrahiert. Während des Dokumentationsprozesses wurden die semantischen Rollen benutzt, um die passendste Satzschablone zu identifizieren und diese als Hilfestellung dem Benutzer aufzuzeigen. Zudem wurde eine weitere Hilfestellung angeboten, nämlich die Autovervollständigung, die mithilfe von Markovketten das nächste Wort vorhersagen kann. Insgesamt wurden rund 500 Anforderungen aus verschiedenen Quellen herangezogen, um die Integrität des Konzepts zu bewerten. Die Klassifizierung der Texteingabe in eine Satzschablone erreicht ein F1-Maß von 0,559. Dabei wurde die Satzschablone für funktionale Anforderungen mit einem F1-Maß von 0,908 am besten identifiziert. Außerdem wurde der Zusammenhang zwischen den Hilfestellungen mithilfe eines Workshops bewertet. Hierbei konnte gezeigt werden, dass die Anwendung des vorliegenden Konzepts, die Vollständigkeit von Anforderungen verbessert und somit die Qualität der zu dokumentierenden Anforderungen steigert.

Freitag, 8. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Michael Chatiskatzi
Titel Koevolution von Metamodellvarianten und deren Instanzen
Vortragstyp Bachelorarbeit
Betreuer(in) Erik Burger
Vortragsmodus
Kurzfassung Das Ziel dieser Thesis ist es, ein Lösungskonzept zu entwickeln, das die Koevolution von MOF-basierten Metamodellen und Metamodellinstanzen automatisiert und vereinfacht. Dies wird dadurch erreicht, dass zunächst die Erfassung der Änderungen analysiert und für die Anwendung auf eine Metamodellvariante ausgebaut wird. Das erarbeitete Konzept erlaubt es, Änderungen an einem Metamodell automatisch in einer historisch verwandten Metamodellvariante nachzuspielen. Soll dagegen eine Änderung nur an der aktuellen Metamodellvariante stattfinden, so wird automatisch eine Transformationsregel basierend auf der gleichen Änderungsaufzeichnung erzeugt. In dem ersten Fall, der Koevolution auf Metamodellebene, wird prototypisch eine Heuristik realisiert, die im Erfolgsfall eine Übereinstimmung eines Artefakts in zwei Metamodellvarianten vorfindet.

Mit den Konzepten und Verfahrensweisen lassen sich weitere Heuristiken entwerfen mit dem Ziel, die Fehleranfälligkeit von manuellen Übertragungen der Änderungen zu reduzieren und die Weiterentwicklung der Metamodelle und Metamodellinstanzen zu erleichtern.

Vortragende(r) Philipp Lehr
Titel Modellierung von QoS-bewussten Re-Konfigurations-Mechanismen für Smart Devices
Vortragstyp Masterarbeit
Betreuer(in) Manuel Gotin
Vortragsmodus
Kurzfassung Cloud-IoT is a new paradigm which has emerged from the combination of Cloud computing and IoT. The Smart Devices are connected straight to a Cloud application to perform calculations which are too complex for a on-site computation. This has the advantage that the resources of the cloud application can be scaled horizontally under heavy load, e.g. due to many connected devices. However, due to cost reasons, it may not be possible to allocate additional resources. Alternatively, the transmission rate of the smart devices can be reduced to reduce the incoming messages and thus the load on the cloud application. For this a controller is needed, which is able to calculate the magnitude of the adaptation of the transmission rate. In addition, the compliance with quality of service requirements should also be ensured. In the course of this thesis we design such a feedback controller based on fuzzy logic, which also pays attention to the compliance with quality of service requirements.
Vortragende(r) Patrick Deubel
Titel Untersuchung von evolutionären Strategien für die Anwendung in der Neurorobotik
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Vortragsmodus
Kurzfassung Die Neurorobotik beschäftigt sich damit, Roboter unter Verwendung von künstlichen neuronalen Netzen zu trainieren. Als effektiv hat sich in den letzten Jahren Verfahren auf der Grundlage des Reinforcement Learning (RL) herausgestellt, welche allerdings gradientenbasiert sind. Zur Anpassung der Gewichte des Netzes wird dabei der Backpropagation-Algorithmus angewendet, der bei der Ausführung durch die Schichten

des Netzes iteriert und die Gewichte anpasst. Dies limitiert RL-Algorithmen in ihrer Skalierbarkeit. Ein Ansatz, der komplett auf Backpropagation verzichtet, sind die evolutionären Strategien (ES). Basierend auf dem biologischen Vorbild der Evolution werden über Generationen hinweg die Gewichtsvektoren optimiert, indem pro Generation mehrere Veränderungen stattfinden und deren Güte ausgewertet wird. Eine solche ES haben Mitarbeiter von OpenAI um Salimans, 2017 in einem Artikel vorgestellt. Diese wurde auf Robotersimulationen getestet, bei denen standardmäßig RL-Algorithmen eingesetzt werden. Es wurde festgestellt, dass ES mit State-of-the-Art RL konkurrieren können. Des Weiteren sind ES hoch parallelisierbar und können daher beispielsweise einen humanoiden Roboter deutlich schneller trainieren als der vergleichbare RL-Algorithmen. Die vorliegende Arbeit untersucht die ES anhand von zwei Umgebungen der Roboschool. Dies ist eine Gruppe von Robotersimulationen, die in dem Artikel nicht verwendet wurden. Dazu wird auf der Implementation, die zusammen mit dem Artikel veröffentlicht wurde, aufgebaut und eine eigene Implementation angefertigt. Um die ES auf der Roboschool zu evaluieren, werden Ergebnisse von RL-Algorithmen aus der Literatur zitiert und diese zum Vergleich herangezogen. Die Evaluation zeigt, dass die Robotersimulationen durch das Training mit ES das Laufen lernen. Außerdem kann durch das Hinzufügen von Rechenleistung die Berechnungszeit verringert werden.

Freitag, 15. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 15. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dana Tomova
Titel Bestimmung der semantischen Funktion von Sätzen in Anforderungsbeschreibungen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Das Verständnis der Absicht von Softwareanforderungen ist essenziell für die automatische Generierung von Informationen zur Rückverfolgbarkeit. Funktionale Anforderungen können verschiedene semantische Funktionen, wie die Beschreibung von erwarteten Funktionalitäten oder Zuständen des Systems, beinhalten. Im Rahmen des INDIRECT-Projektes wird ein Werkzeug zur Klassifikation der semantischen Funktion der Sätze in Anforderungsbeschreibungen entwickelt. Dafür werden verschiedene maschinelle Lernverfahren (Stützvektormaschine, Logistische Regression, Random Forest und Naïve Bayes) auf ihre Eignung für diese Aufgabe überprüft. Um ihre Funktionalität zu evaluieren, werden die Verfahren auf einem Datensatz aus frei verfügbaren Anforderungsbeschreibungen getestet, welcher manuell mit semantischen Funktionen etikettiert wurde. Die Ergebnisse zeigen, dass der Random Forest-Klassifikator unter Verwendung von N-Grammen auf Zeichenebene mit einem F1-Maß von 0,79 die beste Leistung auf unbekannten Projekten liefert. Die Lernverfahren werden zusätzlich mittels einer Kreuzvalidierung auf allen vorhandenen Daten getestet. Dabei erzielt die Stützvektormaschine mit einem F1-Maß von 0,90 die besten Ergebnisse, während der Random Forest-Klassifikator ein F1-Maß von 0.89 erreicht.
Vortragende(r) Robin Schulz
Titel Verknüpfung von Text- und Modellentitäten von Softwarearchitektur-Modellen mithilfe von Wortvektoren
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Dokumentation von Softwarearchitekturen ist wichtig für die Qualität und Langlebigkeit von Software. Im Verlauf des Lebenszyklus einer Software ändert sich die Architektur meist, was eine Quelle für Inkonsistenzen gegenüber die Architektur beschreibenden Dokumentationstexten sein kann.

Um diese automatisiert finden und beheben oder ihnen bestenfalls sogar vorbeugen zu können, bedarf es der Verknüpfung von Text- und Modellentitäten. Dieses Problem wurde in der vorzustellenden Arbeit angegangen. Dabei wurden Wortvektoren verwendet, um Ähnlichkeiten zwischen Wörtern finden zu können.

Vortragende(r) Theresa Heine
Titel Verknüpfung von Textelementen zu Softwarearchitektur-Modellen mit Hilfe von Synsets
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Inkonsistenzen bei der Benennung von Textelementen einer Softwarearchitektur-Dokumentation (SAD) und Modellelementen eines Softwarearchitektur-Modells (SAM) führen zu Problemen bei der Rückverfolgbarkeit. Statt einem direkten Vergleich zwischen den Bezeichnern der Textelemente und den Namen der Modellelemente wird deshalb ein semantischer Vergleich auf Basis von Synsets durchgeführt, die durch die Auflösung sprachlicher Mehrdeutigkeiten (WSD, Word Sense Disambiguation) ermittelt werden. Mit einem WSD-Algorithmus werden die Bedeutungen der Textelemente im Kontext der SAD in Form von Synsets bestimmt. Über diese Synsets werden Synonyme der Textelemente verwendet, um eine Verknüpfung mit den Modellelementen herzustellen. Dadurch ist es möglich, Textelemente zu Modellelementen zuzuordnen, die semantisch dasselbe Element abbilden, aber unterschiedlich benannt sind.

Freitag, 22. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Marco Heyden
Titel Anytime Tradeoff Strategies with Multiple Targets
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Modern applications typically need to find solutions to complex problems under limited time and resources. In settings, in which the exact computation of indicators can either be infeasible or economically undesirable, the use of “anytime” algorithms, which can return approximate results when interrupted, is particularly beneficial, since they offer a natural way to trade computational power for result accuracy.

However, modern systems typically need to solve multiple problems simultaneously. E.g. in order to find high correlations in a dataset, one needs to examine each pair of variables. This is challenging, in particular if the number of variables is large and the data evolves dynamically.

This thesis focuses on the following question: How should one distribute resources at anytime, in order to maximize the overall quality of multiple targets? First, we define the problem, considering various notions of quality and user requirements. Second, we propose a set of strategies to tackle this problem. Finally, we evaluate our strategies via extensive experiments.

Vortragende(r) Florian Kalinke
Titel Subspace Search in Data Streams
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Modern data mining often takes place on high-dimensional data streams, which evolve at a very fast pace: On the one hand, the "curse of dimensionality" leads to a sparsely populated feature space, for which classical statistical methods perform poorly. Patterns, such as clusters or outliers, often hide in a few low-dimensional subspaces. On the other hand, data streams are non-stationary and virtually unbounded. Hence, algorithms operating on data streams must work incrementally and take concept drift into account.

While "high-dimensionality" and the "streaming setting" provide two unique sets of challenges, we observe that the existing mining algorithms only address them separately. Thus, our plan is to propose a novel algorithm, which keeps track of the subspaces of interest in high-dimensional data streams over time. We quantify the relevance of subspaces via a so-called "contrast" measure, which we are able to maintain incrementally in an efficient way. Furthermore, we propose a set of heuristics to adapt the search for the relevant subspaces as the data and the underlying distribution evolves.

We show that our approach is beneficial as a feature selection method and as such can be applied to extend a range of knowledge discovery tasks, e.g., "outlier detection", in high-dimensional data-streams.

Freitag, 29. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Emmanouil Emmanouilidis
Titel Patient Rule Induction Method with Active Learning
Vortragstyp Proposal
Betreuer(in) Vadim Arzamasov
Vortragsmodus
Kurzfassung PRIM (Patient Rule Induction Method) is an algorithm for discovering scenarios from simulations, by creating hyperboxes, that are human-comprehensible. Yet PRIM alone requires relatively large datasets and computational simulations are usually quite expensive. Consequently, one wants to obtain a plausible scenario, with a minimal number of simulations. It has been shown, that combining PRIM with ML models, which generalize faster, can reduce the number of necessary simulation runs by around 75%.

We will try to reduce the number of simulation runs even further, using an active learning approach to train an intermediate ML model. Additionally, we extend the previously proposed methodology to not only cover classification but also regression problems. A preliminary experiment indicated, that the combination of these methods, does indeed help reduce the necessary runs even further. In this thesis, I will analyze different AL sampling strategies together with several intermediate ML models to find out if AL can systematically improve existing scenario discovery methods and if a most beneficial combination of sampling method and intermediate ML model exists for this purpose.

Freitag, 29. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Aurélien Pepin
Titel Decomposition of Relations for Multi-model Consistency Preservation
Vortragstyp Masterarbeit
Betreuer(in) Heiko Klare
Vortragsmodus
Kurzfassung Consistency preservation between two metamodels can be achieved by defining a model transformation that repairs inconsistencies. In that case, there exists a consistency relation between metamodels.

When there are multiple interrelated metamodels, consistency relations form a network. In multi-model consistency preservation, we are interested in methods to preserve consistency in a network of consistency relations. However, combinations of binary transformations can lead to specific interoperability issues.

The purpose of this thesis is the decomposition of relations, an optimization technique for consistency relation networks. In this thesis, we design a decomposition procedure to detect independent and redundant subsets of consistency relations. The procedure aims to help developers find incompatibilities in consistency relation networks.

Vortragende(r) Martin Wittlinger
Titel Erkennung von semantisch zusammenhängenden Quelltextabschnitten anhand von Komponententests
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Die Rückverfolgbarkeit von Quelltext zu Anforderungen ist ein wichtiger werdendes Problem. Eine Garantie der Implementierung aller Anforderungen kann zur Steigerung von Softwarequalität führen. Für das Erstellen der Rückverfolgbarkeitsinformationen ist ein Verständnis des Quelltextes nötig. In dieser Arbeit wurden anhand von Komponententests semantisch zusammenhängende Methoden erkannt. Semantisch zusammenhängende Methoden erfüllen eine Funktionalität miteinander und verbessern das Verständnis von Quelltext. Für die Erkennung wurde ein heuristisches Verfahren entwickelt, welches aus mehreren Teilverfahren besteht, die sowohl auf den textuellen als auch den strukturellen Bestandteilen des Komponententest- und Quelltextes arbeiten. Für die Teilverfahren wurde eine Zerteilung und Transformation von Quelltextes entwickelt. Es wurden verschiedene Textähnlichkeitsalgorithmen mit einem maschinellem Lernverfahren (fastText) verglichen. Zur Bewertung wurden drei Softwareprojekte verwendet, mit einer höchsten Präzision von 74%, bei einer Ausbeute von 19%. Mit einer anderen Parameterkonfiguration wurde ein F1-Wert von 46% erreicht.

Freitag, 6. Dezember 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Eduard Kukuy
Titel Integrating Time Series-based Monitoring with Run-time Modelling
Vortragstyp Bachelorarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus
Kurzfassung Cloud systems may consist of collections of smaller software components (in some cases called microservices), possibly written in different programming languages and hosted across various hardware nodes. These components require continuous adaptation to changing workload and privacy constraints. There exist approaches solving this problem already, but they come along with limitations including binding to a certain platform or programming languages and not accurate handling of multi-host applications.

This thesis presents an approach to platform-independent observing of cloud applications, including comprehensive monitoring of relationships between components of the system. The concept of a time series database is used under the hood for storing monitoring data. It gets then transformed into the format needed for the performance model extraction. Furthermore, a complete specific implementation of the approach with exemplary tools is provided.

Vortragende(r) Frederic Born
Titel Kontinuierliche Verfeinerung automatisch extrahierter Performance-Modelle
Vortragstyp Masterarbeit
Betreuer(in) Emre Taşpolatoğlu
Vortragsmodus
Kurzfassung Immer mehr Unternehmen stehen heutzutage vor dem Problem, dass eines oder mehrere ihrer Altsysteme auf einer monolithischen Softwarearchitektur basieren, die über Jahre hinweg immer mehr an Komplexität zugenommen hat. Die Weiterentwicklung eines solchen Altsystems ist aufwendig und dementsprechend mit hohen Kosten verbunden. Um diese Kosten längerfristig zu senken, können Architektur-Muster, wie die Microservices Architektur eingesetzt werden. Der Migrationsprozess von einer monolithischen Architektur, hin zu einer Microservices-Architektur, ein komplexer und fehleranfälliger Prozess.

Ziel dieser Masterthesis ist die Unterstützung eines solchen Migrationsprozess, indem ein Konzept für eine kontinuierliche Verfeinerung von automatisch extrahierten, architekturellen Performanz-Modellen entwickelt und in einem prototypischen Plug-in umgesetzt wird. Die Thesis beinhaltet ein Konzept zur Durchführung und Speicherung von manuellen Verfeinerungsschritten an extrahierten Performanz-Modellen. Außerdem ermöglicht die Thesis eine Zusammenführung von automatisch extrahierten Performanz-Modellen mit einem zu verfeinernden Performanz-Modell. Ein Ansatz zur Integration des erarbeiteten Konzepts in eine Continuous Integration Umgebung wird ebenfalls präsentiert.

Freitag, 13. Dezember 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Daniel Betsche
Titel Feature-based Time Series Generation
Vortragstyp Proposal
Betreuer(in) Adrian Englhardt
Vortragsmodus
Kurzfassung Due to privacy concerns and possible high collection costs of real time series data, access to high quality datasets is difficult to achieve for machine learning practitioners. The generation of synthetic time series data enables the study of model robustness against edge cases and special conditions not found in the original data. A requirement to achieve such results in applications when relying on synthetic data is the availability of fine-grained control over the generation to be able to meet the specific needs of the user. Classical approaches relying on autoregressive Models e.g. ARIMA only provide a basic control over composites like trend, cycles, season and error. A promising current approach is to train LSTM Autoencoders or GANs on a sample dataset and learn an unsupervised set of features which in turn can be used and manipulated to generate new data. The application of this approach is limited, due to the not human interpretable features and therefore limited control. We propose various methods to combine handcrafted and unsupervised features to provide the user with enhanced influence of various aspects of the time series data. To evaluate the performance of our work we collected a range of various metrics which were proposed to work well on synthetic data. We will compare these metrics and apply them to different datasets to showcase if we can achieve comparable or improved results.
Vortragende(r) Viktoriia Trukhan
Titel Towards Differential Privacy for Correlated Time Series
Vortragstyp Masterarbeit
Betreuer(in) Christine Tex
Vortragsmodus
Kurzfassung Differential privacy is the current standard framework in privacy-preserving data analysis. However, it presumes that data values are not correlated. Specifically, adversaries that are aware of data correlations can use this information to infer user’s sensitive information from differential private statistics. However, data correlations are frequent. In particular, values of time series like energy consumption measurements are frequently highly temporally correlated. In this thesis, we first introduce and critically review the notation of dependent differential privacy (DDP) introduced by Liu at. al (2016), which is a differential-privacy like privacy definition for spatially correlated data. Second, we adapt this notation and the respective privacy mechanisms to temporally correlated data. We evaluate our adaption on a real-world energy consumption time series showing that our mechanism outperforms the baseline approach. We conclude this work by stating in which direction the improvements of the mechanism might be done.

Freitag, 13. Dezember 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 131 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Tobias Viehmann
Titel Verfahren zur Reduktion von neuronalen Netzen - Analyse und Automatisierung
Vortragstyp Masterarbeit
Betreuer(in) Victor Pankratius
Vortragsmodus
Kurzfassung In den vergangenen Jahren sind vermehrt Anwendungen von Neuronalen Netzen (NN) entstanden. Ein aktuelles Problem ist der beachtliche Ressourcenbedarf an Speicher, Rechenkapazität oder Energie, den nicht nur die Trainingsphasen, sondern auch die Anwendungsphasen von neuronalen Netzen erfordern. Aus diesem Grund ist eine erfolgreiche Verbreitung von neuronalen Netzen auf ressourcenbeschränkten Plattformen mit geringer Leistung momentan noch mit zahlreichen Herausforderungen verbunden.

Die vorliegende Arbeit untersucht diese Problematik und stellt Techniken vor, wie vollständig trainierte neuronale Netze möglichst unter Erhaltung der Genauigkeit in der Anzahl ihrer Neuronen und Verbindungen reduziert werden können. Mithilfe von Experimenten in TensorFlow und Keras wird gezeigt, welche dieser Verfahren sich im Kontext von verschiedenen Praxisbeispielen eignen. Weiterhin beschreibt die Arbeit einen neuen Ansatz SNARE (Score-based Neural Architecture REduction) mit dem Ziel, eine Reduktion nicht nur auf einzelnen Schichten, sondern auf gesamten Netzwerken automatisiert durchzuführen. Die Tool-Implementierung von SNARE analysiert dazu zunächst die Struktur von trainierten Keras NNs mit TensorFlow Backend. Unter der Berücksichtigung von verschiedenen Kriterien wie dem FLOP-Beitrag werden anschließend iterativ Schichten ausgewählt, Reduktionsoperationen angewendet und durch erneutes Trainieren entstandene Fehler kompensiert.

Ergebnisse zeigen, dass SNARE auf einer LeNet5-Architektur bei einem Genauigkeitsverlust von 0,39% eine Parameterreduktion um den Faktor 35 erreicht. Zusätzlich erzielte SNARE auf einem NN zur Erkennung von menschlichen Bewegungen aus mobilen Sensordaten eine Reduktionsrate von 245 bei gleicher Genauigkeit.

Freitag, 20. Dezember 2019, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Adrian Kruck
Titel Bayesian Optimization for Wrapper Feature Selection
Vortragstyp Masterarbeit
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Wrapper feature selection can lead to highly accurate classifications. However, the computational costs for this are very high in general. Bayesian Optimization on the other hand has already proven to be very efficient in optimizing black box functions. This approach uses Bayesian Optimization in order to minimize the number of evaluations, i.e. the training of models with different feature subsets. We propose four different ways to set up the objective function for the Bayesian optimization. On 14 different classification datasets the approach is compared against 14 other established feature selection methods, including other wrapper methods, but also filter methods and embedded methods. We use gaussian processes and random forests for the surrogate model. The classifiers which are applied to the selected feature subsets are logistic regression and naive bayes. We compare all the different feature selection methods against each other by comparing their classification accuracies and runtime. Our approach shows to keep up with the most established feature selection methods, but the evaluation also shows that the experimental setup does not value the feature selection enough. Concluding, we give guidelines how an experimental setup can be more appropriate and several concepts are provided of how to develop the Bayesian optimization for wrapper feature selection further.
Vortragende(r) Benjamin Jochum
Titel Discovering data-driven Explanations
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus
Kurzfassung The main goal knowledge discovery focusses is, an increase of knowledge using some set of data. In many cases it is crucial that results are human-comprehensible. Subdividing the feature space into boxes with unique characteristics is a commonly used approach for achieving this goal. The patient-rule-induction method (PRIM) extracts such "interesting" hyperboxes from a dataset by generating boxes that maximize some class occurrence inside of it. However, the quality of the results varies when applied to small datasets. This work will examine to which extent data-generators can be used to artificially increase the amount of available data in order to improve the accuracy of the results. Secondly, it it will be tested if probabilistic classification can improve the results when using generated data.

Freitag, 20. Dezember 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 301 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Maximilian Wessendorf
Titel Aufbau und Konsolidierung einer Konzepthierarchie für Anforderungsbeschreibungen aus unterschiedlichen Wissensquellen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Ein Problem bei der Anforderungsrückverfolgung ist, dass eine syntaktische Verbindung zwischen Begriffen in Anforderungen und Quelltext oftmals fehlt. Eine Möglichkeit Verknüpfungen dennoch korrekt herzustellen ist die Einbeziehung von Hintergrundwissen, um ein explizites Verständnis der verwendeten Begriffe zu erlangen. Eine in der Computerlinguistik bekannte Quelle für solches Hintergrundwissen über semantische Zusammenhänge ist WordNet. Um jedoch besonders für technische Begriffe eine möglichst vollständige Abdeckung zu erreichen, reicht WordNet alleine als Wissensquelle nicht aus. In dieser Arbeit wird daher ein Ansatz entwickelt, um eine konsolidierte Konzepthierarchie aus mehreren beliebigen Wissensquellen aufzubauen.

Freitag, 10. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 17. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 301 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Pierre Bonert
Titel Detecting Data-State Anomalies in BPMN 2.0
Vortragstyp Bachelorarbeit
Betreuer(in) Elaheh Ordoni
Vortragsmodus
Kurzfassung Business Process Model and Notation (BPMN) is a standard language to specify business process models. It helps organizations around the world to analyze, improve and automate their processes. It is very important to make sure that those models are correct, as faulty models can do more harm than good. While many verification methods for BPMN concentrate only on control flow, the importance of correct data flow is often neglected.

Additionally the few approaches tackling this problem, only do it on a surface level ignoring certain important aspects, such as data states. Because data objects with states can cause different types of errors than data objects without them, ignoring data states can lead to overlooking certain mistakes. This thesis tries to address the problem of detecting data flow errors on the level of data states, while also taking optional data and alternative data into account. We propose a new transformation for BPMN models to Petri Nets and specify suitable anti-patterns. Using a model checker, we are then capable of automatically detecting data flow errors regarding data states. In combination with existing approaches, which detect control flow errors or data flow errors on the level of data values, business process designers will be able to prove with a higher certainty that their models are actually flawless.

Vortragende(r) Cem Özcan
Titel Meta-Learning Feature Importance
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Feature Selection ist ein Prozess, der redundante Features aus Datensätzen entfernt. Das resultiert in kürzeren Trainingszeiten und verbessert die Performance von Machine Learning Modellen, weswegen Feature Selection ein wichtiger Bestandteil von Machine Learning Pipelines ist. Die Berechnung der Feature Importance ist jedoch häufig sehr aufwendig und erfordert das Training von Modellen.

Ziel dieser Arbeit ist es, einen Meta-Learning Ansatz zu entwickeln, um die Wichtigkeit verschiedener Features für ein Klassifikationsproblem vorherzusagen, ohne vorher ein Modell auf den Daten trainiert zu haben.

Meta-Learning ist ein Bereich des maschinellen Lernens, das sich mit der Vorhersage der Performance von verschiedenen Machine Learning Modellen beschäftigt. Für Vorhersagen dieser Art wird ein Meta-Datensatz benötigt, dessen Einträge individuelle Datensätze repräsentieren, die von Meta-Features charakterisiert werden. Die Zielvariablen eines Meta-Datensatzes sind häufig die Performance-Werte verschiedener Klassifikationsmodelle auf den jeweiligen Datensätzen. Im Rahmen dieser Arbeit sollen Meta-Features erarbeitet und implementiert werden, die nicht nur ganze Datensätze, sondern individuelle Features eines Datensatzes charakterisieren. Als Zielvariablen werden Feature Importance Werte verschiedener Verfahren eingesetzt. Erste Ergebnisse zeigen, dass eine positive Korrelation zwischen tatsächlichen und vorhergesagten Feature Importance Werten besteht.

Freitag, 17. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mazen Ebada
Titel Konfigurierbare und musterbasierte Verfeinerung von Datenflussmodellen zu Palladiomodellen
Vortragstyp Bachelorarbeit
Betreuer(in) Stephan Seifermann
Vortragsmodus
Kurzfassung As there are many modeling methods of systems, there is always when designing a new system the problem which modeling method to use. The reason is that every modeling method designs the system from a specific viewpoint. However, all of these viewpoints are usually needed together in order to better design a system. It is also time costing to repeat integrating same information in every modeling method in order to be capable of analyzing the system from its viewpoint. In recent years, approaches to combine different modeling viewpoints together in a new modeling method or transforming one modeling method to another has been increasing. Especially there is a great focus on the relation between the data flow modeling and the control flow modeling as both of them are essential to design a good analyzed system. While the data-oriented descriptions are important for the architects to know about the flow of the data in the system and the data dependencies between the different components, they don't allow them to widely analyze the performance of the system as the control-flow-oriented ones do. On the other hand for some properties of the system, the analysis does not require a fine-grained description of the internal detailed behavior of system components which is offered by the control flow modeling. Our goal in this thesis is to deal with these both different available modeling methods of systems. We assume that we are already using data flow modeling to describe our desired system and that we want to further analyze the performance of the system and its control flow. We go through transforming the available data flow model (DFM) to a control flow model (CFM) stub containing all of the available information in the DFM, which can be then simulated with as few modifications. We define some conditions, which we consider that they must exist in the transformation process between DFMs and CFMs in order to be meaningful and valid. Based on these conditions we create mapping rules which maps the available elements in the DFM to their suitable patterns in the Palladio Component Model (PCM), which is a control-flow oriented description language, maintaining all information which is introduced in the DFM. We evaluate our work by going through the elements of the PCM, classifying them and calculating the ratio of the covered elements by the mapping rules to the total elements, which should be existing in order to get a meaningful stub. As a result we prove that we cover about 70 percent of the elements by the mapping rules while we show that the other 30 percent can't be extracted from the information available in the DFM.
Vortragende(r) Viktor Kiesel
Titel Zielsystemunabhängige Quelltextsynthese aus natürlicher Sprache
Vortragstyp Masterarbeit
Betreuer(in) Sebastian Weigelt
Vortragsmodus
Kurzfassung Die Steuerung von Maschinen, wie Robotern und intelligenter Assistenten, durch Sprache gewinnt im täglichen Leben immer stärker an Bedeutung.

In Zukunft werden Nutzer erwarten, dass Maschinen komplexe Befehlssequenzen verstehen, die zum Beispiel Kontrollstrukturen enthalten. In dieser Arbeit wurde daher das Thema der zielsystemunabhängigen Quelltextsynthese aus natürlicher Sprache untersucht. Dabei wurden Werkzeuge entwickelt, die aus aufbereiteten Sprachinformationen, wie beispielsweise extrahierten Kontrollstrukturen, einen abstrakten Syntaxbaum synthetisieren. Dazu wurden Strukturen des Syntaxbaumes durch Mustererkenner extrahiert und anschließend verbunden. Der Syntaxbaum wurde durch Besucher und Schablonen-Systeme in Quelltext übersetzt. Mit diesem Vorgehen konnte Quelltext für einen Küchenroboter, einen Legoroboter und ein System zum Erstellen von Aktivitätsdiagrammen erzeugt werden. Die entwickelten Werkzeuge sind in der Lage Quelltext in Java, Python, C und PlantUML zu erzeugen. Bei einer Online-Studie akzeptierten Probanden in einem Mehrheitsentscheid 47,68% der Aktivitätsdiagramme als korrekt. Vollständig korrekter Quelltext wurde bei einer manuellen Evaluation in 32,91% der Fälle erzeugt. Die Ergebnisse zeigen, dass Quelltext mit Kontrollstrukturen aus natürlicher Sprache synthetisiert werden kann.

Freitag, 24. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 31. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 7. Februar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Florentin Kirsten
Titel Verbesserung von Code-Qualität mit Hilfe von neuronalen Netzen
Vortragstyp Masterarbeit
Betreuer(in) Robert Heinrich
Vortragsmodus
Kurzfassung Diese Arbeit untersucht unterschiedliche Ansätze zum Detektieren und Verbessern von Problemen im Code, um die Codequalität zu steigern. Die meisten verwandten Ansätze beschreiben die Vorverarbeitung des Codes, um eine passende Repräsentation mit geeignetem Vokabular zu erhalten, nur lückenhaft. Des Weiteren werden selten Gründe für bestimmte Vorverarbeitungsschritte angeführt. Zusätzlich bleibt es unklar, wie neuronale Netzarchitekturen mit verschiedenen Repräsentationen abschneiden. Diese Arbeit soll diese Wissenslücken schließen. Basierend auf den verschiedenen Codekomponenten, werden verschiedene Kategorien für die Modellierung des Vokabulars erstellt. Die Auswirkungen jedes Modellierungschrittes werden evaluiert. Des Weiteren werden verschiedene Coderepräsentationen darauf getestet, in wie weit neuronale Netze Fehler in diesen Code detektieren können. Die "Sate IV Juliet Test Suite" wird als Datensatz zur Evaluation verwendet da dieser gut gepflegt und deutlich beschriftet ist. Des Weiteren kann er auf viele verschiedene Arten angewandt und vorverarbeitet werden.

Die neuronalen Netze werden auf ihre Fertigkeit zur binären und Mehrklassen-Klassifizierung getestet. Diese Art der Evaluierung konnte in keiner verwandten Arbeit festgestellt werden. Zusätzlich werden die verschiedenen AST und sequenziellen Code-Repräsentationen mit den jeweiligen neuronalen Netzarchitekturen evaluiert. Die unterschiedlichen Schritte zur Modellierung des Vokabulars, werden ebenfalls auf diese beiden Code-Repräsentationen angewendet. Abschließend wird eine geeignete Repräsentation, Netzarchitektur und Modellierung des Vokabulars empfohlen.

Freitag, 14. Februar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Lukas Greiner
Titel Bewertung verschiedener Parallelisierungsstrategien im Hinblick auf Leistungsfähigkeit von paralleler Programmausführung
Vortragstyp Bachelorarbeit
Betreuer(in) Angelika Kaplan
Vortragsmodus
Kurzfassung Moderne Prozessoren erreichen eine Leistungssteigerung durch Hinzufügen mehrerer Kerne. Dadurch muss bei der Softwareentwicklung darauf geachtet werden, die Programmabläufe zu parallelisieren. Einflussfaktoren, die die Leistungsfähigkeit paralleler Programmausführung beeinflussen können, wurden bereits kategorisiert. Der Einfluss der gewählten Parallelisierungsstrategie ist dabei unbekannt.

Im Rahmen der Bachelorarbeit wurde der Einfluss der gewählten Parallelisierungsstrategie auf die Leistungsfähigkeit von Software untersucht. Dazu wurden unterschiedliche Hardwareanforderungen genutzt. Mit ihnen wurden einzelne Arbeitspakete generiert. Diese wurden durch verschiedene Parallelisierungsstrategien ausgeführt. Die verwendeten Parallelisierungsstrategien sind: Java Threads, Java ParallelStreams, OpenMp und Akka Actor. Bei jeder Ausführung wurden die Laufzeit und das Cacheverhalten gemessen. Zudem wurden die Experimente auf verschiedenen dezidierten Servern und dem BwUniCluster durchgeführt. Die Auswertungen erfolgten mittels Beschleunigungskurven und der Cache Miss Rate. Die Ergebnisse zeigen, dass sich die Parallelisierungsstrategien bei den verwendeten Arbeitspaketen nur in geringem Maße unterscheiden.

Freitag, 21. Februar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Felix Eurich
Titel Entwurf und Aufbau einer semantischen Repräsentation von Quelltext
Vortragstyp Masterarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Eine Herausforderung bei der Rückverfolgung von Quelltext zu Anforderungen stellt die Analyse von Quelltext dar. Informationen über semantische Zusammenhänge zwischen Programmelementen sind darin nicht explizit dokumentiert, sondern müssen aus vorhandenen Informationen wie der natürlichen Sprache oder den strukturellen Abhängigkeiten abgeleitet werden. Im Rahmen des Forschungsprojekts INDIRECT wird eine semantische Repräsentation von Quelltext entworfen und umgesetzt, um die darin enthaltenen Informationen bei der Rückverfolgung von Anforderungen nutzen zu können. Die Repräsentation umfasst sowohl syntaktische Informationen als auch semantische Zusammenhänge im Quelltext. Für die Identifikation von semantischen Zusammenhängen wird eine Analyse der Syntax und eine Analyse der lexikalischen Bestandteile im Quelltext durchgeführt. Abschließend erfolgt eine Clusteranalyse auf Basis der gefundenen Zusammenhänge, um Gruppen aus semantisch zusammenhängenden Programmelementen zu identifizieren. Bei der Evaluation wurde eine Abdeckung der gefundenen Programmelementgruppen von bis zu 0,91 erzielt. Die Präzision der gefundenen Cluster betrug bis zu 0,9. Das harmonische Mittel aus der Cluster-Abdeckung und der Cluster-Präzision erreichte einen maximalen Wert von 0,73.