Semantische Suche

Freitag, 20. Dezember 2019, 11:00 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Adrian Kruck
Titel Bayesian Optimization for Wrapper Feature Selection
Vortragstyp Masterarbeit
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Wrapper feature selection can lead to highly accurate classifications. However, the computational costs for this are very high in general. Bayesian Optimization on the other hand has already proven to be very efficient in optimizing black box functions. This approach uses Bayesian Optimization in order to minimize the number of evaluations, i.e. the training of models with different feature subsets. We propose four different ways to set up the objective function for the Bayesian optimization. On 14 different classification datasets the approach is compared against 14 other established feature selection methods, including other wrapper methods, but also filter methods and embedded methods. We use gaussian processes and random forests for the surrogate model. The classifiers which are applied to the selected feature subsets are logistic regression and naive bayes. We compare all the different feature selection methods against each other by comparing their classification accuracies and runtime. Our approach shows to keep up with the most established feature selection methods, but the evaluation also shows that the experimental setup does not value the feature selection enough. Concluding, we give guidelines how an experimental setup can be more appropriate and several concepts are provided of how to develop the Bayesian optimization for wrapper feature selection further.
Vortragende(r) Benjamin Jochum
Titel Discovering data-driven Explanations
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Vortragsmodus
Kurzfassung The main goal knowledge discovery focusses is, an increase of knowledge using some set of data. In many cases it is crucial that results are human-comprehensible. Subdividing the feature space into boxes with unique characteristics is a commonly used approach for achieving this goal. The patient-rule-induction method (PRIM) extracts such "interesting" hyperboxes from a dataset by generating boxes that maximize some class occurrence inside of it. However, the quality of the results varies when applied to small datasets. This work will examine to which extent data-generators can be used to artificially increase the amount of available data in order to improve the accuracy of the results. Secondly, it it will be tested if probabilistic classification can improve the results when using generated data.

Freitag, 20. Dezember 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 301 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Maximilian Wessendorf
Titel Aufbau und Konsolidierung einer Konzepthierarchie für Anforderungsbeschreibungen aus unterschiedlichen Wissensquellen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Ein Problem bei der Anforderungsrückverfolgung ist, dass eine syntaktische Verbindung zwischen Begriffen in Anforderungen und Quelltext oftmals fehlt. Eine Möglichkeit Verknüpfungen dennoch korrekt herzustellen ist die Einbeziehung von Hintergrundwissen, um ein explizites Verständnis der verwendeten Begriffe zu erlangen. Eine in der Computerlinguistik bekannte Quelle für solches Hintergrundwissen über semantische Zusammenhänge ist WordNet. Um jedoch besonders für technische Begriffe eine möglichst vollständige Abdeckung zu erreichen, reicht WordNet alleine als Wissensquelle nicht aus. In dieser Arbeit wird daher ein Ansatz entwickelt, um eine konsolidierte Konzepthierarchie aus mehreren beliebigen Wissensquellen aufzubauen.

Freitag, 10. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 17. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Mazen Ebada
Titel Konfigurierbare und musterbasierte Verfeinerung von Datenflussmodellen zu Palladiomodellen
Vortragstyp Bachelorarbeit
Betreuer(in) Stephan Seifermann
Vortragsmodus
Kurzfassung As there are many modeling methods of systems, there is always when designing a new system the problem which modeling method to use. The reason is that every modeling method designs the system from a specific viewpoint. However, all of these viewpoints are usually needed together in order to better design a system. It is also time costing to repeat integrating same information in every modeling method in order to be capable of analyzing the system from its viewpoint. In recent years, approaches to combine different modeling viewpoints together in a new modeling method or transforming one modeling method to another has been increasing. Especially there is a great focus on the relation between the data flow modeling and the control flow modeling as both of them are essential to design a good analyzed system. While the data-oriented descriptions are important for the architects to know about the flow of the data in the system and the data dependencies between the different components, they don't allow them to widely analyze the performance of the system as the control-flow-oriented ones do. On the other hand for some properties of the system, the analysis does not require a fine-grained description of the internal detailed behavior of system components which is offered by the control flow modeling. Our goal in this thesis is to deal with these both different available modeling methods of systems. We assume that we are already using data flow modeling to describe our desired system and that we want to further analyze the performance of the system and its control flow. We go through transforming the available data flow model (DFM) to a control flow model (CFM) stub containing all of the available information in the DFM, which can be then simulated with as few modifications. We define some conditions, which we consider that they must exist in the transformation process between DFMs and CFMs in order to be meaningful and valid. Based on these conditions we create mapping rules which maps the available elements in the DFM to their suitable patterns in the Palladio Component Model (PCM), which is a control-flow oriented description language, maintaining all information which is introduced in the DFM. We evaluate our work by going through the elements of the PCM, classifying them and calculating the ratio of the covered elements by the mapping rules to the total elements, which should be existing in order to get a meaningful stub. As a result we prove that we cover about 70 percent of the elements by the mapping rules while we show that the other 30 percent can't be extracted from the information available in the DFM.
Vortragende(r) Viktor Kiesel
Titel Zielsystemunabhängige Quelltextsynthese aus natürlicher Sprache
Vortragstyp Masterarbeit
Betreuer(in) Sebastian Weigelt
Vortragsmodus
Kurzfassung Die Steuerung von Maschinen, wie Robotern und intelligenter Assistenten, durch Sprache gewinnt im täglichen Leben immer stärker an Bedeutung.

In Zukunft werden Nutzer erwarten, dass Maschinen komplexe Befehlssequenzen verstehen, die zum Beispiel Kontrollstrukturen enthalten. In dieser Arbeit wurde daher das Thema der zielsystemunabhängigen Quelltextsynthese aus natürlicher Sprache untersucht. Dabei wurden Werkzeuge entwickelt, die aus aufbereiteten Sprachinformationen, wie beispielsweise extrahierten Kontrollstrukturen, einen abstrakten Syntaxbaum synthetisieren. Dazu wurden Strukturen des Syntaxbaumes durch Mustererkenner extrahiert und anschließend verbunden. Der Syntaxbaum wurde durch Besucher und Schablonen-Systeme in Quelltext übersetzt. Mit diesem Vorgehen konnte Quelltext für einen Küchenroboter, einen Legoroboter und ein System zum Erstellen von Aktivitätsdiagrammen erzeugt werden. Die entwickelten Werkzeuge sind in der Lage Quelltext in Java, Python, C und PlantUML zu erzeugen. Bei einer Online-Studie akzeptierten Probanden in einem Mehrheitsentscheid 47,68% der Aktivitätsdiagramme als korrekt. Vollständig korrekter Quelltext wurde bei einer manuellen Evaluation in 32,91% der Fälle erzeugt. Die Ergebnisse zeigen, dass Quelltext mit Kontrollstrukturen aus natürlicher Sprache synthetisiert werden kann.

Freitag, 17. Januar 2020, 11:30 Uhr

iCal (Download)
Ort: Raum 301 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Pierre Bonert
Titel Detecting Data-State Anomalies in BPMN 2.0
Vortragstyp Bachelorarbeit
Betreuer(in) Elaheh Ordoni
Vortragsmodus
Kurzfassung Business Process Model and Notation (BPMN) is a standard language to specify business process models. It helps organizations around the world to analyze, improve and automate their processes. It is very important to make sure that those models are correct, as faulty models can do more harm than good. While many verification methods for BPMN concentrate only on control flow, the importance of correct data flow is often neglected.

Additionally the few approaches tackling this problem, only do it on a surface level ignoring certain important aspects, such as data states. Because data objects with states can cause different types of errors than data objects without them, ignoring data states can lead to overlooking certain mistakes. This thesis tries to address the problem of detecting data flow errors on the level of data states, while also taking optional data and alternative data into account. We propose a new transformation for BPMN models to Petri Nets and specify suitable anti-patterns. Using a model checker, we are then capable of automatically detecting data flow errors regarding data states. In combination with existing approaches, which detect control flow errors or data flow errors on the level of data values, business process designers will be able to prove with a higher certainty that their models are actually flawless.

Vortragende(r) Cem Özcan
Titel Meta-Learning Feature Importance
Vortragstyp Proposal
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Feature Selection ist ein Prozess, der redundante Features aus Datensätzen entfernt. Das resultiert in kürzeren Trainingszeiten und verbessert die Performance von Machine Learning Modellen, weswegen Feature Selection ein wichtiger Bestandteil von Machine Learning Pipelines ist. Die Berechnung der Feature Importance ist jedoch häufig sehr aufwendig und erfordert das Training von Modellen.

Ziel dieser Arbeit ist es, einen Meta-Learning Ansatz zu entwickeln, um die Wichtigkeit verschiedener Features für ein Klassifikationsproblem vorherzusagen, ohne vorher ein Modell auf den Daten trainiert zu haben.

Meta-Learning ist ein Bereich des maschinellen Lernens, das sich mit der Vorhersage der Performance von verschiedenen Machine Learning Modellen beschäftigt. Für Vorhersagen dieser Art wird ein Meta-Datensatz benötigt, dessen Einträge individuelle Datensätze repräsentieren, die von Meta-Features charakterisiert werden. Die Zielvariablen eines Meta-Datensatzes sind häufig die Performance-Werte verschiedener Klassifikationsmodelle auf den jeweiligen Datensätzen. Im Rahmen dieser Arbeit sollen Meta-Features erarbeitet und implementiert werden, die nicht nur ganze Datensätze, sondern individuelle Features eines Datensatzes charakterisieren. Als Zielvariablen werden Feature Importance Werte verschiedener Verfahren eingesetzt. Erste Ergebnisse zeigen, dass eine positive Korrelation zwischen tatsächlichen und vorhergesagten Feature Importance Werten besteht.