Semantische Suche

Freitag, 8. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 301 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Nico Weidmann
Titel Differentially Private Event Sequences over Infinite Streams
Vortragstyp Bachelorarbeit
Betreuer(in) Christine Tex
Vortragsmodus
Kurzfassung Mit Smart Metern erfasste Datenströme stellen eine Gefahr für die Privatheit dar, sodass Bedarf für Privatheitsverfahren besteht. Aktueller Stand der Technik für Datenströme ist w-event differential privacy. Dies wurde bisher v.a. für die Publikation von Histogram-Queries verwendet. Ziel dieser Arbeit ist die eingehende experimentelle Analyse der Mechanismen, mit dem Fokus darauf zu beurteilen, wie gut diese Mechanismen sich für die Publikation von Sum-Queries, wie sie im Smart Meter Szenario gebraucht werden, eignen. Die Arbeit besteht aus drei Teilen: (1) Reproduktion der in der Literatur propagierten guten Ergebnisse der wichtigsten w-event DP Mechanismen für Histogram-Queries, (2) Evaluierung deren Qualität bei Anwendung auf Smart Meter Daten (Sum-Queries), (3) Evaluierung der Qualität zweier Mechanismen bzgl. der Gewährleistung von Pan-Privacy, einer erweiterten Garantie. Während wir in (1) die Ergebnisse größtenteils nicht reproduzieren konnten, erzielten wir in (2) gute Ergebnisse. Bzgl. (3) gelang es uns, die theoretische Qualitätsanalyse aus der Literatur zu bestätigen.
Vortragende(r) Daniela Ruchser
Titel Evaluierung von unbalancierten Lernmethoden
Vortragstyp Masterarbeit
Betreuer(in) Jakob Bach
Vortragsmodus
Kurzfassung Die binäre Klassifikation von Daten mit unbalancierter Klassenverteilung ist ein relevantes Data-Mining-Problem. In vielen Anwendungsgebieten tritt die interessierende Klasse wesentlich seltener auf als die Mehrheitsklasse. Standard-Klassifikationsalgorithmen und -Evaluationsmaße sind in solchen Situationen nicht gut geeignet. In der Literatur gibt es viele Ansätze, die dieses Problem mit geeigneteren Evaluationsmaßen und Lernmethoden adressieren. Wir führen eine umfassende experimentelle Vergleichsstudie mit vielen Lernmethoden, Evaluationsmaßen und Klassifikationsalgorithmen durch, um herauszufinden, wie gut die Performanz der Methoden auf einer Vielzahl von Datensätzen ist. Im zweiten Teil unserer Arbeit untersuchen wir den Zusammenhang zwischen verschiedenen Datencharakteristiken und der Performanz der Methoden mithilfe von Meta-Learning.
Vortragende(r) Yifan Bao
Titel Location sharing with secrecy guarantees in mobile social networks
Vortragstyp Masterarbeit
Betreuer(in) Gabriela Suntaxi
Vortragsmodus
Kurzfassung With the increasing popularity of location-based services and mobile online social networks (mOSNs), secrecy concerns have become one of the main worries of its users due to location information exposure. Users are required to store their location, i.e., physical position, and the relationships that they have with other users, e.g., friends, to have access to the services offered by these networks. This information, however, is sensitive and has to be protected from unauthorized access.

In this thesis, we aim to offer location-based services to users of mOSNs while guaranteeing that an adversary, including the service provider, will not be able to learn the locations of the users (location secrecy) and the relationship existing between them (relationship secrecy). We consider both linking attacks and collusion attacks. We propose two approaches R-mobishare and V-mobishare, which combine existing cryptographic techniques. Both approaches use, among others, private broadcast encryption and homomorphic encryption. Private broadcast encryption is used to protect the relationships existing between users, and homomorphic encryption is used to protect the location of the users. Our system allows users to query their nearby friends. Next, we prove that our proposed approaches fulfill our secrecy guarantees, i.e., location and relationship secrecy. Finally, we evaluate the query performance of our proposed approaches and use real online social networks to compare their performance. The result of our experiments shows that in a region with low population density such as suburbs, our first approach, R-mobishare, performs better than our approach V-mobishare. On the contrary, in a region with high population density such as downtown, our second approach, V-mobishare, perform better than R-mobishare.

Freitag, 8. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Ryan Christopher Arbai
Titel Konzept eines Dokumentationsassistenten zur Erzeugung strukturierter Anforderungen basierend auf Satzschablonen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Um die Qualität und Glaubwürdigkeit eines Produktes zu erhalten, ist ein systematisches Anforderungsmanagement erforderlich, wobei die Merkmale eines Produkts durch Anforderungen beschrieben werden. Deswegen wurde im Rahmen dieser Arbeit ein Konzept für einen Dokumentationsassistenten entwickelt, mit dem Benutzer strukturierte Anforderungen basierend auf den Satzschablonen nach SOPHIST erstellen können. Dies beinhaltet einen linguistischen Aufbereitungsansatz, der semantische Rollen aus freiem Text extrahiert. Während des Dokumentationsprozesses wurden die semantischen Rollen benutzt, um die passendste Satzschablone zu identifizieren und diese als Hilfestellung dem Benutzer aufzuzeigen. Zudem wurde eine weitere Hilfestellung angeboten, nämlich die Autovervollständigung, die mithilfe von Markovketten das nächste Wort vorhersagen kann. Insgesamt wurden rund 500 Anforderungen aus verschiedenen Quellen herangezogen, um die Integrität des Konzepts zu bewerten. Die Klassifizierung der Texteingabe in eine Satzschablone erreicht ein F1-Maß von 0,559. Dabei wurde die Satzschablone für funktionale Anforderungen mit einem F1-Maß von 0,908 am besten identifiziert. Außerdem wurde der Zusammenhang zwischen den Hilfestellungen mithilfe eines Workshops bewertet. Hierbei konnte gezeigt werden, dass die Anwendung des vorliegenden Konzepts, die Vollständigkeit von Anforderungen verbessert und somit die Qualität der zu dokumentierenden Anforderungen steigert.

Freitag, 15. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}} (Keine Vorträge)

Freitag, 15. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Dana Tomova
Titel Bestimmung der semantischen Funktion von Sätzen in Anforderungsbeschreibungen
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Vortragsmodus
Kurzfassung Das Verständnis der Absicht von Softwareanforderungen ist essenziell für die automatische Generierung von Informationen zur Rückverfolgbarkeit. Funktionale Anforderungen können verschiedene semantische Funktionen, wie die Beschreibung von erwarteten Funktionalitäten oder Zuständen des Systems, beinhalten. Im Rahmen des INDIRECT-Projektes wird ein Werkzeug zur Klassifikation der semantischen Funktion der Sätze in Anforderungsbeschreibungen entwickelt. Dafür werden verschiedene maschinelle Lernverfahren (Stützvektormaschine, Logistische Regression, Random Forest und Naïve Bayes) auf ihre Eignung für diese Aufgabe überprüft. Um ihre Funktionalität zu evaluieren, werden die Verfahren auf einem Datensatz aus frei verfügbaren Anforderungsbeschreibungen getestet, welcher manuell mit semantischen Funktionen etikettiert wurde. Die Ergebnisse zeigen, dass der Random Forest-Klassifikator unter Verwendung von N-Grammen auf Zeichenebene mit einem F1-Maß von 0,79 die beste Leistung auf unbekannten Projekten liefert. Die Lernverfahren werden zusätzlich mittels einer Kreuzvalidierung auf allen vorhandenen Daten getestet. Dabei erzielt die Stützvektormaschine mit einem F1-Maß von 0,90 die besten Ergebnisse, während der Random Forest-Klassifikator ein F1-Maß von 0.89 erreicht.
Vortragende(r) Robin Schulz
Titel Verknüpfung von Text- und Modellentitäten von Softwarearchitektur-Modellen mithilfe von Wortvektoren
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Dokumentation von Softwarearchitekturen ist wichtig für die Qualität und Langlebigkeit von Software. Im Verlauf des Lebenszyklus einer Software ändert sich die Architektur meist, was eine Quelle für Inkonsistenzen gegenüber die Architektur beschreibenden Dokumentationstexten sein kann.

Um diese automatisiert finden und beheben oder ihnen bestenfalls sogar vorbeugen zu können, bedarf es der Verknüpfung von Text- und Modellentitäten. Dieses Problem wurde in der vorzustellenden Arbeit angegangen. Dabei wurden Wortvektoren verwendet, um Ähnlichkeiten zwischen Wörtern finden zu können.

Vortragende(r) Theresa Heine
Titel Verknüpfung von Textelementen zu Softwarearchitektur-Modellen mit Hilfe von Synsets
Vortragstyp Bachelorarbeit
Betreuer(in) Jan Keim
Vortragsmodus
Kurzfassung Inkonsistenzen bei der Benennung von Textelementen einer Softwarearchitektur-Dokumentation (SAD) und Modellelementen eines Softwarearchitektur-Modells (SAM) führen zu Problemen bei der Rückverfolgbarkeit. Statt einem direkten Vergleich zwischen den Bezeichnern der Textelemente und den Namen der Modellelemente wird deshalb ein semantischer Vergleich auf Basis von Synsets durchgeführt, die durch die Auflösung sprachlicher Mehrdeutigkeiten (WSD, Word Sense Disambiguation) ermittelt werden. Mit einem WSD-Algorithmus werden die Bedeutungen der Textelemente im Kontext der SAD in Form von Synsets bestimmt. Über diese Synsets werden Synonyme der Textelemente verwendet, um eine Verknüpfung mit den Modellelementen herzustellen. Dadurch ist es möglich, Textelemente zu Modellelementen zuzuordnen, die semantisch dasselbe Element abbilden, aber unterschiedlich benannt sind.

Freitag, 22. November 2019, 11:30 Uhr

iCal (Download)
Ort: Raum 348 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r) Marco Heyden
Titel Anytime Tradeoff Strategies with Multiple Targets
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Modern applications typically need to find solutions to complex problems under limited time and resources. In settings, in which the exact computation of indicators can either be infeasible or economically undesirable, the use of “anytime” algorithms, which can return approximate results when interrupted, is particularly beneficial, since they offer a natural way to trade computational power for result accuracy.

However, modern systems typically need to solve multiple problems simultaneously. E.g. in order to find high correlations in a dataset, one needs to examine each pair of variables. This is challenging, in particular if the number of variables is large and the data evolves dynamically.

This thesis focuses on the following question: How should one distribute resources at anytime, in order to maximize the overall quality of multiple targets? First, we define the problem, considering various notions of quality and user requirements. Second, we propose a set of strategies to tackle this problem. Finally, we evaluate our strategies via extensive experiments.

Vortragende(r) Florian Kalinke
Titel Subspace Search in Data Streams
Vortragstyp Masterarbeit
Betreuer(in) Edouard Fouché
Vortragsmodus
Kurzfassung Modern data mining often takes place on high-dimensional data streams, which evolve at a very fast pace: On the one hand, the "curse of dimensionality" leads to a sparsely populated feature space, for which classical statistical methods perform poorly. Patterns, such as clusters or outliers, often hide in a few low-dimensional subspaces. On the other hand, data streams are non-stationary and virtually unbounded. Hence, algorithms operating on data streams must work incrementally and take concept drift into account.

While "high-dimensionality" and the "streaming setting" provide two unique sets of challenges, we observe that the existing mining algorithms only address them separately. Thus, our plan is to propose a novel algorithm, which keeps track of the subspaces of interest in high-dimensional data streams over time. We quantify the relevance of subspaces via a so-called "contrast" measure, which we are able to maintain incrementally in an efficient way. Furthermore, we propose a set of heuristics to adapt the search for the relevant subspaces as the data and the underlying distribution evolves.

We show that our approach is beneficial as a feature selection method and as such can be applied to extend a range of knowledge discovery tasks, e.g., "outlier detection", in high-dimensional data-streams.