Institutsseminar/2020-10-23

Aus IPD-Institutsseminar
Zur Navigation springen Zur Suche springen
Termin (Alle Termine)
Datum Fr 23. Oktober 2020, 14:00 Uhr
Dauer 75 min
Raum https://sdqweb.ipd.kit.edu/wiki/Institutsseminar/Microsoft_Teams
Vorheriger Termin Fr 9. Oktober 2020
Nächster Termin Fr 6. November 2020

Vorträge

Vortragende(r) Caspar Friedrich Maximilian Nagy
Titel Efficient Pruning of N-gram Corpora for Culturomics using Language Models
Vortragstyp Bachelorarbeit
Betreuer(in) Jens Willkomm
Kurzfassung Big data technology pushes the frontiers of science. A particularly interesting application of it is culturomics. It uses big data techniques to accurately quantify and observe language and culture over time. A milestone to enable this kind of analysis in a traditionally humanistic field was the effort around the Google Books project. The scanned books were then transformed into a so called N-gram corpus, that contains the frequency of words and their combinations over time. Unfortunately this corpus is enormous in size of over 2 terabytes of storage. This makes handling, storing and querying the corpus difficult. In this bachelor thesis, we introduce a novel technique to reduce the storage requirements of N-gram corpora. It uses Natural Language Processing to estimate the counts of N-grams. Our approach is able to prune around 30% more effective than state-of-the-art methods.
Vortragende(r) Sophie Schulz
Titel Linking Software Architecture Documentation and Models
Vortragstyp Masterarbeit
Betreuer(in) Jan Keim
Kurzfassung In der Softwareentwicklung ist die Konsistenz zwischen Artefakten ein wichtiges Thema.

Diese Arbeit schlägt eine Struktur zur Erkennung von korrespondierenden und fehlenden Elementen zwischen einer Dokumentation und einem formalen Modell vor.

Zunächst identifiziert und extrahiert der Ansatz die im Text beschriebenen Modell-instanzen und -beziehungen. Dann verbindet der Ansatz diese Textelemente mit ihren entsprechenden Gegenstücken im Modell. Diese Verknüpfungen sind mit Trace-Links vergleichbar. Der Ansatz erlaubt jedoch die Abstufung dieser Links. Darüber hinaus werden Empfehlungen für Elemente generiert, die nicht im Modell enthalten sind.

Der Ansatz identifiziert Modellnamen und -typen mit einem F1-Wert von über 54%. 60% der empfohlenen Instanzen stimmen mit den in der Benutzerstudie gefundenen Instanzen überein. Bei der Identifizierung von Beziehungen und dem Erstellen von Verknüpfungen erzielte der Ansatz vielversprechende Ergebnisse. Die Ergebnisse können durch zukünftige Arbeiten verbessert werden. Dies ist realisierbar da der Entwurf eine einfache Erweiterung des Ansatzes erlaubt.

Neuen Vortrag erstellen

 

Hinweise