Institutsseminar/2020-05-08

Aus IPD-Institutsseminar
Wechseln zu: Navigation, Suche
Termin (Alle Termine)
Datum Fr 8. Mai 2020, 11:30 Uhr
Dauer 60 min
Raum Raum 348 (Gebäude 50.34)
Vorheriger Termin Fr 24. April 2020
Nächster Termin Fr 15. Mai 2020

Vorträge

Vortragende(r) Emmanouil Emmanouilidis
Titel Scenario Discovery with Active Learning
Vortragstyp Bachelorarbeit
Betreuer(in) Vadim Arzamasov
Kurzfassung PRIM (Patient Rule Induction Method) is an algorithm used for discovering scenarios, by creating hyperboxes in the input space. Yet PRIM alone usually requires large datasets and computational simulations can be expensive. Consequently, one wants to obtain scenarios while reducing the number of simulations. It has been shown, that combining PRIM with machine learning models, can reduce the number of necessary simulation runs by around 75%.

In this thesis, I analyze nine different active learning sampling strategies together with several machine learning models, in order to find out if active learning can systematically improve PRIM even further, and if out of those strategies and models, a most beneficial combination of sampling method and intermediate machine learning model exists for this purpose.

Vortragende(r) Tobias Telge
Titel Worteinbettungen für die Anforderungsdomäne
Vortragstyp Bachelorarbeit
Betreuer(in) Tobias Hey
Kurzfassung Worteinbettungen werden in Aufgaben aus der Anforderungsdomäne auf vielfältige Weise eingesetzt. In dieser Arbeit werden Worteinbettungen für die Anforderungsdomäne gebildet und darauf geprüft, ob sie in solchen Aufgaben bessere Ergebnisse als generische Worteinbettungen erzielen. Dafür wird ein Korpus von in der Anforderungsdomäne üblichen Dokumenten aufgebaut. Er umfasst 21458 Anforderungsbeschreibungen und 1680 Anwendererzählungen. Verschiedene Worteinbettungsmodelle werden auf ihre Eignung für das Training auf dem Korpus analysiert. Mit dem fastText-Modell, das durch die Berücksichtigung von Teilwörtern seltene Wörter besser darstellen kann, werden die domänenspezifischen Worteinbettungen gebildet. Sie werden durch Untersuchung von Wortähnlichkeiten und Clusteranalysen intrinsisch evaluiert. Die domänenspezifischen Worteinbettungen erfassen einige domänenspezifische Feinheiten besser, die untersuchten generischen Worteinbettungen hingegen stellen manche Wörter besser dar. Um die Vorteile beider Worteinbettungen zu nutzen, werden verschiedene Kombinationsverfahren analysiert und evaluiert. In einer Aufgabe zur Klassifizierung von Sätzen aus Anforderungsbeschreibungen erzielt eine gewichtete Durchschnittsbildung mit einer Gewichtung von 0,7 zugunsten der generischen Worteinbettungen die besten Ergebnisse. Ihr bester Wert ist eine Genauigkeit von 0,83 mittels eines LSTMs als Klassifikator und der Training-Test-Teilung als Testverfahren. Die domänenspezifischen, bzw. generischen Worteinbettungen liefern dabei hingegen lediglich 0,75, bzw. 0,72.
Neuen Vortrag erstellen

 

Hinweise