Supporting a Knowledge Management System for Software Engineering Research with Large Language Models: Unterschied zwischen den Versionen

Aus SDQ-Institutsseminar
Keine Bearbeitungszusammenfassung
Markierung: Manuelle Zurücksetzung
Keine Bearbeitungszusammenfassung
 
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt)
Zeile 4: Zeile 4:
|vortragstyp=Masterarbeit
|vortragstyp=Masterarbeit
|betreuer=Angelika Kaplan
|betreuer=Angelika Kaplan
|termin=Institutsseminar/2024-05-03
|termin=Institutsseminar/2024-05-10
|vortragsmodus=in Präsenz
|vortragsmodus=in Präsenz
|kurzfassung=tba
|kurzfassung=Im Forschungsbereich Softwaretechnik werden viele Publikationen in Form von wissenschaftlichen Aufsätzen veröffentlicht. Für Wissenschaftler ist es wichtig, das gewonnene Wissen zu organisieren und zugänglich zu machen. Zur Erfassung und Strukturierung von Publikationen ist der Open Research Knowledge Graph (ORKG) ein System, das Publikationen aus verschiedenen Forschungsbereichen verwalten, visualisieren und vergleichen kann. Aktuell wird das Hinzufügen von Publikationen manuell durch die Nutzer durchgeführt. Um diesen Prozess zu verbessern und zu erleichtern, kann eine automatische Klassifizierung eingesetzt werden.
 
In dieser Masterarbeit stellen wir einen Ansatz zur Unterstützung des Import-Prozesses für den ORKG vor, indem wir Publikationen aus dem Bereich der Softwarearchitektur mit Sprachmodellen klassifizieren.
Für den Ansatz beurteilen wir, wie gut die Sprachmodelle abschneiden und welchen Umwelteinfluss die Klassifizierung hat.
 
Für die Klassifizierung greifen wir auf den Datensatz zurück, welcher eine Taxonomie und einen Datensatz mit Softwarearchitektur-Veröffentlichungen beinhaltet. Auf dem Datensatz wenden wir verschiedene Techniken wie Splitting und Oversampling an, bevor wir ihn an die Sprachmodelle übergeben.
Für die Klassifizierung verwenden wir zwei verschieden Ansätze. Zum einen trainieren wir Sprachmodelle und führen eine Hyperparameter Suchen durch. Zum anderen verwenden wir einen Zero-Shot Ansatz um Vorhersagen für die Softwarearchitektur Publikationen zu erhalten.
Wir konnten zeigen, dass die trainierten Sprachmodelle gut funktionieren, wenn genügend Vertreter für die Label vorhanden sind. Mit der Oversampling-Strategie konnten wir unsere Ergebnisse verbessern. Für Kategorien mit weniger Labels konnten wir zeigen, dass der Zero-Shot Ansatz besser abschneidet.
Für den Umwelteinfluss konnten wir zeigen, dass das kleinere Sprachmodell DistilBERT für die trainierten Sprachmodelle und Mistral bzw. Llama2:7b für den Zero-Shot Ansatz im Vergleich zu größeren Sprachmodellen wie DeBERTa und Llama2:70b weniger CO2-Emissionen verursachen, um gute Ergebnisse zu erzielen.
 
Unsere erstellte Implementierung kann für zukünftige Vorhersagen in Wissensmanagementsystemen integriert werden und unterstützt die Vorhersage für neue Taxonomien und Datensätze.
}}
}}

Aktuelle Version vom 6. Mai 2024, 21:45 Uhr

Vortragende(r) Lukas Greiner
Vortragstyp Masterarbeit
Betreuer(in) Angelika Kaplan
Termin Fr 10. Mai 2024
Vortragsmodus in Präsenz
Kurzfassung Im Forschungsbereich Softwaretechnik werden viele Publikationen in Form von wissenschaftlichen Aufsätzen veröffentlicht. Für Wissenschaftler ist es wichtig, das gewonnene Wissen zu organisieren und zugänglich zu machen. Zur Erfassung und Strukturierung von Publikationen ist der Open Research Knowledge Graph (ORKG) ein System, das Publikationen aus verschiedenen Forschungsbereichen verwalten, visualisieren und vergleichen kann. Aktuell wird das Hinzufügen von Publikationen manuell durch die Nutzer durchgeführt. Um diesen Prozess zu verbessern und zu erleichtern, kann eine automatische Klassifizierung eingesetzt werden.

In dieser Masterarbeit stellen wir einen Ansatz zur Unterstützung des Import-Prozesses für den ORKG vor, indem wir Publikationen aus dem Bereich der Softwarearchitektur mit Sprachmodellen klassifizieren. Für den Ansatz beurteilen wir, wie gut die Sprachmodelle abschneiden und welchen Umwelteinfluss die Klassifizierung hat.

Für die Klassifizierung greifen wir auf den Datensatz zurück, welcher eine Taxonomie und einen Datensatz mit Softwarearchitektur-Veröffentlichungen beinhaltet. Auf dem Datensatz wenden wir verschiedene Techniken wie Splitting und Oversampling an, bevor wir ihn an die Sprachmodelle übergeben. Für die Klassifizierung verwenden wir zwei verschieden Ansätze. Zum einen trainieren wir Sprachmodelle und führen eine Hyperparameter Suchen durch. Zum anderen verwenden wir einen Zero-Shot Ansatz um Vorhersagen für die Softwarearchitektur Publikationen zu erhalten. Wir konnten zeigen, dass die trainierten Sprachmodelle gut funktionieren, wenn genügend Vertreter für die Label vorhanden sind. Mit der Oversampling-Strategie konnten wir unsere Ergebnisse verbessern. Für Kategorien mit weniger Labels konnten wir zeigen, dass der Zero-Shot Ansatz besser abschneidet. Für den Umwelteinfluss konnten wir zeigen, dass das kleinere Sprachmodell DistilBERT für die trainierten Sprachmodelle und Mistral bzw. Llama2:7b für den Zero-Shot Ansatz im Vergleich zu größeren Sprachmodellen wie DeBERTa und Llama2:70b weniger CO2-Emissionen verursachen, um gute Ergebnisse zu erzielen.

Unsere erstellte Implementierung kann für zukünftige Vorhersagen in Wissensmanagementsystemen integriert werden und unterstützt die Vorhersage für neue Taxonomien und Datensätze.