Meine Arbeitsschwerpunkte

Das automatisierte Erkennen bibliografischer Dubletten

Mit diesem Thema beschäftige ich mich intensiv und ohne Unterbrechung seit 2003. Ursprünglich verband ich damit ein rein praktisches Interesse, denn es galt damals, die relativ umfangreichen Bestandsnachweise einer wissenschaftlichen Bibliothek samt Titel, die in elektronischer Form vorlagen, in den Österreichischen Verbundkatalog so zu integrieren, dass dabei möglichst keine Titeldubletten entstanden.

Seit dem erfolgreichen Abschluss dieses Projekts habe ich versucht, alle Teilaspekte, die bei der automatisierten Erkennung bibliografischer Dubletten zu berücksichtigen sind, ausführlich wissenschaftlich zu beschreiben und die Methoden, die dabei angewandt werden, aufgrund empirischer Ergebnisse zu bewerten.

Die Ansätze, mit denen ich mich dabei beschäftige, basieren auf sogenannten N-Grammen. Die einzelnen Schritte sind die Analyse des Datenformats, die Auswahl der entsprechenden Kategorien (Felder), die Harmonisierung des Zeichensatzes, die Teilmengenbildung sowie die einzelnen Berechnungsverfahren und deren Bewertung.

Ziel dieser Arbeit ist, eine Art Framework zu entwickeln, mit dem alle Schritte durchgeführt und ausgewertet werden können, um eine vorliegende Menge an Titeln auf Dubletten zu überprüfen oder zwei Titelmengen miteinander zu vergleichen und dabei die (möglichen) Titeldubletten zu erkennen.

Methoden und Techniken der Digital Humanities

Dass ich mich mit diesem Arbeitsgebiet beschäftige hängt damit zusammen, dass ich am Robert Musil-Institut vorrangig mit der technischen Weiterentwicklung der digitalen Editionen befasst bin. Am Beispiel der »Klagenfurter Ausgabe Robert Musil« bedeutet dies konkret, dass diese von einer stationären Ein-Benutzer-Anwendung, deren Daten in einem rein proprietären Format gespeichert sind, in ein mehrbenutzertaugliches, plattformunabhängiges System zu überführen ist, dessen Datenformat ausschließlich standardisierten und offen definierten Regeln gehorcht und das zudem die Aspekte der Langzeitarchivierung berücksichtigt.

Begonnen habe ich damit, die Lesetexte der Ausgabe durch entsprechend angefertigte Routinen so auszulesen, dass diese in einem Zwischenformat (XML-TEI) gespeichert und in weiterer Folge daraus unterschiedliche Zielformate (HTML, PDF, e-Pub) definiert werden können.

Damit soll gewährleistet werden, dass die Lesetexte in verschiedenen Formen (als gedruckter Text, als E-Book wie auch in einer ansprechenden Online-Version) verbreitet werden können.

Grundsätze des wissenschaftlichen Arbeitens

Als ich 1994 den Leiter der ehemaligen KOKOL ( = Kommission zur Koordinierung der Lehre) der Universität Klagenfurt, Herrn Prof. Neweklowsky, darauf angesprochen habe, ob es vielleicht sinnvoll sein könnte, eine Lehrveranstaltung zur »Einführung in das wissenschaftliche Arbeiten« anzubieten, war sich dieser gar nicht sicher, ob eine solche sinnvoll oder hilfreich sein könnte und ob diese von den Studierenden auch angenommen würde. Wie sich gezeigt hat, gehört in der Zwischenzeit eine entsprechende in allen Studienrichtungen zum Gegenstand ihrer Curricula.

Besonders interessant ist das Unterrichten eines solchen Gegenstands immer dann, wenn die Studierenden aus möglichst verschiedenen Studienrichtungen kommen. Durch den Kontrast, der sich aus den unterschiedlichen Wissenschaftstraditionen und -kulturen ergibt, ist es überaus lohnend, die Grundsätze des wissenschaftlichen Arbeitens zu beschreiben und zu hinterfragen.

Bis 2010 habe ich durchgehend jedes Semester eine entsprechende Lehrveranstaltung gehalten. In der Zwischenzeit halte ich eine solche nicht mehr in dieser Regelmäßigkeit.