6. Dezember 2023 : 14:40 - 15:00
Peter Eisner (TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften, Deutschland)
Veranstaltungsraum: RAUM A
Titel und Abstracts enthalten manchmal mehr als nur Text. Mit verschiedenen Ansätzen wie MathML oder LaTeX werden zum Beispiel Formeln dargestellt. Doch was passiert, wenn diese Informationen auf Systeme treffen, die nichts damit anfangen können?
Bereits im Titel oder Abstract wissenschaftlicher Artikel machen sich fachspezifische Anforderungen bemerkbar, die über einfachen Text hinausgehen. Es können z.B. einfache Darstellungen von Molekülen auftreten (Großbuchstaben, Tief- und Hochstellung). Aber auch komplexe mathamatische Formeln sind keine Seltenheit. In der alten Print-Welt sind solche Darstellungen unproblematisch. Bei digitalen Publikationen und Retrodigitalisierungen fließen sie indessen in die Metadaten. So treffen Fragmente aus XML- oder LaTeX-Quellen auf Systeme, die manchmal nur einfache Text-Informationen erwarten. Dabei geht ihr Definitionskontext verloren. Mehrfache Konvertierungen können Fehler und Informationsverluste nach sich ziehen. Im Team für digitale Langzeitarchivierung der TIB zeigt sich die Problematik im Kontext der Archivierung von Open Access Journals, wofür verschiedene Metadaten-Quellen von teils sehr heterogener Qualität infrage kommen. Wir werfen einen Blick auf Beispiele aus der Praxis.