Submission Application für den automatischen pre-Ingest und Ingest

16. März 2022 : 10:05 - 10:30

Katharina Markus (ZB MED – Informationszentrum Lebenswissenschaften)

Veranstaltungsraum: Camp 5

Die Submission Application für die Langzeitarchivierung bei ZB MED wurde anhand eines Use Cases entworfen. Dieser Use Case betrifft zu archivierende Konferenz-Abstracts auf einem Publikationsportal, dem Portal German Medical Science. Dabei war die Datenstruktur des Publikationsportals mit den Ansprüchen an eine umfangreiche und zukunftsfähige Langzeitarchivierung zu vereinen. Darüber hinaus wurde bei der Konzipierung der Submission Application die Weiterverwendung für andere Workflows mitgedacht. Die Submission Application und die von ihr erstellten Submission Information Packages (SIPs) sollen in diesem Vortrag vorgestellt werden.

Das Archivierungssystem von ZB MED nutzt die Software Rosetta und wird in Kooperation mit Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek (TIB) und Leibniz-Informationszentrum Wirtschaft (ZBW) betrieben, wobei TIB die Administration und das Hosting des Systems übernimmt. Da Rosetta primär Vorgaben für den Ingest macht, konnte vor allem der davor liegende pre-Ingest vergleichsweise frei gestaltet werden. Die an ZB MED konzipierte Submission Application besteht aus zwei Teilen. Der Workflow-spezifische Teil interagiert mit dem Publikationsportal, holt Daten ab und generiert SIPs entsprechend der Datenstruktur der Sammlung. Der zweite, generische Teil übergibt die erstellte SIP an das Langzeitarchivierungssystem über den von Rosetta bereitgestellten METS-Ingest.

Sowohl SIP-Struktur als auch Metadaten-Übernahme wurden granular konzipiert. Dabei wird sowohl für jede Abstract-Publikation wie auch für die Beschreibung der Konferenz eine SIP generiert. Metadaten aus unterschiedlichen Quellen werden kombiniert um beide Level, die übergeordnete Konferenz sowie die einzelnen Abstracts, abzubilden. In den Workflow-spezifischen Teil ist außerdem eine Validierungsroutine und eine PDF/A-Generierungsroutine integriert. Die Validierung dient dazu, den Datenproduzenten in der gleichen Institution invalide Dateien frühzeitig im Workflow zu melden und diese von ihnen korrigieren zu lassen. PDF/A-Dateien werden für diese Sammlung generiert, wenn Textpublikationen nicht in PDF für die Langzeitarchivierung bereitstehen.

 

zurück zur Liste