Juristische Zeitschriften des 19. Jahrhunderts jetzt mit Volltexten auf DLC

9. April 2018

Die Plattform „Digital Libraries Connected“ DLC hat eine umfangreiche Sammlung historischer juristischer Zeitschriften mit durchsuchbarem Volltext, durchblätterbaren Bilddigitalisaten und sorgfältig kuratierten Meta- und Strukturdaten öffentlich zugänglich gemacht:

 Das von der DFG geförderte Projekt Juristische Zeitschriften des 19. Jahrhunderts hat seit 2002 eine umfangreiche Sammlung juristischer Zeitschriften des 19. Jahrhunderts über das Datenbanksystem kleio im Internet verfügbar gemacht. Damals waren 75 Zeitschriften ausgewählt und in lückenloser Folge zusammengetragen, digitalisiert, mit Meta- und Strukturdaten erfasst und publiziert worden. (Zu den Relevanzkriterien vgl. die Projektbeschreibung.) Die international anerkannte Sammlung umfasst diese 75 Zeitschriften mit zusammen 1.320 Bänden und 635.752 Seiten. 2017 kamen OCR-generierte Volltexte des gesamten Corpus hinzu, sie wurden mit den vorliegenden, von Hand kuratierten Meta- und Strukturdaten in das Corpus integriert. Zugleich hat diese Zusammenführung die Migration auf eine andere Datenbank-Plattform nötig gemacht, welche diese wesentlich erweiterten Daten aufnehmen und z.B. die Volltext-Daten für die Betrachter durchsuchbar machen konnte.

(Technisch bedeutete der Migrationsprozess die Umwandlung der im EBIND/SGML-Format vorliegenden Strukturdaten ins TEI/XML-Format, ebenso wie die der OCR-Daten, welche im Abbyy-XML Format vorlagen. Die parallelen TEI-Struktur- und -Volltext-Daten wurden dann ineinander gemischt. Bibliographische Metadaten wurden aus dem Bibliothekskatalog exportiert, bevor sie gemeinsam mit den Bilddigitalisaten und den TEI-Dateien mit Struktur- und Volltext-Daten ins DLC-System eingelesen werden konnten.)

Mit dem 8. März 2018 ist dieser Prozess abgeschlossen und wir freuen uns, nun die Publikation der Sammlung Juristische Zeitschriften des 19. Jahrhunderts im DLC-System ankündigen zu können. Die in DLC angebotene Funktionalität umfasst die Anzeige von Bilddigitalisaten und parallelem Volltext, das einfache Lesen und Blättern durch die Werke, die Navigation durch die Inhaltsverzeichnisse, die Volltextsuche und vieles mehr.

Trotz der nicht manuell nachkorrigierten und so zum Teil fehlerbehafteten Volltext-Daten (deren Qualität maßgeblich vom Druckbild der überwiegend in Fraktur gesetzten Titel abhängt) steht damit ein umfangreiches Corpus (ca. 1,5 GB plaintext, über 215 Mio. tokens) mit einer stark domänenspezifischen Sprache zur Verfügung. Wenn Sie Interesse haben, die Volltext-Daten als Corpus zu nutzen, nehmen Sie gern Kontakt zu uns auf.

Wir würden uns freuen, wenn die Sammlung auf Interesse stößt, und geben sehr gerne weitere Auskünfte.

Link zur Sammlung

Zur Redakteursansicht