icon-symbol-logout-darkest-grey

Heidelberg Center for Digital HumanitiesForschungsprojekte

Auf dieser Seite finden Sie Informationen zu verschiedenen Projekten, die aktuell durch das HCDH unterstützt werden bzw. die sich innerhalb der Veranstaltungsreihe des Zentrums vorgestellt haben und sich weiter vernetzen möchten.

Naval Kishore Press – digital

Die Naval Kishore Press (NKP) wurde 1858 in der nordindischen Stadt Lakhnau von Munshi Naval Kishore (1836-1895) gegründet und entwickelte sich in den folgenden vier Jahrzehnten zu einem der bedeutendsten Verlagsunternehmen Indiens. Die Naval Kishore Press veröffentlichte Werke in den Sprachen Hindi, Urdu, Arabisch, Persisch, Sanskrit und Englisch. Inhaltlich deckte das Verlagsportfolio eine große Bandbreite ab – Belletristik, Schulbücher, Ratgeber, Religion, Texte der klassischen Sanskrit-Literatur, Literatur zum Islam, zur indischen Heilkunde, Koran-Ausgaben, Übersetzungen englischer Klassiker wurden vom Verlag publiziert. Die CATS Bibliothek / Abt. Südasien der Universität Heidelberg besitzt mit der ca. 2.200 Titel (davon 742 Titel auf Mikrofilm) umfassenden Naval Kishore Press-Sammlung einen repräsentativen Querschnitt durch die Verlagsproduktion dieses bedeutenden Verlagshauses.

Ausgewählte Hindi- und Sanskrit-Werke der NKP Sammlung wurden im Rahmen des DFG-geförderten Projekts Fachinformationsdienst Asien (2016-2021) digitalisiert und als editierbare Volltextversionen in Devanāgarī und Transliteration online zur Verfügung gestellt. Ein über die Volltextsuche gefundener Textabschnitt wird im Faksimile durch Highlighting der Textstelle sichtbar gemacht.

Für die Texterkennung kommt Transkribus zum Einsatz. Verschiedene Datenmodelle wurden auf der Basis von Ground Truth (GT) Transkriptionen für die Texterkennung der Devanagari-Werke trainiert. Sie liefern mit einer CER von ca. 2% sehr gute Ergebnisse.

Für die Ground Truth Daten wurde auf heiDATA ein Ground Truth Datenarchiv für südasiatische Schriften eingerichtet. Hier stehen GT Daten aus dem Naval Kishore Press – digital Projekt sowie GT Daten von Kooperationspartnern zur Nachnutzung bereit.

Darüber hinaus dient die von der Bibliothek des Südasien-Instituts aufgebaute Naval Kishore Press Bibliographie als zentrales Nachweisinstrument für Druckwerke des Verlagshauses. Ziel der Bibliographie ist es, die an Bibliotheken weltweit verteilten Bestände zentral in einer Datenbank nachzuweisen. Neben der Heidelberger Sammlung sind auch die an der Bodleian Library in Oxford verfügbaren Werke der Naval Kishore Press nachgewiesen.

Prosopographie-Datenbank mittelassyrischer Texte

Ziel des Projekts „Datenbank für die Personennamen der mittelassyrischen Texte“ ist, eine funktionelle, webbasierte Datenbank zu erstellen, die den Anforderungen eines Projekts im Bereich der Namenskunde und der internationalen Standards für vergleichende Projekte nachkommt. Es handelt sich um eine Datenbank für das von Prof. Dr. Ariel M. Bagg (Seminar für Sprachen und Kulturen des Vorderen Orients/Assyriologie) seit September 2019 geleitete DFG-Projekt „Die Prosopographie der mittelassyrischen Texte (PMA)“, dessen Ziel ist es, ein „bibliographisches“ Lexikon der ca. 5.000 Personennamen (ca. 12.500 Individuen), die im mittelassyrischen Textkorpus vorkommen, zu verfassen. Das Korpus besteht aus ca. 3.000 Keilschrifttexten aus der zweiten Hälfte des zweiten Jts. v. Chr., die im mittelassyrischen Dialekt des Akkadischen verfasst sind. Nach dem der DFG vorgelegten Konzept zum Datenmanagement soll eine benutzerfreundliche Datenbank entwickelt werden, die vom Antragsteller im Laufe des Projekts mit Daten gespeist und nach Projektende (August 2025) in eine webbasierte Datenbank umgewandelt wird. Die Datenbank ist nicht ein wichtiges Hilfsmittel für die Projektarbeit, sondern wird vielmehr nach Projektende Aktualisierungen und weiterführende Studien ermöglichen. Um die nachhaltige öffentliche Verfügbarkeit der Projektergebnisse zu gewährleisten, wird ‒ nach Absprache mit der UB Heidelberg – die webbasierte Software easydb für die Erstellung der Projektdatenbank verwendet.

Objekt und Provenienz - Blogprojekt

Das Blogprojekt „Objekt und Provenienz“ will Provenienzforschung transparent und öffentlich machen: Sukzessive sind dort seit 2021 historische Dokumente aus dem sog. Alten Inventar der Antikensammlung mit Transkriptionen online gestellt worden, die Informationen über Erwerb oder Schenkung von Objekten liefern. Dank hochauflösender Scans der UB Heidelberg können in einem zweiten Schritt diese Dokumente digital annotiert werden, d.h. Hinweise auf identifizierte Objekte und Fotos der Objekte direkt verlinkt werden (work in progress). Längerfristig sollen auch weitere historische Dokumente zur Sammlung in dem Blog verfügbar gemacht werden.

Das Projekt verbindet Provenienzforschung zur Heidelberger Antikensammlung mit einem Citizen Science-Ansatz, durch den Interessierte sich an der Transkription historischer Quellen zur Sammlungsgeschichte beteiligt haben. Es versteht sich damit unter den archäologischen Universitätssammlungen in Deutschland als Pilotprojekt und möchte mit gutem Beispiel vorangehen, um zu helfen, nicht nur ein Bewusstsein für Provenienzfragen, sondern auch für die dazu notwendigen, oft langwierigen Forschungen zu schaffen. 

Annotation von Moralisierungspraktiken

In dem Projekt „Annotation von Moralisierungspraktiken“ erstellen wir ein Datenset mit Texten aus verschiedenen Sprachen (deutsch, englisch, französisch, italienisch) und Textgenres (Online-Foren, politische Debatten, Zeitungstexte, Sachbücher…), in denen Sprachhandlungen des Moralisierens annotiert werden.

Unter moralisierende Sprachhandlungen verstehen wir diskursstrategische Verfahren, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (bspw. “Freiheit”, “Sicherheit” oder “Glaubwürdigkeit”) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf.

Der entstehende Datensatz wird in Zukunft zur automatisierten Erforschung des Phänomens der Moralisierung genutzt - ein diffuses alltagssprachliches Konzept, das als Terminus der deskriptiven Linguistik operationalisiert werden soll.

OCR-Technologien im Vergleich

Das Vorhaben ist in der digitalen Sprachwissenschaft verankert. Es wurde eine Grundlage für die computergestützte Untersuchung vormoderner lexikographischer Werke und hi­storischer Sprachkontakte im Bereich der Lexik erarbeitet. Zum Ausbau einer tech­ni­schen Infrastruktur für die digitale Erfassung mehrsprachiger Wörterbücher (Handschriften und Alt­dru­cke) wurden lexikographische Daten mit Hinblick auf Verknüpfung in einer Datenbank auf­bereitet. Gleichzeitig wurde der zu untersuchende Datensatz mit­hilfe der HTR-Tools Transkribus und eScriptorium erweitert. In diesem Zusammenhang wur­den HTR-Modelle trainiert und für weitere automatische Transkriptionen angewandt. Parallel wurden verschiedene OCR-Engines (CITlab HTR+, PyLaia, kraken) eva­luiert und ihre Vor- und Nachteile abgewogen. Darüber hinaus wurden internationale Kon­takte und Kooperationen mit anderen Projekten geknüpft, die lexikographische Daten sowie ganze Wör­ter­bücher zusammenführen (Gorazd, LiLa, Logeion, MLW digital).