Personen und Orte

Eine große Herausforderung im Zusammenhang mit der Auswertung von (personenbezogenen) Massenquellen stellt die

Identifikation (Wer war der in einer Quelle genannte Hans Maier?),
Disambiguierung (Ist der auf Seite 123 genannte Hans Maier derselbe Hans Maier wie der auf Seite 200?)
und Referenzierung (Wie kann ich eindeutig ausdrücken, dass Hans Maier von Seite 123 derselbe Hans Maier wie der von Seite 200, aber nicht derselbe wie der von Seite 44 ist?) von Personen dar.

Dies ist eine Herausforderung, die in frühneuzeitlichen Quellen durch die variablen Schreibweisen von Vor,- Nach-, Haus-, Hof- oder Ortsnamen sowie von Berufs- oder Rollenbezeichnungen noch zusätzlich vergrößert wird.

Bei der Erstellung der Verfachbuchregeste sowie der Inventarbeschreibungen wurden Personen daher anhand

von verwandtschaftlichen Beziehungen (z. B. Tochter von …),
der jeweiligen Funktion im Rechtsgeschäft (z. B. Schreiber ...),
von Berufs- und/oder Standesbezeichnungen (z. B. Wirt und Bürger des Rates)
sowie der Angaben zu Wohn- oder Wirkungsorten

Dazu wurden sowohl die Namen (Vor-, Nach-, Mädchen-, Haus- oder Hofname) als auch die Berufs- und Tätigkeitsbezeichnungen der in den Quellen genannten Personen normalisiert beziehungsweise um gängige Schreibweisen erweitert, wie etwa das folgende Beispiel zeigt:

Mathes [Matthias/Matthäus] Porger [Porgger/Parger/Pargger] (Zimmermann), St. Veit in Prags (Oberamtsgericht Bruneck), (Vater der Ursula Porgerin [Porggerin/Pargerin/Parggerin])

Bei der Überführung der Daten aus ihren ursprünglichen Formaten (Word und Excel) wurde versucht, diese semistrukturierten Informationen wie eben Berufs- und Ortsbezeichnungen sowie (verwandtschaftliche) Beziehungen zwischen den genannten Personen zu extrahieren und als eigene Datensätze abzulegen. Aus dem ersten Beispiel entstanden somit unter anderem zwei Personen- und zwei Ortseinträge, die allesamt miteinander verknüpft sind.

Person

Vorname	Mathes [Matthias/Matthäus]
Nachname	Porger [Porgger/Parger/Pargger]
Beruf	Zimmermann
familiäre Verbindungen	Vater von Ursula Porgerin [Porggerin/Pargerin/Parggerin]

Person

Vorname	Ursula
Nachname	Porgerin [Porggerin/Pargerin/Parggerin]
Beruf	Zimmermann
familiäre Verbindungen	Tochter von Mathes [Matthias/Matthäus] Porger [Porgger/Parger/Pargger

Ort

Name	St. Veit in Prags
Teil von	Oberamtsgericht Bruneck

Ort

Name	Oberamtsgericht Bruneck
Übergeordnete Einheit von	St. Veit in Prags

Eine solche Datenstruktur ermöglicht nun

zielgerichtete Suchabfragen (z. B. alle Zimmermänner aus dem Oberamtsgericht Bruneck),
das Nachzeichnen familiäre Netzwerke,
ungefähre statistische Abfragen (Verteilung der Berufe).

Die Extraktion der verschiedenen Informationen erfolgte großteils mittels statistischer Modelle. Je nach Informationseinheit (Beruf, Ort, Geschlecht, Name, …) wurden zwischen 100 und 1000 Datensätze manuell von Peter Andorfer annotiert um damit einen Algorithmus zu trainieren, der in der Lage ist, die gewünschten Informationen zu finden. Die einzelnen Modelle erreichten dabei zwischen 75 und 98 Prozent Genauigkeit.

Beim Datenimport wurden außerdem Einträge mit identischer Zeichenfolge zusammengeführt. Dies ist insofern zu rechtfertigen, da ja bereits beim Anlegen der ursprünglichen Einträge darauf geachtet wurde, idente Personen exakt gleich und in der oben beschriebenen Art und Weise zu bezeichnen, eben um die eindeutige Identifikation einer Person gewährleisten zu können.

Da die ursprünglichen Einträge jedoch ohne technische Unterstützung „händisch“ verfasst wurden, können Tippfehler nicht zur Gänze ausgeschlossen werden. Vor diesem Hintergrund sei hier einmal mehr darauf hingewiesen, dass sich die vorliegende Website aus Arbeitsdaten für den internen Gebrauch speist. Dies hat jedoch zur Folge, dass in der Datenbank potenzielle Dubletten anzutreffen sind. Hinzu kommt, dass für diese Datenbank die Datensätze aus zwei getrennt erstellten Arbeitsbehelfen, mit jeweils eigenen Konventionen, zusammengeführt wurden.

Wie man diese Daten möglichst automatisiert verbessern kann, ist Gegenstand der aktuellen Arbeiten am Forschungsprojekt. Erste Ergebnisse werden im Rahmen der Jahrestagung der Gesellschaft für Agrargeschichte in Kooperation mit der Arbeitsgemeinschaft Digitale Geschichtswissenschaft des Verbands der Historiker und Historikerinnen Deutschlands im Juni 2020 von Michael Span und Peter Andorfer präsentiert werden.

Normalisierung von Personennamen

Konventionen in Word/Excel Dokumenten angesetzt -> v.a. auf Auffindbarkeit geachtete; sprich mögliche alternative Schreibweisen in eckige Klammer gesetzt und mit ‘/’ getrennt. Als ein Beispiel sei etwa „Georg Paur [Baur/Bauer] (Bänderweber), Stefansdorf“ angeführt. Diese Person kann in einem Word oder Exceldokument gefunden werden, egal ob nach „Bauer”, „Baur“ oder „Paur“ gesucht wurde.

Im Zuge des Datenimports wurden die Namensansetzung noch weiter vereinheitlicht.

In einem ersten Verarbeitungsschritt wurden alle Namensvarianten extrahiert und alphabetisch geordnet. Aus „Paur [Baur/Bauer]“ wird somit „Bauer/Baur/Paur”.
Ein zweiter Schritt versucht potentielle Dubletten zusammenzuführen. Solche Dubletten können etwa dadurch entstehen, dass nicht immer alle Namensvarianten angeführt wurden oder aber dass aufgrund der Schreibweise in den Quellen nicht jede Variante wahrscheinlich ist. Die Namensanstzungen werden dafür stets zur umfassendern Bezeichnung zusammengeführt. Aus „Bauer/Baur“ wird somit „Bauer/Baur/Paur”.

Ähnliche Schritte wurden auch im Zusammenhang mit Vornamen gesetzt, wobei hier bereits in den Quellen weniger Schreibvarianten anzutreffen sind, mit Ausnahme von Hans/Johann, Vitus/Veit sowie Mathes/Matthias/Matthäus. Nicht zusammengeführt werden Johann bzw Hans mit Johannes da aufgrund der Quellen davon auszugehen ist, dass Johann und Johannes auch von den Zeitgenossen als unterschiedliche Namen verstanden wurden.