Strukturierung und Visualisierung von historischen Daten

In dieser Unterrichtseinheit befassen wir uns mit der Strukturierung unstrukturierter historischer Texte und der Visualisierung von extrahierten Daten auf Karten. Die systematische Strukturierung von Daten wird mit einem für Informationsextrahierung trainiertem Sprachmodell durchgeführt, das auf der Question-Answering-Methode basiert. Diese Methode erlaubt es, Informationen mit Hilfe einer Frage zu extrahieren, wie etwa „Wo fand das Erdbeben statt"? Dies ermöglicht die Extrahierung des Ortes, an dem ein Erdbeben stattfand, auch wenn im Text selbst noch andere Orte genannt werden.

Die Katastrophe in Japan — 3 Millionen Tote. Mtb. London, 4. Sept. (Drahtbericht.) Zu dem Unglück in Japan liegen noch folgende Nachrichten vor: Wie die japanische Gesandtschaft in Peking meldet, sind Unterhandlungen mit China über die sofortige Lieferung von Lebensmitteln ausgenommen worden. Von Peking seien amerikanische, englische und italienische Schiffe mit Lebensmitteln nach Japan abgegangen.
Ort des Erdbebens: Japan
Andere Orte: London, Peking, China

Methodik: Vom unstrukturierten Text zur strukturierten Information

Die grundlegende Herausforderung bei der Arbeit mit historischen Quellen ist, dass relevante Informationen in langen Fließtexten eingebettet sind und manuell mühsam extrahiert werden müssen. Dieser Ansatz automatisiert diesen Prozess.

Wie funktioniert die Informationsextraktion?

  1. Template-Definition: Sie definieren ein JSON-Template mit den Informationstypen, die Sie extrahieren möchten:
    {"earthquake location": "", "dateline location": ""}
  2. Question-Answering-Methode: Das Sprachmodell interpretiert jedes leere Feld als implizite Frage:
    • "earthquake location": "" → "Wo ist das Erdbeben passiert?"
    • "dateline location": "" → "Von wo wird berichtet?"
  3. Sprachmodell-Verarbeitung: Das NuExtract-1.5 Modell (ein Sequence-to-Sequence Transformer) analysiert den Text vollständig und identifiziert die relevanten Informationen für jedes Template-Feld.
  4. Strukturierte Ausgabe: Das Modell füllt das Template mit den extrahierten Informationen:
    {"earthquake location": "Japan, Yokohama", "dateline location": "Tokio"}

Technische Funktionsweise des Sprachmodells

Intern erfolgt die Verarbeitung in mehreren Schritten:

  1. Tokenisierung: Der Text wird in bearbeitbare Einheiten zerlegt.
  2. Kontextuelle Analyse: Der Transformer-Mechanismus ermöglicht die Analyse von Beziehungen zwischen allen Textteilen gleichzeitig.
  3. Selektive Aufmerksamkeit: Das Modell fokussiert sich auf Textpassagen, die Antworten auf die impliziten Fragen enthalten könnten.
  4. Generierung: Die erkannten Informationen werden in das vorgegebene Template eingefügt.

Die Kartierungsfunktion

Nach der Extraktion der Ortsangaben ermöglicht unsere Anwendung die automatische Visualisierung dieser Daten auf einer interaktiven Karte:

  1. Geokodierung: Die extrahierten Ortsnamen werden mittels eines geografischen Dienstes in geografische Koordinaten (Längen- und Breitengrade) umgewandelt.
  2. Kartenerstellung: Die Koordinaten werden auf einer interaktiven Karte platziert, wobei jeder Ort durch einen Marker dargestellt wird.
  3. Kontextinformationen: Beim Klick auf einen Marker werden zusätzliche Informationen aus dem Originaltext angezeigt.
  4. Räumliche Analyse: Die Karte ermöglicht die visuelle Analyse der räumlichen Verteilung historischer Ereignisse.

Dieser kombinierte Ansatz aus Textextraktion und geografischer Visualisierung eröffnet neue Möglichkeiten für die räumliche Analyse historischer Quellen und erlaubt es, geografische Muster zu erkennen, die in den reinen Textdaten nicht unmittelbar sichtbar wären.

Diese Methode ermöglicht die effiziente Extraktion und Visualisierung historischer Daten aus unstrukturierten Quellen.

Extrahieren Sie strukturierte Daten aus unstrukturiertem Text

Verwenden Sie das Sprachmodell NuExtract-1.5 um automatisch Informationen zu extrahieren.

Made with for historical research