Gkc25/From Data to Information and Knowledge: Unterschied zwischen den Versionen
Die Seite wurde neu angelegt: „'''Diese Präsentation führt in die Welt von RDF (Resource Description Framework) und Linked Open Data ein und zeigt deren praktische Anwendung im NFDI for Culture-Projekt. Der Sprecher erklärt, wie kulturelle Forschungsdaten aus über 70 verschiedenen Portalen mit mehr als 100 Millionen Objekten strukturiert, verknüpft und durchsuchbar gemacht werden. Zentral ist dabei die Transformation heterogener Datenquellen in ein standardisiertes RDF-Format mit…“ |
KKeine Bearbeitungszusammenfassung |
||
| Zeile 202: | Zeile 202: | ||
Die Zusammenführung kultureller Forschungsdaten über standardisierte, verlinkte Strukturen ist keine ferne Zukunftsvision mehr, sondern praktische Realität. Die Grundlagen sind gelegt, die Werkzeuge werden immer benutzerfreundlicher, und die Community wächst. Die nächsten Jahre werden zeigen, wie diese Infrastruktur genutzt wird, um neue Forschungsfragen zu beantworten und Zusammenhänge sichtbar zu machen, die bisher verborgen blieben. | Die Zusammenführung kultureller Forschungsdaten über standardisierte, verlinkte Strukturen ist keine ferne Zukunftsvision mehr, sondern praktische Realität. Die Grundlagen sind gelegt, die Werkzeuge werden immer benutzerfreundlicher, und die Community wächst. Die nächsten Jahre werden zeigen, wie diese Infrastruktur genutzt wird, um neue Forschungsfragen zu beantworten und Zusammenhänge sichtbar zu machen, die bisher verborgen blieben. | ||
[[Kategorie:gkc25]] | |||
Aktuelle Version vom 23. November 2025, 14:52 Uhr
Diese Präsentation führt in die Welt von RDF (Resource Description Framework) und Linked Open Data ein und zeigt deren praktische Anwendung im NFDI for Culture-Projekt. Der Sprecher erklärt, wie kulturelle Forschungsdaten aus über 70 verschiedenen Portalen mit mehr als 100 Millionen Objekten strukturiert, verknüpft und durchsuchbar gemacht werden. Zentral ist dabei die Transformation heterogener Datenquellen in ein standardisiertes RDF-Format mit URI-basierten Verlinkungen. Die Vision: Durch einen Knowledge-Graph können Forschende übergreifend nach Themen wie “Drachen” suchen – unabhängig davon, ob es sich um Bilder, Musik oder Theateraufführungen handelt und in welcher Sprache die Daten vorliegen.
Hauptthemen der Präsentation:
- Grundlagen von RDF und Linked Open Data
- Das NFDI for Culture-Konsortium und seine Herausforderungen
- Wikidata als praktisches Beispiel für erfolgreiche Linked Data
- Der Culture Knowledge Graph und seine technische Umsetzung
- Authority-Dateien zur Standardisierung von Konzepten
- Praktische Werkzeuge und Python im Datenmanagement
Grundlagen von RDF und Linked Open Data
RDF wurde von Tim Berners-Lee, dem Erfinder des World Wide Web, entwickelt – vor etwa 20-25 Jahren. Die ursprüngliche Idee war, Webseiten nicht nur menschenlesbar, sondern auch maschinenlesbar zu machen. Damals war das Konzept seiner Zeit weit voraus und fand kaum Verbreitung. Heute erlebt RDF eine Renaissance, weil die Vision nun endlich umsetzbar und der Nutzen erkennbar ist.
Das grundlegende Prinzip von RDF basiert auf extremer Normalisierung von Daten. Wenn du eine Excel-Tabelle mit mehreren Einträgen pro Feld hast – etwa Alben mit mehreren Keywords – kennst du das Problem: Sollst du eine zweite Tabelle anlegen? Wie verknüpfst du sie? Bei relationalen Datenbanken lernst du Normalisierung: Du teilst Daten in mehrere Tabellen auf. RDF treibt dies auf die Spitze und normalisiert so lange weiter, bis nur noch eine einzige Tabelle mit drei Spalten übrig bleibt.
Diese drei Spalten enthalten:
- Subject (Subjekt): Die ID des beschriebenen Objekts
- Predicate (Prädikat): Der Feldname oder die Eigenschaft
- Object (Objekt): Der Wert, entweder ein Text oder ein Link zu einem anderen Objekt
Ein Beispiel aus der Musik-Datenbank Chinook verdeutlicht dies: “Album 1 hat Label ‘Jagged Little Pill’”, “Album 1 hat Artist Artist-123”, “Artist-123 hat Label ‘Alanis Morissette’”. Alles wird in diese Dreier-Struktur zerlegt, wodurch ein Spinnennetz von Verknüpfungen entsteht.
Der entscheidende Schritt zu Linked Open Data ist, diesen IDs URIs (Uniform Resource Identifiers) aus dem Web zuzuweisen. Dadurch können verschiedene Datensätze miteinander verknüpft werden. Dies folgt Metcalfe’s Law aus der Telekommunikation: Der Wert eines Netzwerks steigt quadratisch mit der Anzahl der Verbindungen. Wenn nur zwei Personen ein Telefon haben, ist es wenig nützlich. Mit mehr Teilnehmern steigt der Wert exponentiell. Das Gleiche gilt für verlinkte Daten.
Wichtig ist dabei das Konzept “Linked Open Usable Data”. Es reicht nicht, einfach nur Linked Data zu produzieren – die Daten müssen auch tatsächlich nutzbar sein. Robert Sanderson ist einer der wichtigsten Verfechter dieses Ansatzes und hat zahlreiche Standards in diesem Bereich entwickelt.
Das NFDI for Culture-Konsortium und seine Herausforderungen
Der Sprecher arbeitet hauptsächlich für das FIZ Karlsruhe, eines der Leibniz-Institute für Informationsinfrastruktur. Sein Hintergrund umfasst Informatik aus den 1990er Jahren sowie Buchwissenschaft und Manuskriptstudien aus den 2000er Jahren. Diese Kombination aus technischem Know-how und kulturwissenschaftlichem Verständnis hat sich als äußerst wertvoll erwiesen.
Die Arbeit mit historischen Büchern bot eine faszinierende Perspektive auf Wissensmanagement über Jahrhunderte hinweg. Ein 500 Jahre altes Buch in Händen zu halten, dessen Seiten man noch umblättern und lesen kann, verdeutlicht die Beständigkeit analoger Informationsspeicherung.
NFDI steht für “Nationale Forschungsdateninfrastruktur” und wird von der DFG (Deutsche Forschungsgemeinschaft) gefördert. Für verschiedene Wissenschaftsbereiche wurden Konsortien eingerichtet – für Mathematik, Bioimaging, Materialwissenschaften, Chemie und viele andere. NFDI for Culture war eines der ersten Konsortien und widmet sich Forschungsdaten zu materiellem und immateriellem Kulturerbe.
Was dieses Konsortium besonders interessant und herausfordernd macht, ist seine enorme Bandbreite. Es umfasst:
- Architektur
- Kunstgeschichte
- Musikwissenschaft
- Theaterwissenschaften
- Tanz
- Medienwissenschaften
Die Daten sind nicht “hart” wie in den Naturwissenschaften, sondern “fuzzy” und kulturell geprägt. Die Gründungsmitglieder umfassen Universitäten, Archive und Museen – eine sehr heterogene Gruppe.
Das Konsortium steht vor über 70 Datenportalen mit mehr als 100 Millionen Objekten. Diese Daten liegen in verschiedensten Formaten vor: XML, JSON, rohe Binärdateien, IIIF-Manifeste. Es ist ein regelrechtes Durcheinander. Die Aufgabe besteht darin, all diese Daten zu harvesten, in einer Pipeline zu extrahieren, in RDF zu transformieren und dann standardisiert zu veröffentlichen.
Warum dieser Aufwand? Um übergreifende Fragen stellen zu können, wie etwa: “Gibt es Drachen in den NFDI for Culture-Forschungsdaten?” Man möchte Bildarchive, Musikarchive und Theateraufführungen gleichzeitig durchsuchen können. Aber wie verknüpft man diese verschiedenen Bereiche, wenn das Wort “Drache” in einer Theateraufführung nie verwendet wurde? Oder wenn die Musik auf Deutsch ist, aber die Aufführung in einer anderen Sprache stattfand?
Die verschiedenen Archive haben zudem unterschiedliche Detaillierungsgrade. Manchmal existiert nur eine Website ohne strukturierte Daten. Manchmal gibt es ordentliche strukturierte Daten. Und manchmal gibt es richtig gute RDF-Quellen mit einem SPARQL-Endpoint – dem Äquivalent zu SQL für RDF-Datenbanken.
Wikidata als praktisches Beispiel für erfolgreiche Linked Data
Wikidata ist ein deutsches Projekt von Wikimedia Deutschland und eines der besten Beispiele für erfolgreiche Linked Data in der Praxis. Es begann damit, alle Informationen aus Wikipedia in strukturierte RDF-Daten zu überführen. Zu jedem Wikipedia-Artikel gibt es eine entsprechende Wikidata-Seite im strukturierten Format.
Am Beispiel von Berlin wird das Prinzip deutlich: Die Wikidata-Seite hat die URI wikidata.org/wiki/Q64, wobei Q64 die eindeutige Nummer für Berlin ist. Auf der Seite erscheinen Statements mit der dreigliedrigen Struktur: Berlin (Subjekt) – instance of (Prädikat) – city (Objekt), Berlin – part of – Germany, Berlin – inception – 1237, usw.
Die Benutzeroberfläche zeigt diese Daten in menschenfreundlicher Form. Im Hintergrund liegt jedoch die RDF-Struktur mit den Tripeln. Da Wikidata viele Sprachen unterstützt, sind die Rohdaten sehr umfangreich – aber das Prinzip bleibt dasselbe.
Wikidata hat sich mittlerweile zu einer eigenständigen Ressource entwickelt, die unabhängig von Wikipedia gepflegt wird. Menschen kuratieren das Wissen gemeinschaftlich. Du kannst dich registrieren und Einträge bearbeiten, wenn du Fehler findest oder Informationen hinzufügen möchtest.
Ein besonderes Projekt ist “The Sum of All Paintings” – ein Wikidata-Projekt für Kulturerbe, das alle bekannten Gemälde der Welt katalogisiert. Menschen fotografieren Werke, laden sie in Wikidata hoch und vermerken, in welcher Galerie oder welchem Museum sie sich befinden, wer sie gemalt hat, wann und weitere Details. Es ist eine beeindruckende kollektive Wissenskuration.
Wikidata eignet sich auch für persönliches Wissensmanagement. Wenn du etwa in Obsidian dokumentierst, wo du im Urlaub warst und was du besucht hast, kannst du auf offizielle Wikidata-Einträge verlinken. Wikidata wird so zu einem Hub für den Datenaustausch.
Der Query Service von Wikidata ermöglicht komplexe Abfragen mittels SPARQL. Ein Beispiel aus der Präsentation: Eine Karte der Gebärdensprachen weltweit mit der Anzahl ihrer Sprecher. Die niederländische Gebärdensprache hat 15.000 Sprecher, und so weiter. Die Abfrage nutzt Tripel: “Gib mir alle Dinge, die vom Typ ‘Gebärdensprache’ sind.”
Die Abfragen können sehr komplex werden. Du kannst nach allen Restaurants im Umkreis von 10 Kilometern um Berlin suchen, die vietnamesisches Essen servieren. Oder nach allen Malern, die in Bratislava geboren wurden und im letzten Jahr gestorben sind. Die Möglichkeiten sind nahezu unbegrenzt.
Der Culture Knowledge Graph und seine technische Umsetzung
Für NFDI for Culture wurde ein wissensbasierter Ansatz zum Forschungsdatenmanagement entwickelt: der Culture Knowledge Graph. Dieser Index erstreckt sich über alle verschiedenen Datenquellen und Portale.
Die Struktur ist zweigeteilt:
- Konsortiumsdaten: Informationen über Menschen, Institutionen, Zugehörigkeiten
- Forschungsdaten: Die Datenportale selbst, Datenformate, bereitgestellte Inhalte, tatsächliche Dateninhalte
Das technische Rückgrat bildet Python. Der Sprecher ist seit 25 Jahren Python-Fan und betont dessen immensen Wert für Zeitersparnis und Produktivität. Das Motto von Python lautet “batteries included” – für fast alles gibt es bereits ein Modul. Excel-Dateien einlesen? Es gibt ein Modul. Markdown-Notizen aus Obsidian extrahieren? Python kann es.
Mit den heutigen Coding-Agenten in LLMs ist Python noch zugänglicher geworden. Auch wenn du kein Programmierexperte bist, kannst du ein LLM bitten, ein Skript zu erstellen, das eine bestimmte Aufgabe erledigt. Die Ergebnisse sind erstaunlich gut.
Spezifische Tools im NFDI-Stack:
- FastHTML: Ein Framework zur Website-Erstellung, das alles in Python ermöglicht – Frontend, Backend, ohne die übliche JavaScript-Komplexität. Es ist wie ein Aufatmen für Entwickler, die nicht mit verschiedenen Build-Systemen jonglieren wollen.
Triple Stores für professionelle Publikation von RDF-Daten im großen Maßstab. Diese Datenbank-Engines speichern RDF-Daten effizient.
Im Rahmen der Arbeit wurden mehrere eigene Tools entwickelt:
Smarkle: Der Name entstand aus Frust mit SPARQL – “SPARQL, Schmarkel”. Es ist ein Tool zum Publizieren und Browsen von RDF-Daten. Derzeit richtet es sich an ein technisches Publikum. Man muss Docker installieren können, ein Werkzeug, das wie ein eigener kleiner Linux-Server auf dem Laptop funktioniert. Mit Docker kannst du Software standardisiert ausführen, die andere entwickelt haben – sogar eine lokale Version von Wikidata.
Bikidata: Ein noch technischeres Tool für einfachere Abfragen großer RDF-Dateisammlungen.
Das Herzstück ist die NFDI for Culture Data Search, eine Website, die alle unterschiedlichen Forschungsdatenportale durchsucht. Bei einer Suche nach “Bach” werden Musik, Bilder und andere Ressourcen aus verschiedenen Quellen zusammengeführt. Nutzer müssen keine SPARQL-Abfragen schreiben – die Komplexität wird vor ihnen verborgen.
Die Plattform vereint verschiedene Datentypen, Standards und Authority-Dateien, um die Benutzererfahrung zu verbessern.
Authority-Dateien zur Standardisierung von Konzepten
Ein kritischer Aspekt bei der Verlinkung von Daten ist die Frage: Welche URI verwendest du in der dritten Spalte deiner Tripel? Hier kommen Authority-Dateien ins Spiel – vereinbarte, standardisierte URIs für Konzepte.
Die GND (Gemeinsame Normdatei) der Deutschen Nationalbibliothek ist ein Hauptbeispiel. Sie vergibt URIs für:
- Jedes in Deutschland publizierte Buch
- Jeden Autor (auch international)
- Viele weitere Entitäten
Wenn du über etwas sprechen möchtest, verwendest du eine dieser offiziellen URIs. Dann können verschiedene Datensätze sicherstellen, dass sie über dasselbe Ding sprechen – völlig sprachunabhängig.
Es gibt verschiedene Authority-Systeme für unterschiedliche Bereiche. Ein besonders wichtiges für Kunstgeschichte und Kulturerbe ist Iconclass, das der Sprecher selbst seit etwa 25 Jahren pflegt und entwickelt.
Iconclass vergibt eindeutige URIs für Konzepte und ikonografische Szenen:
- Eine Darstellung der Jungfrau Maria mit dem Christuskind auf dem Schoß, Kopf nach links gedreht: eigene URI
- Das Konzept “Hass”: eigene URI
- “Liebe”: eigene URI
- “Unerwiderte Liebe”: eigene URI
Da es sich um URIs mit Nummern handelt, ist das System sprachunabhängig. Ob jemand über “love” oder “Liefde” spricht, spielt keine Rolle – alle verwenden denselben Code.
Ein praktisches Beispiel: Die Suche nach “Fist Fight” (Faustkampf) in Iconclass. Es gibt einen spezifischen Code dafür. Über die Verlinkung mit anderen Systemen kannst du sehen:
- Im Bildindex in Marburg gibt es Darstellungen von Faustkämpfen
- Im Niederländischen Kunsthistorischen Institut in Florenz gibt es ein solches Bild
- Es werden auch verwandte Konzepte angezeigt, wie “lover’s tussle” (Liebesstreit)
Du kannst deine Suche sehr präzise gestalten oder “den Regler aufdrehen” und allgemeiner werden: nicht nur Faustkämpfe, sondern Kämpfe allgemein, oder speziell Kämpfe zwischen Liebenden. Durch die Verwendung gemeinsamer Standards können Institutionen weltweit ihre Daten teilen und verknüpfen.
Das Deutsche Kunsthistorische Institut und der Bildindex nutzen Iconclass seit etwa 30 Jahren. Diese langjährige strukturierte Arbeit ermöglicht nun die Vernetzung über Ländergrenzen hinweg.
Praktische Werkzeuge und Python im Datenmanagement
Ein wiederkehrendes Thema der Präsentation ist die zentrale Rolle von Python. Der Sprecher empfiehlt nachdrücklich, Zeit in das Erlernen von Python zu investieren. Die Zeitersparnis in vielen Bereichen ist beträchtlich.
Praktische Anwendungsfälle für Python:
- Mehrere Excel-Dateien einlesen, Daten extrahieren und in ein anderes Format konvertieren
- Obsidian-Vault durchsuchen, Markdown extrahieren und weiterverarbeiten
- Beliebige Datenmanipulationen und Transformationen
Mit modernen LLMs und Coding-Agenten ist Python noch zugänglicher geworden. Selbst ohne umfassende Programmierkenntnisse kannst du ein LLM bitten: “Ich möchte dies und das tun. Bitte erstelle mir ein kleines Skript dafür.” Die Ergebnisse sind oft verblüffend gut.
Ein kontrovers diskutiertes Thema ist SPARQL, die Abfragesprache für RDF-Daten (das SQL-Äquivalent für Linked Data). Die Community hat eine Hass-Liebe-Beziehung zu SPARQL:
- Befürworter sagen: “Investiere einfach Zeit und lerne SPARQL.”
- Kritiker sagen: “Vergiss es, es ist zu schwer.”
Der Sprecher selbst ist zwiegespalten – je nach Wochentag. Trotz Informatikstudium und jahrzehntelanger Programmiererfahrung findet er SPARQL oft frustrierend schwierig. Manche Abfragen funktionieren einfach nicht. Aber wenn eine Abfrage endlich läuft und beeindruckende Ergebnisse aus Wikidata liefert, ist die Begeisterung groß.
Die ehrliche Einschätzung: Es ist nicht realistisch zu erwarten, dass normale Nutzer SPARQL-Abfragen erstellen. Die Sprache ist einfach zu schwierig.
Die Lösung sind Large Language Models (LLMs). Vor etwa einem Jahr waren LLMs noch nicht besonders gut darin, SPARQL-Abfragen zu generieren. Aber die Beschleunigung der Entwicklung ist atemberaubend. Was vor sechs Monaten unmöglich schien, funktioniert heute einfach.
Mittlerweile kannst du dein bevorzugtes LLM bitten: “Bitte schreibe mir eine Wikidata-Abfrage, die…” und erhältst funktionierende SPARQL-Queries. Dies senkt die Einstiegshürde erheblich und macht die Macht von Linked Data einem breiteren Publikum zugänglich.
Docker ist ein weiteres wichtiges Werkzeug, das erwähnt wurde. Es standardisiert die Ausführung von Software auf verschiedenen Systemen. Wenn jemand ein Tool entwickelt hat und du Docker installiert hast, kannst du dieses Tool problemlos auf deinem Laptop laufen lassen – selbst komplexe Systeme wie eine lokale Wikidata-Instanz.
Die Wikidata Query Service-Oberfläche bietet Beispielabfragen, die du erkunden kannst. Ein Beispiel aus der Präsentation war die Karte der Gebärdensprachen. Die Abfrage nutzt die Tripel-Struktur: “Gib mir alle Variablen ‘signLanguage’, deren Eigenschaft P31 (Typ) ‘sign language’ ist.” Durch Entfernen der Visualisierungslogik bleibt eine einfache Abfrage übrig, die Q-Nummern liefert.
Jede dieser Q-Nummern repräsentiert eine Gebärdensprache mit eigenen Eigenschaften: Land, Anzahl der Sprecher, geografische Koordinaten, Bilder. Die Daten sind reichhaltig und nicht auf Text beschränkt.
Fazit und Ausblick
Die Präsentation zeigt eindrucksvoll, wie RDF und Linked Open Data von einer visionären Idee aus den 1990er Jahren zu praktisch nutzbaren Werkzeugen geworden sind. Das NFDI for Culture-Projekt demonstriert, wie heterogene kulturelle Forschungsdaten standardisiert, verknüpft und durchsuchbar gemacht werden können.
Die wichtigsten Erkenntnisse zusammengefasst:
RDF ermöglicht die extreme Normalisierung von Daten in einfache Tripel (Subjekt-Prädikat-Objekt), die durch URIs zu einem Netzwerk verknüpft werden. Der Wert entsteht durch den Netzwerkeffekt – je mehr Verbindungen, desto nützlicher die Daten. Wikidata beweist, dass dieses Konzept in der Praxis funktioniert und von einer Community erfolgreich gepflegt werden kann. Authority-Dateien wie GND und Iconclass sorgen für Standardisierung und Interoperabilität über Sprach- und Systemgrenzen hinweg.
Offene Fragen und laufende Entwicklungen:
Die Visualisierung der Daten befindet sich noch im Aufbau. Die NFDI for Culture Data Search zeigt bisher nur Thumbnails und Tabellen. Geplant sind Netzwerkdiagramme, Karten, Flowcharts und Zeitreihen. Die solide Grundlage ermöglicht nun diese nächste Phase.
Die Usability ist eine Herausforderung. SPARQL bleibt für die meisten Nutzer zu komplex. LLMs bieten hier eine vielversprechende Brücke, indem sie natürlichsprachliche Anfragen in SPARQL übersetzen.
Die Integration von über 70 Datenportalen mit unterschiedlichen Formaten und Qualitätsstufen ist ein fortlaufender Prozess. Von einfachen Websites bis zu professionellen SPARQL-Endpoints reicht die Bandbreite.
Handlungsempfehlungen aus dem Vortrag:
Investiere Zeit in Python: Die Zeitersparnis und Flexibilität, die Python bietet, ist immens. Mit LLMs als Coding-Assistenten ist der Einstieg leichter denn je. Nutze Python für alltägliche Aufgaben wie Datenextraktion, -transformation und -analyse.
Erkunde Wikidata: Selbst wenn du kein Entwickler bist, bietet Wikidata einen faszinierenden Einblick in strukturierte, vernetzte Daten. Nutze es für Recherchen, trage eigenes Wissen bei, experimentiere mit dem Query Service.
Verwende Authority-Dateien: Wenn du mit kulturellen oder wissenschaftlichen Daten arbeitest, nutze etablierte Authority-Dateien wie GND oder Iconclass. Dies macht deine Daten interoperabel und langfristig wertvoller.
Lerne Docker-Grundlagen: Auch wenn es zunächst technisch erscheint, ermöglicht Docker dir, professionelle Tools lokal auszuprobieren und zu nutzen, ohne komplizierte Installationen.
Nutze LLMs für SPARQL: Versuche nicht, SPARQL von Grund auf zu lernen. Nutze stattdessen LLMs, um Abfragen zu generieren, und lerne durch das Anpassen und Verstehen der Ergebnisse.
Verfolge NFDI for Culture: Besuche die Website nfdi4culture.de und das Zenodo-Repositorium für technische Berichte, Präsentationen und Guidelines. Das Projekt entwickelt sich schnell weiter und bietet wertvolle Ressourcen.
Die Zusammenführung kultureller Forschungsdaten über standardisierte, verlinkte Strukturen ist keine ferne Zukunftsvision mehr, sondern praktische Realität. Die Grundlagen sind gelegt, die Werkzeuge werden immer benutzerfreundlicher, und die Community wächst. Die nächsten Jahre werden zeigen, wie diese Infrastruktur genutzt wird, um neue Forschungsfragen zu beantworten und Zusammenhänge sichtbar zu machen, die bisher verborgen blieben.