Da aufgrund des Blockmechanismus viele Konfigurationen für jeweils einen Teil der Daten erstellt werden, arbeitet das script do_parallel_linking diesen Stapel an Konfigurationen parallel in meheren threads ab

Nach Abarbeitung aller Konfigurationen werden die Ergebnisse der einzelnen Prozesse (jeder Prozess schreibt seine erkannten Verlinkungen in eine Outputdatei (accept*.nt) gesammelt und in eine einzelne Datei (accept_all.nt) gesammelt.

Das Gesamtergebnis wird dann wiederum mit Kommandos des reshaperdf tools aufbereitet (sort der n-triples, Entfernen von Duplikaten)

Das Ergebnis einer accept*.nt Datei sieht wie folgt aus:

https://gist.github.com/guenterh/b5b5148965481fd5ddaee509bf679e6f

Eine Sammlung von n-triples die über das predicate owl:sameAs die Gleichheit von zwei Entitäten (Subjekten) ausdrücken. (und damit das gewünschte Ergebis: eine automatisierte Datenintegration

Das Limestool lässt sich auch leicht im Dialog aufrufen, so dass das Ergebnis unterschiedlicher Konfigurationen und Algorithmen evaluiert werden kann.

Beispiel für einen solchen Aufruf: java -jar limes-tool/LIMES.jar /swissbib_index/linking/linking/configs/limes_config_uD8-uD8.xml

do_parallel_linking

results matching ""

No results matching ""