Harvesten eines Katalog

Mit Harvestern können Administratoren eine große Anzahl an Datensätzen einfach erstellen und aktualisieren, indem sie sie aus einer externen Quelle wie einem CSW-Katalog oder einem ArcGIS-Service importieren, um nur wenige Beispiele zu nennen.

Die zwei wichtigsten Verwendungsarten für Harvester sind:

  1. Bootstrap Ihres Portals mit Datensätzen aus einem bestehenden Portal

  2. Synchronisieren Ihrer Datensätze mit einem externen Service

Der Harvester erstellt Datensätze, aktualisiert ihre Metadaten und Ressourcen, synchronisiert sie und veröffentlicht sie.

Erstellen eines Harvesters

Um mit Harvestern zu arbeiten, klicken Sie auf das Harvester-Menü in Ihrem Backoffice und danach auf Harvester hinzufügen. Sie werden daraufhin gefragt, welche Art Portal Sie abfragen und welchen Namen Sie Ihrem Harvester geben möchten.

../../_images/harvesters_interface.png

Klicken Sie danach auf Harvester erstellen, sie werden zum Konfigurationsformular des Harvesters weitergeleitet. Bitte lesen Sie je nach Harvester-Typ die entsprechende Harvester-Seite mit genauen Anweisungen durch.

Manche Optionen sind für jeden Harvester-Typ verfügbar, wie etwa:

  • Update bei Löschung: Wenn die Quelldatensätze auf dem abgefragten Portal gelöscht sind, löschen Sie sie bitte auch von diesem Opendatasoft-Portal. Ansonsten haben Sie weiterhin Datensätze, die im externen Service nicht mehr verfügbar sind (z. B. wenn sie von dem externen Service gelöscht wurden).

  • Ressourcen herunterladen: Laden Sie Ressourcen herunter, anstatt Sie über URL anzuhängen. Mit diesen Optionen können Sie Ihre Datensätze vom Remote-Portal entkoppeln, indem Sie sämtliche erforderlichen Daten permanent auf die Opendatasoft-Plattform kopieren. Ansonsten werden Ihre Datensätze mit dem externen Service verbunden und greifen für jede Veröffentlichung auf Remote-Datensätze über Ihre URL zu.

  • Sichtbarkeit einschränken: Schränken Sie die Sichtbarkeit der gesammelten Datensätze ein. Ansonsten behalten Sie die standardmäßig eingestellte Sichtbarkeit Ihres Portals.

  • Standard-Metadaten, Inspire-Metadaten, DCAT-Metadaten: Diese ermöglichen Ihnen, bestimmte Metadaten in jedem gesammelten Datensatz zu überschreiben. Sie sind sinnvoll, wenn Sie Ihr eigenes Thema oder Ihren Veröffentlicher nutzen möchten, anstatt denjenigen zu verwenden, der im externen Service genutzt wird.

Sobald Sie den Harvester fertig konfiguriert haben, können Sie auf die Schaltfläche Vorschau klicken, um ihn probeweise an ein paar Datensätzen zu testen. Wenn Sie ein paar Titel und Beschreibungen sehen und diese korrekt aussehen, ist alles richtig eingestellt. Ansonsten prüfen Sie bitte Ihre Konfiguration erneut.

Harvester ausführen

Bei mehreren oder großen Datensätzen kann der Harvest-Prozess auf externen Services recht lange dauern, daher ist er in zwei Phasen aufgeteilt.

  • Zunächst verbindet sich der Harvester mit dem Remote-Service und erkennt sämtliche darin enthaltenen Datensätze. Dann erstellt er einen nicht veröffentlichten Datensatz für jeden Remote-Datensatz, den er findet. Diese Datensätze enthalten alle verfügbaren Metadaten und Ressourcen (als URLs oder Dateien, je nach der Ressourcen herunterladen-Option). All dies geschieht, sobald Sie auf die Schaltfläche Harvester starten klicken.

  • Als Nächstes verarbeitet und veröffentlicht er sämtliche gesammelten Datensätze. Dieser Schritt kann etwa länger dauern. Dies geschieht, wenn Sie auf die Schaltfläche Veröffentlichen klicken.

Bearbeiten gesammelter Datensätze

Bevor Sie die gesammelten Datensätze veröffentlichen, können Sie ihre Metadaten ändern. Auf der Datensatz-Seite (Registerkarte Informationen) können Sie die Metadaten manuell überschreiben, indem Sie auf Überschreiben klicken und Ihren eigenen Wert einfügen. Dieser neue Wert bleibt bestehen, selbst wenn Sie Ihren Harvester neu starten.

Löschen eines Harvesters

Beim Löschen eines Harvesters durch Klicken auf die Schaltfläche Harvester löschen können Sie wählen, ob Sie die gesammelten Daten behalten möchten (sie werden als reguläre Datensätze in Ihrem Katalog gespeichert), oder ob Sie sie zusammen mit dem Harvester löschen möchten.

Wenn Sie sich dafür entscheiden, sie zu behalten, denken Sie bitte daran, dass Sie sie danach einzeln bearbeiten müssen, um ihre Veröffentlichung aufzuheben oder sie zu löschen, und dass sie dupliziert werden, falls Sie einen neuen Harvester auf demselben externen Harvester erstellen.

Harvester-Typen

Services

Hinweis

Sofern nicht anders festgelegt, nutzen alle Harvester standardmäßig HTTPS, unterstützen aber auch HTTP, wenn es in der angegebenen URL so festgelegt wurde.

Die FTP-Harvester nutzen standardmäßig FTPS (Explicit-Modus über Port 21), unterstützen aber auch FTP, wenn es in der angegebenen URL so festgelegt wurde oder wenn FTPS vom Remote-Server nicht unterstützt wird.

Zeitplan

Auf der Konfigurationsseite des Harvesters können Sie einstellen, dass er in regelmäßigen Abständen durchgeführt wird. Scrollen Sie dazu nach unten an das Seitenende und klicken auf "Regelmäßige Durchführung". Sie können den Harvester täglich ablaufen lassen oder die Wochentage bzw. Monatstage auswählen, an denen er ablaufen soll. In jedem Fall müssen Sie die Uhrzeit an dem gewünschten Tag auswählen, da er nicht mehr als ein mal pro Tag ablaufen kann.

Die regelmäßige Durchführung wird nur dann ausgelöst, wenn der Harvester mindestens einmal durchgeführt worden ist.

Nach Abschluss des programmierten Ablaufs werden sämtliche bereits veröffentlichten Datensätze des Harvesters erneut veröffentlicht. Nicht veröffentlichte Datensätze bzw. neue Datensätze hingegen werden nicht automatisch veröffentlicht.

../../_images/harvesters_scheduling.png