FTP mit Meta-CSV-Harvester

Dieser Harvester erlaubt es Nutzern, Datensätze aus einem FTP-Ordner zu erstellen.

Er verbindet sich über FTPS (Explicit-Modus über Port 21), sofern verfügbar, oder über FTP, wenn es in der angegebenen URL gefordert wird.

Der FTP-Ordner muss Folgendes enthalten:

  • eine Metadaten CSV-Datei (durch Semikolon getrennt)

  • verschiedene Ressourcen

  • (optional) verschiedene CSV-Schema-Dateien

Vorsicht

Der FTP mit Meta-CSV-Harvester unterstützt nur UTF-8 Codierung.

Metadaten-CSV-Datei

Die Metadaten CSV-Datei (Standardname: index.csv) ist eine mit Semikolons getrennte Datei, die Folgendes enthält:

  • eine Kopfzeile

  • Einige andere Zeilen, die jeweils zu einem zu sammelnden Datensatz gehören

Beispiel:

1
2
3
name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;
name title description theme keyword source_dataset schema_file
chocolate-bars

Schokoriegel-Datenbank

Eine Datenbank von Schokoriegeln

Health Chocolate chocolate.csv schema_chocolate.csv
random-id

Risikokapital-Investment

Statistiken der Risikokapital-Industrie.

Wirtschaft, Business

Risikokapital;Investments;Börsengang;Übernahmen

investments.json  
  • Die Spalte name enthält einen Identifikator pro Zeile. Dieser kann beliebig gewählt werden muss aber ausschließlich aus Buchstaben und Zahlen bestehen, in der Datei einzigartig sein und im Zeitverlauf unverändert bleiben.

  • Die Spalte CSV-Ressource (standardmäßig source_dataset) enthält die Ressource für jede Zeile.

  • Die optionale Spalte CSV-Schema (hier: schema_file) enthält die Schema-Datei für jede Zeile.

  • Alle anderen Spalten sind für Metadaten (siehe untere Tabelle für eine komplette Liste akzeptierter Spaltennamen). Hinweis: verwenden Sie Anführungszeichen zu Beginn und am Ende der Listen wie etwa keyword`, die durch Semikolons getrennt werden müssen `(z. B. `"keyword1;keyword2").

Akzeptierte Metadatenspalten

Vorlage

Spaltenname

Standard

Titel, Beschreibung, Thema, Schlüsselwort, Lizenz, Sprache, Zeitzone, geändert, geographic_reference_auto, `geographic_reference, Veröffentlicher, Referenzen, Attribute, oauth_scope

Benutzerdefiniert

<metadata-name> (der Name der Metadaten)
Wenn der Name der Metadaten zum Beispiel "Projektname" lautet, verwenden Sie Projektname.

DCAT (falls aktiviert)

dcat.created, dcat.issued, dcat.creator, dcat.contributor, dcat.contact_name, dcat.contact_email, dcat.accrualperiodicity, dcat.spatial, dcat.temporal, dcat.granularity, dcat.dataquality

DCAT-AP für CH (falls aktiviert)

dcat_ap_ch.domain, dcat_ap_ch.rights

Inspire (falls aktiviert)

inspire.theme, inspire.type, inspire.file_identifier, inspire.hierarchy_level, inspire.hierarchy_level_name, inspire.spatial_resolution, inspire.topologic_consistency, inspire.contact_individual_name, inspire.contact_position, inspire.contact_address, inspire.contact_email, inspire.identification_purpose, inspire.extend_description, inspire.extend_bounding_box_westbound_longitude, inspire.extend_bounding_box_eastbound_longitude, inspire.extend_bounding_box_southbound_latitude, inspire.extend_bounding_box_northbound_latitude

Semantic (falls aktiviert)

semantic.rml_mapping, semantic.classes, semantic.properties

Weitere Informationen zu den Standard-Metadaten finden Sie unter Standard-Metadaten.

Die Metadaten "geographic_reference_auto"

Die Spalte geographic_reference_auto definiert, ob die geografische Abdeckung des Datensatzes automatisch berechnet wird und einen booleschen Wert akzeptiert:

Das ist meine Tabelle

Wert

Zweck

true

Stellt die Metadaten Geografische Abdeckung für den Datensatz auf Automatisch ein. Die geografische Abdeckung wird automatisch basierend auf dem Inhalt des Datensatzes oder auf der standardmäßigen geografischen Abdeckung des Datensatzes der Domain berechnet.

false

Stellt die Metadaten Geografische Abdeckung für den Datensatz auf "geographic_reference" ein.

Die Metadaten "geographic_reference"

Die Spalte geographic_reference definiert den Standort, der für die geografische Abdeckung des Datensatzes verwendet wird. Das bedeutet, dass die Metadaten Geografische Abdeckung für den Datensatz auf Spezifisch gestellt werden. Die Spalte geographic_reference enthält ein Array mit eindeutigen Bezeichnern für Georeferenzen, die für Orte stehen.

Je nach Referenz verwenden die eindeutigen Bezeichner der Georeferenz die folgenden Syntaxen:

Referenz

Beschreibung

Syntax

Beispielwert

Welt

Der Datensatz enthält Inhalte über verschiedene Länder

world world

Land

Der Datensatz enthält Inhalte auf Länderebene

world_{{country code}}

world_fr wenn der Datensatz ganz Frankreich abdeckt

unterer Bereich

Der Datensatz enthält Inhalte über einen bestimmten Länderbereich

{{country code}}_{{administrative-level}}_{{administrative division}}

fr_80_75056 wenn der Datensatz die Stadt Paris abdeckt

  • {{country code}} ist ein zweibuchstabiges Länderkürzel, das unter ISO 3166-1 alpha-2 definiert ist. zum Beispiel fr für Frankreich.

  • {{administrative-level}} bezeichnet eine Verwaltungsebene für das Land. 40 steht zum Beispiel für die Verwaltungsebene französischer Regionen. Weitere Informationen zu den verfügbaren Verwaltungsebenen für das gewünschte Land finden Sie unter Bezugssysteme.

  • {{administrative division}} ist die jeweilige Verwaltungseinheit innerhalb der Verwaltungsebene des Landes. So steht 11 beispielsweise für die französische Region Île-de-France.

Die Kürzel der jeweiligen Verwaltungseinheiten können Sie wie folgt abrufen:

  1. Öffnen Sie den Abschnitt Bezugssysteme in der Dokumentation.

  2. Wählen Sie in der Tabelle am Ende des Abschnitts ein Land und eine Verwaltungsebene aus.

  3. Klicken Sie in der betreffenden Tabellenzeile auf den Link in der Spalte Datensatz-URL, um den entsprechenden geografischen Referenzwert zu öffnen und das gewünschte Kürzel der Verwaltungseinheit zu erhalten.

Ressourcen

Ressourcen können Folgendes sein:

  • Dateien auf dem FTP-Server, im selben Ordner wie die Datei index.csv oder in einem Unterordner, wobei der relative Dateipfad in der Spalte angegeben werden muss (z. B. "resources/chocolate.csv")

  • eine beliebige URL, die auf ein unterstütztes Format verweist

Wenn die Zeile leer ist, enthält der Datensatz nur Metadaten.

Ressourcen können in jedem von der Plattform unterstützten Format gesammelt werden. Da der Harvester jedoch vor allem auf der automatischen Parameter-Erkennung der Konfiguration des Konnektors basiert, müssen Dateien einfach genug sein, um korrekt extrahiert zu werden.

CSV-Schema-Datei

Für jede Ressource kann der FTP-Ordner eine CSV-Schema-Datei enthalten, die Beschriftungen und Beschreibungen für jedes Feld des Datensatzes definiert.

Der Dateiname jeder Schema-Datei muss in der Spalte CSV-Schema stehen. Für diese Datei gelten folgende Vorgaben:

  • eine Spalte Name enthält jeden Feldnamen in Kleinbuchstaben (in einer CSV-Ressource wäre dies z. B. der Spaltenname in Kleinbuchstaben)

  • eine Spalte Beschriftung (optional) enthält die Beschriftung des entsprechenden Felds

  • eine Spalte Beschreibung (optional) enthält die Beschreibung des entsprechenden Felds

1
2
3
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar
name

Beschriftung

description

Unternehmen

Unternehmen

Das Unternehmen, dass den Riegel herstellt

Ref

Referenz

Die Produkt-ID des Schokoriegels

Die Schemadateien enthalten nicht unbedingt eine Zeile für jedes Feld und es ist nicht nötig, eine Schema-Datei für jeden Datensatz in der index.csv zur Verfügung zu stellen. Gegebenenfalls lassen Sie die entsprechende Zelle leer.

Parameter

Name

Beschreibung

Beispiel

Host (host)

URL des FTP-Servers

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Benutzer (user)

Ihr Benutzername

 

Kennwort (password)

Ihr Kennwort

 

Unterverzeichnis (subdir)

Das Verzeichnis mit den Daten, die Sie sammeln möchten.

pub/documents

Metadaten-CSV-Dateiname (metadata_file)

Die Datei mit den Metadaten und Dateinamen (genauere Infos siehe weiter oben).

index.csv

Metadaten-CSV-Ressourcenspalte (resource_location_column)

Diese Spalte enthält einen Dateinamen oder eine URL mit der Datensatzressource.

source_dataset

Metadaten-CSV-Schemaspalte (resource_schema_column)

Diese Spalte enthält einen Dateinamen mit dem Ressourcenschema (Spaltenbeschriftungen und -beschreibungen).