FTP mit Meta-CSV-Harvester

Dieser Harvester erlaubt es Nutzern, Datensätze aus einem FTP-Ordner zu erstellen.

Er verbindet sich über FTPS (Explicit-Modus über Port 21), sofern verfügbar, oder über FTP, wenn es in der angegebenen URL gefordert wird.

Der FTP-Ordner muss Folgendes enthalten:

  • eine Metadaten CSV-Datei (durch Semikolon getrennt)

  • verschiedene Ressourcen

  • (optional) verschiedene CSV-Schema-Dateien

Vorsicht

Der FTP mit Meta-CSV-Harvester unterstützt nur UTF-8 Codierung.

Metadaten-CSV-Datei

Die Metadaten CSV-Datei (Standardname: index.csv) ist eine mit Semikolons getrennte Datei, die Folgendes enthält:

  • eine Kopfzeile

  • Einige andere Zeilen, die jeweils zu einem zu sammelnden Datensatz gehören

Beispiel:

1
2
3
name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;

Name

Titel

Beschreibung

Thema

keyword source_dataset schema_file
chocolate-bars

Schokoriegel-Datenbank

Eine Datenbank von Schokoriegeln

Health Chocolate chocolate.csv schema_chocolate.csv
random-id

Risikokapital-Investment

Statistiken der Risikokapital-Industrie.

Wirtschaft, Business

Risikokapital;Investments;Börsengang;Übernahmen

investments.json  
  • Die Spalte Name enthält einen Identifikator pro Zeile. Dieser kann beliebig gewählt werden muss aber ausschließlich aus Buchstaben und Zahlen bestehen, in der Datei einzigartig sein und im Zeitverlauf unverändert bleiben.

  • Die Spalte CSV-Ressource (standardmäßig source_dataset) enthält die Ressource für jede Zeile.

  • Die optionale Spalte CSV-Schema (hier: schema_file) enthält die Schema-Datei für jede Zeile.

  • Alle anderen Spalten sind für Metadaten (siehe untere Tabelle für eine komplette Liste akzeptierter Spaltennamen). Hinweis: verwenden Sie Anführungszeichen zu Beginn und am Ende der Listen wie etwa Schlüsselwort, die durch Semikolons getrennt werden müssen (z. B. `"Schlüsselwort1;Schlüsselwort2"`).

Akzeptierte Metadatenspalten

Vorlage

Spaltenname

Standard

Titel, Beschreibung, Thema, Schlüsselwort, Lizenz`, Sprache, Zeitzone, geändert, Modus_geographischer_Bereich, geographischer_Bereich, Veröffentlicher, Referenzen`, Zuordnungen, oauth_Bereich

Benutzerdefiniert

benutzerdefiniert.<metadata_name>

DCAT (falls aktiviert)

dcat.created, dcat.issued, dcat.creator, dcat.contributor, dcat.contact_name, dcat.contact_email, dcat.accrualperiodicity, dcat.spatial, dcat.temporal, dcat.granularity, dcat.dataquality

DCAT-AP für CH (falls aktiviert)

dcat_ap_ch.domain, dcat_ap_ch.rights

Inspire (falls aktiviert)

inspire.theme, inspire.type, inspire.file_identifier, inspire.hierarchy_level, inspire.hierarchy_level_name, inspire.spatial_resolution, inspire.topologic_consistency, inspire.contact_individual_name, inspire.contact_position, inspire.contact_address, inspire.contact_email, inspire.identification_purpose, inspire.extend_description, inspire.extend_bounding_box_westbound_longitude, inspire.extend_bounding_box_eastbound_longitude, inspire.extend_bounding_box_southbound_latitude, inspire.extend_bounding_box_northbound_latitude

Semantic (falls aktiviert)

semantic.rml_mapping, semantic.classes, semantic.properties

Ressourcen

Ressourcen können Folgendes sein:

  • Dateien auf dem FTP-Server, im selben Ordner wie die Datei index.csv oder in einem Unterordner, wobei der relative Dateipfad in der Spalte angegeben werden muss (z. B. "resources/chocolate.csv")

  • eine beliebige URL, die auf ein unterstütztes Format verweist

Wenn die Zeile leer ist, enthält der Datensatz nur Metadaten.

Ressourcen können in jedem von der Plattform unterstützten Format gesammelt werden. Da der Harvester jedoch vor allem auf der automatischen Parameter-Erkennung der Konfiguration des Konnektors basiert, müssen Dateien einfach genug sein, um korrekt extrahiert zu werden.

CSV-Schema-Datei

Für jede Ressource kann der FTP-Ordner eine CSV-Schema-Datei enthalten, die Beschriftungen und Beschreibungen für jedes Feld des Datensatzes definiert.

Der Dateiname jeder Schema-Datei muss in der Spalte CSV-Schema stehen. Für diese Datei gelten folgende Vorgaben:

  • eine Spalte Name enthält jeden Feldnamen in Kleinbuchstaben (in einer CSV-Ressource wäre dies z. B. der Spaltenname in Kleinbuchstaben)

  • eine Spalte Beschriftung (optional) enthält die Beschriftung des entsprechenden Felds

  • eine Spalte Beschreibung (optional) enthält die Beschreibung des entsprechenden Felds

1
2
3
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar

Name

Beschriftung

Beschreibung

Unternehmen

Unternehmen

Das Unternehmen, dass den Riegel herstellt

Ref

Referenz

Die Produkt-ID des Schokoriegels

Die Schemadateien enthalten nicht unbedingt eine Zeile für jedes Feld und es ist nicht nötig, eine Schema-Datei für jeden Datensatz in der index.csv zur Verfügung zu stellen. Gegebenenfalls lassen Sie die entsprechende Zelle leer.

Parameter

Name

Beschreibung

Beispiel

Host (host)

URL des FTP-Servers

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Benutzer (user)

Ihr Benutzername

 

Kennwort (password)

Ihr Kennwort

 

Unterverzeichnis (subdir)

Das Verzeichnis mit den Daten, die Sie sammeln möchten.

pub/documents

Metadaten-CSV-Dateiname (metadata_file)

Die Datei mit den Metadaten und Dateinamen (genauere Infos siehe weiter oben).

index.csv

Metadaten-CSV-Ressourcenspalte (resource_location_column)

Diese Spalte enthält einen Dateinamen oder eine URL mit der Datensatzressource.

source_dataset

Metadaten-CSV-Schemaspalte (resource_schema_column)

Diese Spalte enthält einen Dateinamen mit dem Ressourcenschema (Spaltenbeschriftungen und -beschreibungen).