FTP mit Meta-CSV-Harvester¶
Dieser Harvester erlaubt es Nutzern, Datensätze aus einem FTP-Ordner zu erstellen.
Er verbindet sich über FTPS (Explicit-Modus über Port 21), sofern verfügbar, oder über FTP, wenn es in der angegebenen URL gefordert wird.
Der FTP-Ordner muss Folgendes enthalten:
eine Metadaten CSV-Datei (durch Semikolon getrennt)
verschiedene Ressourcen
(optional) verschiedene CSV-Schema-Dateien
Vorsicht
Der FTP mit Meta-CSV-Harvester unterstützt nur UTF-8 Codierung.
Metadaten-CSV-Datei¶
Die Metadaten CSV-Datei (Standardname: index.csv
) ist eine mit Semikolons getrennte Datei, die Folgendes enthält:
eine Kopfzeile
Einige andere Zeilen, die jeweils zu einem zu sammelnden Datensatz gehören
Beispiel:
1 2 3 | name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;
|
name | title | description | theme | keyword | source_dataset | schema_file |
chocolate-bars | Schokoriegel-Datenbank |
Eine Datenbank von Schokoriegeln |
Health | Chocolate | chocolate.csv | schema_chocolate.csv |
random-id | Risikokapital-Investment |
Statistiken der Risikokapital-Industrie. |
Wirtschaft, Business |
Risikokapital;Investments;Börsengang;Übernahmen |
investments.json |
Die Spalte
name
enthält einen Identifikator pro Zeile. Dieser kann beliebig gewählt werden muss aber ausschließlich aus Buchstaben und Zahlen bestehen, in der Datei einzigartig sein und im Zeitverlauf unverändert bleiben.Die Spalte CSV-Ressource (standardmäßig
source_dataset
) enthält die Ressource für jede Zeile.Die optionale Spalte CSV-Schema (hier:
schema_file
) enthält die Schema-Datei für jede Zeile.Alle anderen Spalten sind für Metadaten (siehe untere Tabelle für eine komplette Liste akzeptierter Spaltennamen). Hinweis: verwenden Sie Anführungszeichen zu Beginn und am Ende der Listen wie etwa
keyword`, die durch Semikolons getrennt werden müssen `(z. B. `"keyword1;keyword2"
).
Akzeptierte Metadatenspalten¶
Vorlage |
Spaltenname |
---|---|
Standard |
|
Benutzerdefiniert |
<metadata-name> (der Name der Metadaten)Wenn der Name der Metadaten zum Beispiel "Projektname" lautet, verwenden Sie
Projektname . |
DCAT (falls aktiviert) |
dcat.created , dcat.issued , dcat.creator , dcat.contributor , dcat.contact_name , dcat.contact_email , dcat.accrualperiodicity , dcat.spatial , dcat.temporal , dcat.granularity , dcat.dataquality |
DCAT-AP für CH (falls aktiviert) |
dcat_ap_ch.domain , dcat_ap_ch.rights |
Inspire (falls aktiviert) |
inspire.theme , inspire.type , inspire.file_identifier , inspire.hierarchy_level , inspire.hierarchy_level_name , inspire.spatial_resolution , inspire.topologic_consistency , inspire.contact_individual_name , inspire.contact_position , inspire.contact_address , inspire.contact_email , inspire.identification_purpose , inspire.extend_description , inspire.extend_bounding_box_westbound_longitude , inspire.extend_bounding_box_eastbound_longitude , inspire.extend_bounding_box_southbound_latitude , inspire.extend_bounding_box_northbound_latitude |
Semantic (falls aktiviert) |
semantic.rml_mapping , semantic.classes , semantic.properties |
Weitere Informationen zu den Standard-Metadaten finden Sie unter Standard-Metadaten.
Die Metadaten "geographic_reference_auto"¶
Die Spalte geographic_reference_auto
definiert, ob die geografische Abdeckung des Datensatzes automatisch berechnet wird und einen booleschen Wert akzeptiert:
Wert |
Zweck |
---|---|
true |
Stellt die Metadaten Geografische Abdeckung für den Datensatz auf Automatisch ein. Die geografische Abdeckung wird automatisch basierend auf dem Inhalt des Datensatzes oder auf der standardmäßigen geografischen Abdeckung des Datensatzes der Domain berechnet. |
false |
Stellt die Metadaten Geografische Abdeckung für den Datensatz auf "geographic_reference" ein. |
Die Metadaten "geographic_reference"¶
Die Spalte geographic_reference
definiert den Standort, der für die geografische Abdeckung des Datensatzes verwendet wird. Das bedeutet, dass die Metadaten Geografische Abdeckung für den Datensatz auf Spezifisch gestellt werden. Die Spalte geographic_reference
enthält ein Array mit eindeutigen Bezeichnern für Georeferenzen, die für Orte stehen.
Je nach Referenz verwenden die eindeutigen Bezeichner der Georeferenz die folgenden Syntaxen:
Referenz |
Beschreibung |
Syntax | Beispielwert |
---|---|---|---|
Welt |
Der Datensatz enthält Inhalte über verschiedene Länder |
world |
world |
Land |
Der Datensatz enthält Inhalte auf Länderebene |
world_{{country code}} |
|
unterer Bereich |
Der Datensatz enthält Inhalte über einen bestimmten Länderbereich |
{{country code}}_{{administrative-level}}_{{administrative division}} |
|
{{country code}}
ist ein zweibuchstabiges Länderkürzel, das unter ISO 3166-1 alpha-2 definiert ist. zum Beispielfr
für Frankreich.{{administrative-level}}
bezeichnet eine Verwaltungsebene für das Land.40
steht zum Beispiel für die Verwaltungsebene französischer Regionen. Weitere Informationen zu den verfügbaren Verwaltungsebenen für das gewünschte Land finden Sie unter Bezugssysteme.{{administrative division}}
ist die jeweilige Verwaltungseinheit innerhalb der Verwaltungsebene des Landes. So steht11
beispielsweise für die französische Region Île-de-France.
Die Kürzel der jeweiligen Verwaltungseinheiten können Sie wie folgt abrufen:
Öffnen Sie den Abschnitt Bezugssysteme in der Dokumentation.
Wählen Sie in der Tabelle am Ende des Abschnitts ein Land und eine Verwaltungsebene aus.
Klicken Sie in der betreffenden Tabellenzeile auf den Link in der Spalte Datensatz-URL, um den entsprechenden geografischen Referenzwert zu öffnen und das gewünschte Kürzel der Verwaltungseinheit zu erhalten.
Ressourcen¶
Ressourcen können Folgendes sein:
Dateien auf dem FTP-Server, im selben Ordner wie die Datei
index.csv
oder in einem Unterordner, wobei der relative Dateipfad in der Spalte angegeben werden muss (z. B. "resources/chocolate.csv")eine beliebige URL, die auf ein unterstütztes Format verweist
Wenn die Zeile leer ist, enthält der Datensatz nur Metadaten.
Ressourcen können in jedem von der Plattform unterstützten Format gesammelt werden. Da der Harvester jedoch vor allem auf der automatischen Parameter-Erkennung der Konfiguration des Konnektors basiert, müssen Dateien einfach genug sein, um korrekt extrahiert zu werden.
CSV-Schema-Datei¶
Für jede Ressource kann der FTP-Ordner eine CSV-Schema-Datei enthalten, die Beschriftungen und Beschreibungen für jedes Feld des Datensatzes definiert.
Der Dateiname jeder Schema-Datei muss in der Spalte CSV-Schema stehen. Für diese Datei gelten folgende Vorgaben:
eine Spalte
Name
enthält jeden Feldnamen in Kleinbuchstaben (in einer CSV-Ressource wäre dies z. B. der Spaltenname in Kleinbuchstaben)eine Spalte
Beschriftung
(optional) enthält die Beschriftung des entsprechenden Feldseine Spalte
Beschreibung
(optional) enthält die Beschreibung des entsprechenden Felds
1 2 3 | name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar
|
name | Beschriftung |
description |
Unternehmen |
Unternehmen |
Das Unternehmen, dass den Riegel herstellt |
Ref |
Referenz |
Die Produkt-ID des Schokoriegels |
Die Schemadateien enthalten nicht unbedingt eine Zeile für jedes Feld und es ist nicht nötig, eine Schema-Datei für jeden Datensatz in der index.csv
zur Verfügung zu stellen. Gegebenenfalls lassen Sie die entsprechende Zelle leer.
Parameter¶
Name | Beschreibung |
Beispiel |
---|---|---|
Host (host) | URL des FTP-Servers |
eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com |
Benutzer (user) |
Ihr Benutzername |
|
Kennwort (password) |
Ihr Kennwort |
|
Unterverzeichnis (subdir) |
Das Verzeichnis mit den Daten, die Sie sammeln möchten. |
pub/documents |
Metadaten-CSV-Dateiname (metadata_file) |
Die Datei mit den Metadaten und Dateinamen (genauere Infos siehe weiter oben). |
index.csv |
Metadaten-CSV-Ressourcenspalte (resource_location_column) |
Diese Spalte enthält einen Dateinamen oder eine URL mit der Datensatzressource. |
source_dataset |
Metadaten-CSV-Schemaspalte (resource_schema_column) |
Diese Spalte enthält einen Dateinamen mit dem Ressourcenschema (Spaltenbeschriftungen und -beschreibungen). |