Moissonneur FTP avec CSV de métadonnées

Cet moissonneur permet aux utilisateurs de créer des jeux de données d'un répertoire FTP.

Il se connecte via FTPS (en mode explicite sur le port 21) si disponible, ou FTP si demandé dans l'URL fournie.

Le répertoire FTP doit contenir :

  • un fichier CSV de métadonnées (séparé par des points-virgules)

  • plusieurs ressources

  • (facultatif) plusieurs fichiers CSV de schéma

Avertissement

Le moissonneur FTP avec CSV de métadonnées ne prend en charge que l'encodage UTF-8.

Organisation du dossier FTP

Fichier CSV de métadonnées

Le fichier CSV de métadonnées (appelé index.csv par défaut) est un fichier séparé par des points-virgules contenant :

  • une ligne d'en tête

  • plusieurs autres lignes, chacune dédiée à un jeu de données à moissonner

Exemple:

1
2
3
name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;
name title description theme keyword source_dataset schema_file
chocolate-bars Chocolate bars database A database of chocolate bars Health Chocolate chocolate.csv schema_chocolate.csv
random-id Venture Capital Investments Venture capital industry statistics. Economy, Business Venture capital;Investments;IPO;Acquisitions investments.json  
  • La colonne name contient un identifiant pour chaque colonne. Ces identifiants sont arbitraires, mais doivent contenir uniquement des lettres et chiffres, être uniques dans le fichier et ne jamais changer.

  • La colonne de ressource CSV (source_dataset par défaut) contient la ressource pour chaque ligne.

  • La colonne de schéma CSV optionnelle (ici, schema_file) contient le fichier de schéma pour chaque ligne.

  • Toutes les autres colonnes sont des métadonnées (consultez le tableau ci-dessous pour obtenir une liste complète des noms de colonne acceptés). Remarque : utilisez des guillemets doubles au début et à la fin de chaque liste, par exemple keyword, là où un point-virgule doit être utilisé pour séparer les mots (p. ex. "keyword1;keyword2").

Colonnes de métadonnées acceptées

Modèle

Nom de colonne

Standard title, description, theme, keyword, license, language, timezone, modified, geographic_area_mode, geographic_area, publisher, references, attributions, oauth_scope

Personnalisé

custom.<metadata_name>

DCAT (si activées)

dcat.created, dcat.issued, dcat.creator, dcat.contributor, dcat.contact_name, dcat.contact_email, dcat.accrualperiodicity, dcat.spatial, dcat.temporal, dcat.granularity, dcat.dataquality

DCAT-AP pour la Suisse (si activées)

dcat_ap_ch.domain, dcat_ap_ch.rights

Inspire (si activées)

inspire.theme, inspire.type, inspire.file_identifier, inspire.hierarchy_level, inspire.hierarchy_level_name, inspire.spatial_resolution, inspire.topologic_consistency, inspire.contact_individual_name, inspire.contact_position, inspire.contact_address, inspire.contact_email, inspire.identification_purpose, inspire.extend_description, inspire.extend_bounding_box_westbound_longitude, inspire.extend_bounding_box_eastbound_longitude, inspire.extend_bounding_box_southbound_latitude, inspire.extend_bounding_box_northbound_latitude

Sémantique (si activées)

semantic.rml_mapping, semantic.classes, semantic.properties

Ressources

Les ressources peuvent être :

  • des fichiers sur le serveur FTP, dans le même dossier que le fichier index.csv, ou dans un sous-dossier en spécifiant le chemin d'accès relatif du fichier dans la colonne (par exemple "resources/chocolate.csv")

  • une URL pointant vers un format pris en charge

Si la colonne est vide, le jeu de données contiendra uniquement des métadonnées.

Les ressources, si elles sont dans un format pris en charge par la plateforme, peuvent être moissonnées. Cependant, étant donné que le moissonneur s'appuie largement sur la détection automatique de paramètres pour la connexion du connecteur, les fichiers doivent être relativement simples pour être extraits.

Fichier de schéma CSV

Pour chaque ressource, le dossier FTP peut convenir un fichier de schéma CSV qui définit les labels et les descriptions de chaque champ du jeu de données.

Le nom de fichier de chaque fichier de schéma doit être inscrit dans la colonne de schéma CSV. Ce fichier présente les spécifications suivantes :

  • une colonne name contient chaque nom de champ en caractères minuscules (par ex. sur une ressource CSV, ce serait les noms de colonne en caractères minuscules)

  • une colonne label (optionnelle) contient le label du champ correspondant

  • une colonne description (optionnelle) contient la description du champ correspondant

1
2
3
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar
name label description
company Company The company that makes the bar
ref Reference The product id of the chocolate bar

Les fichiers de schéma n'ont pas besoin de contenir une ligne pour chaque champ, et il n'est pas nécessaire de fournir un fichier de schéma pour chaque jeu de données dans index.csv. Dans ce dernier cas, assurez-vous que la cellule correspondante reste vide.

Paramètres

Nom

Description

Exemple

Hôte (host)

URL du serveur FTP

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Utilisateur (user)

Votre nom d'utilisateur

 

Mot de passe (password)

Votre mot de passe

 

Sous-dossier (subdir)

Le dossier contenant les données à moissonner.

pub/documents

Nom du fichier CSV de métadonnées (metadata_file)

Le fichier contenant les métadonnées et les noms de fichiers (voire ci-dessus pour une description plus précise).

index.csv

Colonne des ressources CSV des métadonnées (resource_location_column)

Nom de la colonne contenant le nom du fichier ou l'URL contenant les données.

source_dataset

Colonne du schéma CSV des métadonnées (resource_schema_column)

Cette colonne contient un nom de fichier contenant le schéma des ressources (descriptions et labels des colonnes).