Moissonneur FTP avec CSV de métadonnées

Ce moissonneur permet aux utilisateurs de créer des jeux de données à partir d'un répertoire FTP.

Il se connecte via FTPS (en mode explicite sur le port 21) si disponible, ou FTP si demandé dans l'URL fournie.

Le répertoire FTP doit contenir :

  • un fichier CSV de métadonnées (séparé par des points-virgules)

  • plusieurs ressources

  • (facultatif) plusieurs fichiers CSV de schéma

Avertissement

Le moissonneur FTP avec CSV de métadonnées ne prend en charge que l'encodage UTF-8.

Organisation du dossier FTP

Fichier CSV de métadonnées

Le fichier CSV de métadonnées (appelé index.csv par défaut) est un fichier séparé par des points-virgules contenant :

  • une ligne d'en tête

  • plusieurs autres lignes, chacune dédiée à un jeu de données à moissonner

Exemple:

1
2
3
name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;
name title description theme keyword source_dataset schema_file
chocolate-bars Chocolate bars database A database of chocolate bars Health Chocolate chocolate.csv schema_chocolate.csv
random-id Venture Capital Investments Venture capital industry statistics. Economy, Business Venture capital;Investments;IPO;Acquisitions investments.json  
  • La colonne name contient un identifiant pour chaque colonne. Ces identifiants sont arbitraires, mais doivent contenir uniquement des lettres et chiffres, être uniques dans le fichier et ne jamais changer.

  • La colonne de ressource CSV (source_dataset par défaut) contient la ressource pour chaque ligne.

  • La colonne de schéma CSV optionnelle (ici, schema_file) contient le fichier de schéma pour chaque ligne.

  • Toutes les autres colonnes sont des métadonnées (consultez le tableau ci-dessous pour obtenir une liste complète des noms de colonne acceptés). Remarque : utilisez des guillemets doubles au début et à la fin de chaque liste, par exemple keyword, là où un point-virgule doit être utilisé pour séparer les mots (p. ex. "keyword1;keyword2").

Colonnes de métadonnées acceptées

Modèle

Nom de colonne

Standard title, description, theme, keyword, license, language, timezone, modified, geographic_reference_auto, geographic_reference, publisher, references, attributions, oauth_scope

Personnalisé

<metadata-name> (le nom des métadonnées)
Par exemple, si le nom des métadonnées est "project name", utilisez project-name.

DCAT (si activées)

dcat.created, dcat.issued, dcat.creator, dcat.contributor, dcat.contact_name, dcat.contact_email, dcat.accrualperiodicity, dcat.spatial, dcat.temporal, dcat.granularity, dcat.dataquality

DCAT-AP pour la Suisse (si activées)

dcat_ap_ch.domain, dcat_ap_ch.rights

Inspire (si activées)

inspire.theme, inspire.type, inspire.file_identifier, inspire.hierarchy_level, inspire.hierarchy_level_name, inspire.spatial_resolution, inspire.topologic_consistency, inspire.contact_individual_name, inspire.contact_position, inspire.contact_address, inspire.contact_email, inspire.identification_purpose, inspire.extend_description, inspire.extend_bounding_box_westbound_longitude, inspire.extend_bounding_box_eastbound_longitude, inspire.extend_bounding_box_southbound_latitude, inspire.extend_bounding_box_northbound_latitude

Sémantique (si activées)

semantic.rml_mapping, semantic.classes, semantic.properties

Pour plus d'informations sur les métadonnées standard, consultez Métadonnées standard.

Les métadonnées geographic_reference_auto

La colonne geographic_reference_auto définit si la couverture géographique du jeu de données est calculée automatiquement et accepte une valeur booléenne :

C'est mon tableau

Valeur

Objectif

true

Définit les métadonnées Couverture géographique du jeu de données sur Automatique. La couverture géographique est ainsi automatiquement calculée en fonction du contenu du jeu de données ou de la couverture géographique par défaut du jeu de données du domaine.

false

Définit les métadonnées Couverture géographique du jeu de données sur la valeur associée à geographic_reference.

Les métadonnées geographic_reference

La colonne geographic_reference définit l'emplacement utilisé pour la couverture géographique du jeu de données ; les métadonnées Couverture géographique du jeu de données sont ainsi définies sur Spécifique. La colonne geographic_reference contient un tableau d'identifiants uniques de références géographiques correspondant à des emplacements.

Les identifiants uniques de références géographiques utilisent les syntaxes suivantes, basées sur la référence :

Reference Description

Syntaxe

Exemple de valeur

world

Le jeu de données héberge du contenu sur différents pays

world world

pays

Le jeu de données héberge du contenu sur un pays spécifique

world_{{country code}}

world_fr si la couverture du jeu de données est définie sur France

lower division

Le jeu de données héberge du contenu sur une division de pays spécifique

{{country code}}_{{administrative-level}}_{{administrative division}}

fr_80_75056 si la couverture du jeu de données est définie sur la ville de Paris

  • {{country code}} est un code pays composé de deux lettres, défini par la norme ISO 3166-1 alpha-2. Par exemple, fr correspond à France.

  • {{administrative-level}} est un niveau administratif pour le pays. Par exemple, 40 est le niveau administratif des régions françaises. Pour plus d'informations sur les niveaux administratifs disponibles pour le pays souhaité, consultez Référentiels.

  • {{administrative division}} est la division administrative relative dans le niveau administratif du pays. Par exemple, 11 correspond au code de la région française Île-de-France.

Procédez comme suit pour récupérer le code de la division administrative souhaité :

  1. Rendez-vous dans la section Référentiels de la documentation.

  2. Sélectionnez un pays et un niveau administratif dans le tableau se trouvant à la fin de la section.

  3. Dans la ligne du tableau associée, cliquez sur le lien de la colonne URL du jeu de données pour ouvrir le référentiel géographique et obtenir le code de division administrative souhaité.

Ressources

Les ressources peuvent être :

  • des fichiers sur le serveur FTP, dans le même dossier que le fichier index.csv, ou dans un sous-dossier en spécifiant le chemin d'accès relatif du fichier dans la colonne (par exemple "resources/chocolate.csv")

  • une URL pointant vers un format pris en charge

Si la colonne est vide, le jeu de données contiendra uniquement des métadonnées.

Les ressources, si elles sont dans un format pris en charge par la plateforme, peuvent être moissonnées. Cependant, étant donné que le moissonneur s'appuie largement sur la détection automatique de paramètres pour la connexion du connecteur, les fichiers doivent être relativement simples pour être extraits.

Fichier de schéma CSV

Pour chaque ressource, le dossier FTP peut convenir un fichier de schéma CSV qui définit les labels et les descriptions de chaque champ du jeu de données.

Le nom de fichier de chaque fichier de schéma doit être inscrit dans la colonne de schéma CSV. Ce fichier présente les spécifications suivantes :

  • une colonne name contient chaque nom de champ en caractères minuscules (par ex. sur une ressource CSV, ce serait les noms de colonne en caractères minuscules)

  • une colonne label (optionnelle) contient le label du champ correspondant

  • une colonne description (optionnelle) contient la description du champ correspondant

1
2
3
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar
name label description
company Company The company that makes the bar
ref Reference The product id of the chocolate bar

Les fichiers de schéma n'ont pas besoin de contenir une ligne pour chaque champ, et il n'est pas nécessaire de fournir un fichier de schéma pour chaque jeu de données dans index.csv. Dans ce dernier cas, assurez-vous que la cellule correspondante reste vide.

Paramètres

Nom

Description

Exemple

Hôte (host)

URL du serveur FTP

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Utilisateur (user)

Votre nom d'utilisateur

 

Mot de passe (password)

Votre mot de passe

 

Sous-dossier (subdir)

Le dossier contenant les données à moissonner.

pub/documents

Nom du fichier CSV de métadonnées (metadata_file)

Le fichier contenant les métadonnées et les noms de fichiers (voire ci-dessus pour une description plus précise).

index.csv

Colonne des ressources CSV des métadonnées (resource_location_column)

Nom de la colonne contenant le nom du fichier ou l'URL contenant les données.

source_dataset

Colonne du schéma CSV des métadonnées (resource_schema_column)

Cette colonne contient un nom de fichier contenant le schéma des ressources (descriptions et labels des colonnes).