Moissonneur FTP avec CSV de métadonnées¶
Ce moissonneur permet aux utilisateurs de créer des jeux de données à partir d'un répertoire FTP.
Il se connecte via FTPS (en mode explicite sur le port 21) si disponible, ou FTP si demandé dans l'URL fournie.
Le répertoire FTP doit contenir :
un fichier CSV de métadonnées (séparé par des points-virgules)
plusieurs ressources
(facultatif) plusieurs fichiers CSV de schéma
Avertissement
Le moissonneur FTP avec CSV de métadonnées ne prend en charge que l'encodage UTF-8.

Fichier CSV de métadonnées¶
Le fichier CSV de métadonnées (appelé index.csv
par défaut) est un fichier séparé par des points-virgules contenant :
une ligne d'en tête
plusieurs autres lignes, chacune dédiée à un jeu de données à moissonner
Exemple:
1 2 3 | name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;
|
name | title | description | theme | keyword | source_dataset | schema_file |
chocolate-bars | Chocolate bars database | A database of chocolate bars | Health | Chocolate | chocolate.csv | schema_chocolate.csv |
random-id | Venture Capital Investments | Venture capital industry statistics. | Economy, Business | Venture capital;Investments;IPO;Acquisitions | investments.json |
La colonne
name
contient un identifiant pour chaque colonne. Ces identifiants sont arbitraires, mais doivent contenir uniquement des lettres et chiffres, être uniques dans le fichier et ne jamais changer.La colonne de ressource CSV (
source_dataset
par défaut) contient la ressource pour chaque ligne.La colonne de schéma CSV optionnelle (ici,
schema_file
) contient le fichier de schéma pour chaque ligne.Toutes les autres colonnes sont des métadonnées (consultez le tableau ci-dessous pour obtenir une liste complète des noms de colonne acceptés). Remarque : utilisez des guillemets doubles au début et à la fin de chaque liste, par exemple
keyword
, là où un point-virgule doit être utilisé pour séparer les mots (p. ex."keyword1;keyword2"
).
Colonnes de métadonnées acceptées¶
Modèle |
Nom de colonne |
---|---|
Standard | title , description , theme , keyword , license , language , timezone , modified , geographic_reference_auto , geographic_reference , publisher , references , attributions , oauth_scope |
Personnalisé |
<metadata-name> (le nom des métadonnées)Par exemple, si le nom des métadonnées est "project name", utilisez
project-name . |
DCAT (si activées) |
dcat.created , dcat.issued , dcat.creator , dcat.contributor , dcat.contact_name , dcat.contact_email , dcat.accrualperiodicity , dcat.spatial , dcat.temporal , dcat.granularity , dcat.dataquality |
DCAT-AP pour la Suisse (si activées) |
dcat_ap_ch.domain , dcat_ap_ch.rights |
Inspire (si activées) |
inspire.theme , inspire.type , inspire.file_identifier , inspire.hierarchy_level , inspire.hierarchy_level_name , inspire.spatial_resolution , inspire.topologic_consistency , inspire.contact_individual_name , inspire.contact_position , inspire.contact_address , inspire.contact_email , inspire.identification_purpose , inspire.extend_description , inspire.extend_bounding_box_westbound_longitude , inspire.extend_bounding_box_eastbound_longitude , inspire.extend_bounding_box_southbound_latitude , inspire.extend_bounding_box_northbound_latitude |
Sémantique (si activées) |
semantic.rml_mapping , semantic.classes , semantic.properties |
Pour plus d'informations sur les métadonnées standard, consultez Métadonnées standard.
Les métadonnées geographic_reference_auto¶
La colonne geographic_reference_auto
définit si la couverture géographique du jeu de données est calculée automatiquement et accepte une valeur booléenne :
Valeur |
Objectif |
---|---|
true |
Définit les métadonnées Couverture géographique du jeu de données sur Automatique. La couverture géographique est ainsi automatiquement calculée en fonction du contenu du jeu de données ou de la couverture géographique par défaut du jeu de données du domaine. |
false |
Définit les métadonnées Couverture géographique du jeu de données sur la valeur associée à |
Les métadonnées geographic_reference¶
La colonne geographic_reference
définit l'emplacement utilisé pour la couverture géographique du jeu de données ; les métadonnées Couverture géographique du jeu de données sont ainsi définies sur Spécifique. La colonne geographic_reference
contient un tableau d'identifiants uniques de références géographiques correspondant à des emplacements.
Les identifiants uniques de références géographiques utilisent les syntaxes suivantes, basées sur la référence :
Reference | Description | Syntaxe |
Exemple de valeur |
---|---|---|---|
world | Le jeu de données héberge du contenu sur différents pays |
world |
world |
pays |
Le jeu de données héberge du contenu sur un pays spécifique |
world_{{country code}} |
|
lower division | Le jeu de données héberge du contenu sur une division de pays spécifique |
{{country code}}_{{administrative-level}}_{{administrative division}} |
|
{{country code}}
est un code pays composé de deux lettres, défini par la norme ISO 3166-1 alpha-2. Par exemple,fr
correspond à France.{{administrative-level}}
est un niveau administratif pour le pays. Par exemple,40
est le niveau administratif des régions françaises. Pour plus d'informations sur les niveaux administratifs disponibles pour le pays souhaité, consultez Référentiels.{{administrative division}}
est la division administrative relative dans le niveau administratif du pays. Par exemple,11
correspond au code de la région française Île-de-France.
Procédez comme suit pour récupérer le code de la division administrative souhaité :
Rendez-vous dans la section Référentiels de la documentation.
Sélectionnez un pays et un niveau administratif dans le tableau se trouvant à la fin de la section.
Dans la ligne du tableau associée, cliquez sur le lien de la colonne URL du jeu de données pour ouvrir le référentiel géographique et obtenir le code de division administrative souhaité.
Ressources¶
Les ressources peuvent être :
des fichiers sur le serveur FTP, dans le même dossier que le fichier
index.csv
, ou dans un sous-dossier en spécifiant le chemin d'accès relatif du fichier dans la colonne (par exemple "resources/chocolate.csv")une URL pointant vers un format pris en charge
Si la colonne est vide, le jeu de données contiendra uniquement des métadonnées.
Les ressources, si elles sont dans un format pris en charge par la plateforme, peuvent être moissonnées. Cependant, étant donné que le moissonneur s'appuie largement sur la détection automatique de paramètres pour la connexion du connecteur, les fichiers doivent être relativement simples pour être extraits.
Fichier de schéma CSV¶
Pour chaque ressource, le dossier FTP peut convenir un fichier de schéma CSV qui définit les labels et les descriptions de chaque champ du jeu de données.
Le nom de fichier de chaque fichier de schéma doit être inscrit dans la colonne de schéma CSV. Ce fichier présente les spécifications suivantes :
une colonne
name
contient chaque nom de champ en caractères minuscules (par ex. sur une ressource CSV, ce serait les noms de colonne en caractères minuscules)une colonne
label
(optionnelle) contient le label du champ correspondantune colonne
description
(optionnelle) contient la description du champ correspondant
1 2 3 | name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar
|
name | label | description |
company | Company | The company that makes the bar |
ref | Reference | The product id of the chocolate bar |
Les fichiers de schéma n'ont pas besoin de contenir une ligne pour chaque champ, et il n'est pas nécessaire de fournir un fichier de schéma pour chaque jeu de données dans index.csv
. Dans ce dernier cas, assurez-vous que la cellule correspondante reste vide.
Paramètres¶
Nom |
Description | Exemple |
---|---|---|
Hôte (host) |
URL du serveur FTP |
eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com |
Utilisateur (user) |
Votre nom d'utilisateur |
|
Mot de passe (password) |
Votre mot de passe |
|
Sous-dossier (subdir) |
Le dossier contenant les données à moissonner. |
pub/documents |
Nom du fichier CSV de métadonnées (metadata_file) |
Le fichier contenant les métadonnées et les noms de fichiers (voire ci-dessus pour une description plus précise). |
index.csv |
Colonne des ressources CSV des métadonnées (resource_location_column) |
Nom de la colonne contenant le nom du fichier ou l'URL contenant les données. |
source_dataset |
Colonne du schéma CSV des métadonnées (resource_schema_column) |
Cette colonne contient un nom de fichier contenant le schéma des ressources (descriptions et labels des colonnes). |