Connecteur CSV

Le connecteur Fichier CSV est utilisé pour les jeux de données dont la source est un fichier CSV (.csv). Il s’agit d’un fichier qui contient une liste de champs séparés par ‘,’ (en général pour les fichiers anglais) ou par ‘;’ (en général pour les fichiers français).

Le connecteur Fichier CSV peut également lire d’autres fichiers similaires :

  • les fichiers TSV (.tsv), dont le séparateur est une tabulation plutôt qu’une virgule ou un point-virgule,

  • les fichiers texte (.txt),

  • les fichiers DAT (.dat).

Création

Consultez comment collecter un fichier.

Configuration

Nom

Description

Utilisation

Guillemet double

Pour les champs dont les valeurs sont encadrées par des guillemets doubles.

Par défaut, la case n’est pas cochée. Cochez la case si les valeurs de champ sont encadrées par des guillemets doubles.

Encodage

Encodage du fichier.

Remarque

L’encodage des caractères est la façon dont les caractères sont représentés dans un fichier enregistré. Unicode (ou utf-8) est le standard universel, mais certains fichiers peuvent être encodés dans un format hérité (par exemple, anciennes versions d’Excel), ce qui requiert de définir l’encodage manuellement. Sur les logiciels plus récents, cela n’est généralement pas nécessaire.

Par défaut, la plateforme utilise une heuristique pour déterminer l’encodage. Si l’encodage déterminé n’est pas le bon, choisissez celui approprié dans la liste ou saisissez-le dans la zone de texte. Des alias de Python peuvent être utilisés.

Caractère d’échappement

Si un caractère d’échappement se trouve devant un séparateur, ce dernier n’est plus considéré comme un séparateur. L’option de configuration Caractère d’échappement permet d’éviter ce genre de problème.

Par défaut, la zone de texte est vide. Si le fichier contient un caractère d’échappement (par exemple, # ou \), indiquez-le dans la zone de texte.

Extraire le nom de fichier

Crée une colonne avec le nom du fichier source.

Par défaut, la case n’est pas cochée. Cochez-la pour extraire le nom du fichier dans une autre colonne.

Numéro de la première ligne

Pour les fichiers qui ne commencent pas dès la première ligne, vous pouvez décider quelle ligne doit être considérée comme telle. Les lignes précédentes seront ignorées du jeu de données.

Par défaut, le jeu de données commence à la ligne 1. Indiquez le numéro de la ligne qui doit être considérée comme le début du jeu de données.

En-têtes

Pour les fichiers dont la première ligne contient des titres de colonne.

Par défaut, la case est cochée. Les valeurs de la première ligne deviennent des labels de champs. Décochez la case si la première ligne contient des données plutôt que des titres : les labels de champs seront vides par défaut.

Séparateur

Le séparateur fixe entre les champs du fichier.

Indiquez le séparateur dans la zone de texte. Il ne doit y avoir qu’un seul caractère. Le séparateur par défaut dépend du format du fichier. Les valeurs acceptées sont les suivantes : ';', ',', ' ' et '\t'.