Fichiers CSV

Vous pouvez utiliser un fichier CSV (.csv) en tant que source. Un fichier CSV contient une liste de champs séparés par une virgule , (en général pour les fichiers anglais) ou par un point-virgule ; (en général pour les fichiers français).

Vous pouvez utiliser des types de fichiers similaires :

  • Fichiers séparés par des tabulations (TSV, .tsv)

  • Fichiers texte (.txt)

  • Fichiers DAT (.dat)

Création

Pour plus d'informations sur l'ajout d'une source de fichier, consultez Récupérer un fichier.

Configuration

Encodage

Nom

Description

Utilisation

Encodage de fichier

Encodage du fichier

L'encodage des caractères est la façon dont les caractères sont représentés dans un fichier enregistré. Unicode (ou UTF-8) est le standard universel, mais certains fichiers peuvent être encodés dans un format hérité (par exemple, anciennes versions d'Excel), ce qui requiert de définir l'encodage manuellement. Sur les logiciels plus récents, cela n'est généralement pas nécessaire.

Par défaut, la plateforme utilise une heuristique pour déterminer l'encodage. Si l'encodage déterminé n'est pas le bon, sélectionnez celui approprié dans la liste ou saisissez-le dans la zone de texte Autre. Vous pouvez utiliser des alias de Python .

Structure de lignes

Nom

Description

Utilisation

Séparateur de champ

Caractère utilisé pour séparer des champs

Indiquez le séparateur dans la zone de texte. La valeur par défaut dépend du format du fichier. Les valeurs acceptées sont les suivantes : ';', ',', ' ' et '\t'.

Caractère d'échappement

Si un caractère d'échappement se trouve devant un séparateur, ce dernier n'est plus considéré comme un séparateur. L'option de configuration Caractère d'échappement permet d'éviter ce genre de problème.

Par défaut, la zone de texte est vide. Si le fichier contient un caractère d'échappement (par exemple, # ou \), indiquez-le dans la zone de texte.

Champs avec guillemets

Pour les champs dont les valeurs sont encadrées par des guillemets doubles.

Par défaut, cette option est activée. Désactivez l'option si les valeurs de champ ne sont pas encadrées par des guillemets doubles.

Point de départ des données

Nom

Description

Utilisation

Numéro de la première ligne

Pour les fichiers qui ne commencent pas dès la première ligne, vous pouvez définir quelle ligne doit être considérée comme telle. Les lignes précédentes seront ignorées du jeu de données.

Par défaut, le jeu de données commence à la ligne 1. Indiquez le numéro de la ligne où le jeu de données commence.

En-tête

Pour les fichiers dont la première ligne contient des noms de champ

Par défaut, cette option est activée. Les valeurs de la première ligne deviennent des labels de champs. Désactivez cette option si la première ligne ne contient pas de noms de champs mais des données : les labels de champs seront vides par défaut.

Extraire le nom de fichier

Nom

Description

Utilisation

Extraire le nom de fichier

Crée une colonne avec le nom du fichier source.

Par défaut, cette option est désactivée. Activez-la pour extraire le nom de fichier dans une colonne supplémentaire.