CSV connector

De CSV File-connector wordt gebruikt voor datasets waarvan de bron een CSV-bestand (.csv) is. Het is een bestand dat een lijst met velden bevat die gescheiden zijn door middel van een "," (meestal voor Engelstalige bestanden) of een ";" (meestal voor Franstalige bestanden).

De CSV File-connector kan ook andere gelijkaardige bestanden lezen:

  • TSV-bestanden (.tsv), waarvan het scheidingsteken een tab is in plaats van een komma of een kommapunt,

  • Tekstbestanden (.txt),

  • DAT-bestanden (.dat).

Aanmaak

Zie how to source a file.

Configuratie

Naam

Omschrijving

Gebruik

Dubbele aanhalingstekens

Voor velden waarvan de waarden tussen twee aanhalingstekens staan.

Standaard is dit vakje niet aangevinkt. Vink het vakje aan wanneer de waarden van de velden tussen twee aanhalingstekens staan.

Bezig met coderen

Encodage van het bestand.

Opmerking

Het encoderen van karakters is de manier waarop karakters worden weergegeven in het opgeslagen bestand. Unicode (of utf-8) is de universele standaard maar sommige bestanden kunnen worden geëncodeerd in een oud formaat (bijv. oude versies van Excel), waarvoor het instellen van handmatige encodage vereist zou zijn. Voor moderne software is dit meestal niet nodig.

Standaard maakt het platform gebruik van een heuristiek. Wanneer de gegokte encodage niet juist is, kies dan de juiste uit de lijst of noteer deze in het tekstvak. Er kunnen pseudoniemen worden gebruikt uit Python .

Escape-karakter

Wanneer een escape-teken rechts voor een scheidingsteken staat, zal dit scheidingsteken niet meer als dusdanig beschouwd worden. De configuratieoptie voor het escape-teken vermijdt deze situatie.

Standaard is het tekstvak leeg. In geval het bestand een escape-karakter bevat (bijv. "#" of ""), noteer dit dan in het tekstvak.

Extraheer bestandsnaam

Maakt een nieuwe kolom aan met de naam van de bronbestand;

Standaard is het vakje niet aangevinkt. Vink het vakje aan om de bestandsnaam te extraheren in een toegevoegde kolom.

Nummer van de eerste lijn

Voor bestanden die niet op de allereerste lijn beginnen, is het mogelijk te beslissen met welke lijn eerst rekening moet worden gehouden. De lijnen erboven zullen worden overgeslagen in de dataset;

Standaard start de dataset op lijn 1. Vermeld het nummer van de lijn die overwogen zou moeten worden als het begin van de dataset;

Headers

Voor bestanden waarvan de eerste lijn kolomtitels bevat.

Standaard is het vakje aangevinkt. Het maakt de waarden van het eerste veld tot veldlabels. Vink het vakje uit wanneer de eerste lijn geen titels waar wel gegevens bevat: de veldlabels zullen dan standaard leeg zijn.

Scheidingsteken

Het vastgelegde scheidingsteken tussen de velden van het bestand.

Noteer het scheidingsteken in het tekstvak. Er mag slechts één karakter zijn. Het standaard karakter hangt af van het formaat van het bestand. Correcte waarden zijn meestal ';', ',', ' ' en '\t'.