FTP met meta CSV harvester

Deze harvester laat gebruikers toe om datasets aan te maken vanuit een FTP-map.

Deze maakt verbinding via FTPS (expliciete modus op poort 21) wanneer dit beschikbaar is of FTP wanneer dit gevraagd wordt in de meegeleverde URL.

De FTP-map moet het volgende bevatten:

  • één metadata CSV-bestand (gescheiden door een punt komma)

  • verschillende bronnen

  • (optioneel) verschillende CSV-schemabestanden

Opgelet

De FTP met meta CSV harvester ondersteunt enkel UTF-8 encoding

Metadata CSV-bestand

Het metadata CSV-bestand (standaard index.csv genoemd) is een door punt komma's gescheden bestand dat het volgende bevat:

  • rij met één header

  • verschillende andere rijen, waarvan elk gewijd is aan een dataset die moet worden geharvest

Voorbeeld:

1
2
3
name;title;description;theme;keyword;source_dataset;schema_file
chocolate-bars;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
random-id;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;

naam

titel

omschrijving

thema

kernwoord

source_dataset schema_file

chocoladerepen

Dataset met chocoladerepen

Een dataset met chocoladerepen

Health Chocolate chocolate.csv schema_chocolate.csv
random-id Venture Capital Investments

Statistieken van de durfkapitaalindustrie.

Economie, zaken

Venture capital;Investments;IPO;Acquisitions investments.json  
  • De kolom name bevat een identifier voor elke rij. Deze identifiers kunnen alles zijn zolang ze enkel letters en cijfers bevatten, uniek zijn in het hele bestand en na verloop van tijd niet wijzigen.

  • De CSV bronkolom (standaard source_dataset) bevat de bron voor elke rij.

  • Het optionele CSV-schema kolom (hier schema_file) bevat het schemabestand voor elke rij.

  • Elke andere kolom is een metadata (zie tabel hieronder voor een volledige lijst van aanvaarde kolomnamen). Opmerking: gebruik dubbele aanhalingstekens bij het begin en het einde van lijsten zoals "trefwoorden", waar u kommapunten moet gebruiken als scheidingsteken tussen woorden (bijv. "keyword1;keyword2").

Aanvaarde metadatakolommen

Sjabloon

Kolomnaam

Standaard

title, description, theme, keyword, license, language, timezone, modified, geographic_area_mode, geographic_area, publisher, references, attributions, oauth_scope

Gepersonaliseerd

custom.<metadata_name>

DCAT (indien geactiveerd)

dcat.created, dcat.issued, dcat.creator, dcat.contributor, dcat.contact_name, dcat.contact_email, dcat.accrualperiodicity, dcat.spatial, dcat.temporal, dcat.granularity, dcat.dataquality

DCAT-AP for CH (indien geactiveerd)

dcat_ap_ch.domain, dcat_ap_ch.rights

Inspire (indien geactiveerd)

inspire.theme, inspire.type, inspire.file_identifier, inspire.hierarchy_level, inspire.hierarchy_level_name, inspire.spatial_resolution, inspire.topologic_consistency, inspire.contact_individual_name, inspire.contact_position, inspire.contact_address, inspire.contact_email, inspire.identification_purpose, inspire.extend_description, inspire.extend_bounding_box_westbound_longitude, inspire.extend_bounding_box_eastbound_longitude, inspire.extend_bounding_box_southbound_latitude, inspire.extend_bounding_box_northbound_latitude

Semantic (indien geactiveerd)

semantic.rml_mapping, semantic.classes, semantic.properties

Bronnen

Bronnen kunnen de volgende zijn:

  • bestanden op de FTP-server, in dezelfde map als het index.csv-bestand of een subdirectory door het relatieve pad te specificeren naar het bestand in een kolom (bijv. "resources/chocolate.csv")

  • elke URL die wijst naar een ondersteund formaat

Wanneer de kolom leeg is, zal de dataset enkel metadata bevatten.

Bronnen in elk formaat dat ondersteund wordt door het platform kunnen worden geharvest. Aangezien de harvester sterk vertrouwt op het detecteren van automatische parameters voor de configuratie van de connector, moeten bestanden echter eenvoudig genoeg zijn om correct te worden geëxtraheerd.

Schema CSV-bestand

Voor elke bron kan de FTP-map een CSV schemabestand bevatten dat de labels en omschrijvingen definieert voor elk veld van de dataset.

De bestandsnaam van elk schemabestand moet geschreven zijn in de CSV schemakolom. Dit bestand heeft de volgende specificaties:

  • een kolom name bevat de naam van elk veld in kleine letters (bijv. voor een CSV-bron zouden dit de kolomnamen zijn in kleine letters)

  • een kolom label (optioneel) bevat het label van het overeenkomstige veld

  • een kolom description (optioneel) bevat de omschrijving van het overeenkomstige veld

1
2
3
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar

naam

label

omschrijving

onderneming

Onderneming

De onderneming die de repen vervaardigt

ref

Referentie

Het product-ID van de chocoladereep

De schemabestanden moeten geen rij voor elk veld bevatten en het is niet verplicht om een schemabestand op te geven voor elke dataset in de index.csv. In het laatste geval, laat de overeenkomstige cel leeg.

Parameters

Naam

Omschrijving

Voorbeeld

Host (host)

URL van de FTP-server

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Gebruiker (gebruiker)

Uw gebruikersnaam

 

Wachtwoord (wachtwoord)

Uw wachtwoord

 

Submap (subdir)

De map die de data bevat die u wil harvesten.

pub/documenten

Metadata CSV-bestandsnaam (metadata_file)

Het bestand dat de metadata en bestandsnamen bevat (zie hierboven voor meer precieze specificaties).

index.csv

Metadata CSV bronkolom (resource_location_column)

Deze kolom bevat een bestandsnaam of een URL met de datasetbron.

source_dataset

Metadata CSV schemakolom (resource_schema_column)

In deze kolom staat een bestandsnaam met het bronschema (labels en omschrijvingen van de kolommen).