Module d'import

De Wiki Biolovision
Sauter à la navigation Sauter à la recherche


Remarques initiales


Le module d'import se trouve dans le menu "Participer -> importer un fichier".

Il permet à l'utilisateur ayant le droit "Droit d'import" de pouvoir importer dans sa base des fichiers xls ou xlsx. Vous devez donc attribuer ce droit aux personnes qui seront habilitées à utiliser le module d'import, ce droit n'est pas lié au droit d'admin.

Avant de commencer l'import, vous devez soit pour les imports de ses propres données par l'utilisateur lui octroyer ce droit, soit pour l'import de personnes tierces créer un compte d'archive. Vous pouvez en créer plusieurs, mais vous ne pouvez importer votre fichier que sur un seul à la fois.

Un compte d'archivage est un compte normal que vous créez selon la procédure habituelle, mais nous devons ensuite le transformer pour qu'il puisse être utilisé pour vos archives (écrire à support@biolovision.net en donnant le nom du compte à transformer). Cela est très rapide, mais il faut passer par cette étape avant de pouvoir faire des imports.

NB: chaque donnée à toujours deux comptes utilisateurs associés: le compte de celui qui à fait l'observation (observateur) et le compte de celui qui à transmis l'observation sur le site (transmetteur). Pour les données saisies directement sur le site, ces deux comptes sont bien souvent les mêmes. Une donnée est alors marquée comme suit:


1 merle noir (Turdus merula) [Bernard Cravant] pour une donnée transmise par l'observateur "Bernard Cravant" directement sur le site.

Lors de l'utilisation du module d'import, ce compte d'archive servira de compte "transmetteur", cela permet de charger des données de personne non inscrite sur le site et cela permet aussi de différencier des données rentrées par l'observateur lui-même et des données chargées par un tiers en passant par une importation. Il est possible, lors du processus d'import d'assigner automatiquement les données à un observateur existant. Par exemple :

1 merle noir (Turdus merula) [Bernard Cravant par Archive LPO] dans le cas où l'observateur "Bernard Cravant" est identifié et la donnée chargée par le compte "Archive LPO"

ou

1 merle noir (Turdus merula) [Archive LPO] dans le cas où l'observateur n'est pas connu. La donnée reste sur le compte "Archive LPO"

Pour bien comprendre, il y a donc 3 comptes utilisateurs impliqués au maximum dans le processus. Celui de l'opérateur, celui du "compte d'archive" et celui de l'observateur. Le compte de l'opérateur (celui qui fait la manipulation sur le site) n'est pas utilisé dans le processus si ce n'est que c'est à lui qu'il faut attribuer les droits d'imports. Ainsi, avec plusieurs "comptes d'archives", vous pouvez jongler avec les sources de données, sans avoir besoin de changer de compte à chaque fois en se déconnectant et reconnectant. Le compte de l'observateur peut être assigné ou non pendant le processus ou après (cf. ci-dessous)

Attention, avant de démarrer l'import d'un gros jeu de données, il est nécessaire de faire des tests avec un fichier contenant quelques données qu'il faut vérifier scrupuleusement de manière à pouvoir les effacer manuellement en cas de problème. En effet, il n'est pas possible d'effacer un gros jeu de données importé par erreur car le processus est très long et bloquant. Pour un import qui dure 1h, il faut compter 10h pour la suppression et aucune saisie ne peut être faite sur le site pendant ce laps de temps. Il faut donc vérifier deux fois avant de procéder à un import. Le système est très contraignant, mais certaines erreurs sont indétectables: Par exemple, si vous mettez le code atlas à la place de l'effectif. Il incombe à la personne effectuant l'import de s'assurer de la validité et l'exactitude des champs de son fichier.

Début de l'import


Pour commencer l'import :

  1. Vous devez choisir votre fichier excel en cliquant sur "Choisissez un fichier". Le module d'import est conçu pour des fichiers en xlsx, même si en principe, les xls passent aussi.
  2. Choisir le compte d'archivage. S'il n'y a qu'un seul compte d'archivage paramétré, la fenêtre de sélection du compte d'archivage n'apparaît pas. Un utilisateur ayant le droit d'import ET le droit d'import de ses propres observations (excel) peut importer un fichier d'archives personnelles ou collectives. Il peut donc choisir entre un compte d'archivage et son propre compte dans la liste des comptes d'archives
  3. Vous pouvez sélectionner le groupe taxonomique de votre fichier. Si vous sélectionnez "tous", vous ne pourrez importer que des champs standards (site, espèces, date, etc..) mais de tous les groupes taxonomiques confondu. Si vous sélectionnez un groupe taxonomique, vous pouvez importer plus de détail (combinaison âge et sexe, code atlas) mais seulement pour le groupe concerné (des données d'un autre groupe dans le fichier provoqueront l'échec de l'import).

Une fois que vous avez sélectionné un fichier, un compte et le groupe taxonomique, vous pouvez "démarrer l'import".


Import start.png


Description du fichier à importer


L'import est fait en deux étapes :

  1. validation du fichier
  2. import des données

Aucun import n'est effectué tant qu'il y a des erreurs détectées lors de la validation.

Pour lancer la phase de validation il faut paramétrer en détail votre import. Elle se présente ainsi, avec les 3 volets ouverts.

Masque import ferme.jpg


1er volet

Le 1er volet vous montre les 5 premières lignes de votre fichier, avec les colonnes lues (votre fichier doit obligatoirement contenir une et une seule ligne de titre) :

Masque import detail 1.jpg


2ème volet

Le 2ème volet vous permet de faire les correspondances entre le contenu de vos colonnes et le système :

Il y a plusieurs choses à savoir :

  • Pour la localisation, il y a plusieurs options, mais le système essaie toujours de trouver la meilleure localisation. Par exemple, si vous donnez les coordonnées précises en lat/lon et la commune, il utilisera lat/lon, car c'est plus précis. Si vous ne donnez que la commune, il chargera les données au centroïde de cette dernière. Le système importera sur le lieu-dit le plus proche. Si il y a trop de distance entre le lieudit le plus proche et la donnée (plus de 10km), le système refuse la donnée en disant qu'aucun lieu-dit n'est trouvable. Si le nom du lieu-dit est donné (code de l'ancienne base (renseigné au moment de l'import de lieudits), code du lieudit sur le site ou nom du lieu-dit complet) c'est lui qui prend la priorité sur les coordonnées. Notez qui si plusieurs lieudits on le même nom, le système génère une erreur et l'import n'est pas effectué. Les lieudits cachés ne sont pas pris en compte, c'est comme s'ils n'existaient pas. Voir également le 3ème volet ci-dessous.
  • Il y des champs qui peuvent être dupliqués (ceux avec un "+" à la fin de la ligne), ainsi vous pouvez paramétrer plusieurs commentaires ou combinaison de sexe/âge.
  • La 3ème colonne "Paramètres" est une manière de décrire le format de la colonne quand c'est nécessaire. Par exemple, le système de coordonnées utilisé ou la langue du nom des espèces (les majuscules ou les accents ne sons pas importants).
  • Pour l'import de listes complètes ou non ou formulaires, il faut renseigner l'heure de début et de fin, ainsi qu'avoir un id spécifique à chaque formulaire/liste dans une colonne dédiée. Attention cet id ne doit contenir que des chiffres.
Correspondance des colonnes .png



Détails de la colonne "Paramètres":

Si vous précisez un champ de "Colonnes du fichier" (donc, en mettant autre chose que "--IGNORER--"), vous devez remplir la 3ème colonne quand celle-ci existe (la valeur par défaut n'est pas toujours pertinente suivant les situations).

  • Il y a 6 possibilités de format pour la Date :
  1. Date Excel
  2. date (jj.mm.aaaa)
  3. date (mm.jj.aaaa)
  4. date (aaaa.mm.jj)
  5. date (aaaa.jj.mm)
  6. Timestamp

En principe, "Date Excel" convient dans la plupart des cas. Il est toutefois possible, pour certain fichier non généré par Excel par exemple lors d'un export d'une autre base de donnée ou d'un autre site web, que cela ne fonctionne pas. Dans ce cas de figure, il faut choisir une des autres options proposées. Il n'y a malheureusement pas vraiment de moyen simple de savoir si la colonne est encodée au format "Date Excel". D'une manière générale, on peut dire que si Excel est capable de changer le format de la date (Format de cellule->Date) sur la colonne en question, alors elle est encodée correctement. Si le format ne change pas quelque soit le choix fait dans Excel, alors il y a sans doute un problème et il faut choisir une des autres options. Pour les options date (x.x.x), l1e séparateur peut-être le tiret (-), le point (.), le slash (/) ou l'espace ( ), par exemple 20-07-2013 ou 20/07/2013 sont corrects. Le timestamp peut être utilisé par exemple lors d'extraction d'autres bases données.


  • L'altitude peut être donnée ou non. Si elle n'est pas donnée, elle est calculée automatiquement par le système, par contre cela ralenti sensiblement le temps de traitement des données. Il est donc conseillé de fournir l'altitude en amont.
  • Pour le code du lieu-dit, vous devez choisir le code de l'ancienne base ou le code actuel de la base en ligne.
  • Le champ commune doit être le Numéro INSEE ou le nom de la commune
  • Le champ département doit être le nom du département ou son code (correspond aux cantons en Suisse)
  • Les champs longitude / X(m) et latitude / X(m) doivent être précisés. Vous devez donc choisir quel est le format des coordonnées de votre fichier d'import parmi les possibilités suivantes, liées à la couverture géographique de votre site, par exemple :
  1. WGS84 géographique [D.d]
  2. WGS84 géographique [DMS]
  3. WGS84 planes - UTM (GRS80) [m]
  4. RGF93 planes - Lambert 93 [m]
  5. NTF planes - Lambert II étendu [m]
  6. NTF planes - Lambert I Nord [m]
  7. NTF planes - Lambert II Centre [m]
  8. NTF planes - Lambert III Sud [m]
  9. NTF géographique (Paris) [Grades]
  10. NTF planes - Lambert IV Corse [m]
  11. CH 1903 [m]

si vous choisissez UTM, le champs "fuseau UTM" doit être renseigné. Attention de ne pas oublier la lettre "U32" et pas seulement "32".

  • Pour l'espèce, il faut préciser si vous utilisez le code Biolovision ou bien le nom de l'espèce en français, allemand, anglais, scientifique, espagnol, italien, catalan, néerlandais ou basque (la liste dépend des langues ouvertes sur votre site)
  • L'effectif doit être un chiffre ou une des valeures x, X ou - (tiret). Si la valeure est un chiffre, alors l'effectif exact est considéré, dans le cas contraire, la donnée est chargée comme "non comptée".
  • Estimation peut contenir > (minimum), ~ (estimation), x ou X (non compté) et = ou rien pour indiquer une décompte exact.
  • Vous pouvez ajouter autant de champs commentaire et commentaire caché que vous le souhaitez, en ajoutant ou non le titre de la colonne de votre fichier. Par exemple, si vous paramétrez plusieurs champs "commentaire", vous aurez dans votre base l'ensemble de ces champs (avec ou non leur titre de colonne) dans votre champ commentaire séparé par un / : "ceci est un test / Numéro nichoir : 345 / météo : beau". "Numéro nichoir" et "météo" sont ici les titres de la colonne ajouté parce que l'option "Ajouter le titre de la colonne" à été cochée. C'est une manière de pouvoir importer toutes les infos de votre fichier même si elles ne correspondent pas aux champs disponibles de la 1ère colonne du module d'import (Par exemple, le code d'identification de la donnée dans votre ancienne base de donnée). Le principe est le même avec les commentaires cachés.
  • Le champ "age et sexe" n'apparaîtra que si vous avez choisi un groupe taxonomique unique. Là encore, les choix du menu déroulant dépendront de votre site et du groupe taxonomique choisi. Pour être compatible avec le système vous devez fournir une colonne de chiffre. Cela indique par exemple le nombre de "mâle adulte", "femelle", "1ère année", etc. Il faudra donc probablement adapter votre fichier pour que l'import de cette information soit possible.
  • Dans la colonne "donnée cachée" Il faudra mettre un 1 pour que le système la cache lors de l'importation et un 0 pour qu'elle ne le soit pas. Ceci-dit, les filtres automatiques de votre base sont actifs (et non désactivables), donc, par exemple, une donnée de Grand Tétras en Suisse sera masquée même si la valeur de la colonne est à 0.
  • Pour l'observateur, vous avez trois possibiltés : soit c'est un e-mail, soit le nom et le prénom, soit vous demandez au système de mettre le nom de l'observateur en remarque cachée pour pouvoir ensuite réattribuer les données à un compte d'un observateur déjà inscrit (c'est la fonction "remapper les archives de cet observateur"  dans la gestion des utilisateurs). Si vous choisissez "email" ou "nom prénom", le système recherche la personne en question. Si la personne à un homonyme, l'import est impossible. Idem si une personne n'est pas trouvée.
  • Le champ "code atlas" apparaîtra si vous avez uniquement choisi les oiseaux comme groupe taxonomique. Vous devez préciser si c'est la liste à 16 ou 19 codes atlas que vous utilisez (en principe les codes proposés sont ceux valables dans le pays. En France, il y a deux choix (16 ou 19 codes). L'option 19 codes est pour les sites qui utilisent les mêmes codes qu'en Suisses (A ce jour en principe tous). En interne, nous utilisons 25 codes pour pouvoir gérer toutes les configurations. Donc un fichier utilisant le mode 16 codes doit transmettre les codes 0 à 16 ou 30/40/50/99. C'est ensuite automatiquement modifié pour coller à nos codes internes. (0 => 0; 1 => 2; 2 => 3, ... 30 => 30 ...))
  • Le champ "code étude" doit contenir le raccourci d'un code existant dans votre système.
  • Le champs "comportement" doit être écrit dans la cellule selon la nomenclature suivante :

(L'intitulé exact doit être recopié exactement dans la cellule, une seule valeur par cellule/colonne)

Liste des comportements disponibles
AVES MAMMALIA ODONATA ORTHOPTERA RHOPALOCERA AMPHIBIA REPTILIA
Migration active Accouplement Territorial Accouplement Territorial Accouplement Accouplement
Se nourrit Se déplace Tandem Pond Accouplement Pond Pond
Dortoir / reposoir Se nourrit Accouplement Prédaté Pond Prédaté Prédaté
Prédaté Prédaté Pond Migration Héliothermie Héliotermie
Marquage de territoire Emergence Se nourrit Sous une plaque Sous une plaque
Rut, parade Migration Prédaté
Sous une plaque Prédaté



3ème volet


Le 3ème volet permet de faire des réglages supplémentaires et de procéder à des validations du fichier.


Masque import detail 3.jpg

  • Type de localisation précise

Il y a 3 manières d'interpréter les informations de localisation contenues dans le fichier source:

  1. "Précise" : les coordonnées sont précises, il faut donc obligatoirement les coord X et Y. Un lieu-dit ou une commune ne suffisent pas et ne sont d'ailleurs pas utilisés. Donc, sans coordonnées précises, ce mode n'est pas utilisable.
  2. "Lieu-dit" : les données sont associées au lieu-dit le plus proche (il n'y a pas de pointeur rouge qui caractèrise une localisation précise). Ici on peut exploiter le nom du lieu-dit, le code actuel ou le code de l'ancienne base si cela avait été chargé initialement. On peut aussi utiliser des coordonnées (comme en choisissant l'option précédente), mais dans ce cas, il cherchera le lieu-dit le plus proche (point jaune ou bleu) et ignorera les coordonnées précises.
  3. "Commune" : les données seront associées à la commune (centroïde, point vert). Tout est alors exploitable (code de l'ancienne base, code de la base actuelle, nom du lieu-dit complet, nom de la commune, numéro INSEE ou coordonnées XY (la couche spatiale est alors interrogée pour trouver la commune). Cette option est à éviter dans la mesure du possible car cela fausse pas mal de restitution en chargeant des données parfois loin de leur réelle position.

Le but de tout cela, c'est de ne pas avoir des données faussement précises. Il pourrait y avoir des données placées au centroïde d'une commune qui se retrouvaient chargées en "donnée précise" sur le site, ce qui est complètement faux (espèce pélagique sur l'église du village par exemple).

Attention, ces trois types de localisation ne peuvent pas être mixés, donc si vous avez des données des 3 types, il faudra faire l'import en trois fichiers séparés.


  • Vous pouvez cacher toutes les données (Cela supplante le champ "Donnée cachée" du volet précédent).
  • Vous pouvez demander au système de faire une vérification automatique de vos données en utilisant les filtres automatiques de votre base. Si des données déclenchent un filtre, l'import est alors impossible, il faut soit corriger la donnée, soit décocher la case. Vous pouvez donc utiliser cette option pour détecter les données exceptionnelles et si elles s'avèrent finalement valide, vous pouvez provoquer l'import en outre-passant la vérification automatique. Par exemple, le rapport d'erreur ou l'historique (comme ici) affichera les messages suivants :


Historique 2.png


  • Vous pouvez demander à ce que le système valide uniquement votre fichier, sans l'importer. Cela permet de tester un extrait d'un jeu de donnée pour trouver la bonne configuration avant de lançer l'import du jeu complet.


Démarrer la validation et l'import


Une fois l'import démarré, le système montre l'état d'avancement, puis le résultat et les erreurs

Il n'y a normalement pas de limite sur taille du fichier, c'est simplement une question de temps : plus le fichier est volumineux, plus l'import sera long. Vous pouvez compter sur 1000 données par minute, mais le timing varie si vous ne donnez pas l'altitude où la commune (ils sont alors calculés automatiquement par la matrice altitude et la couche des communes, mais cela prend plus de temps).

Le système procède à l'import (ou à la validation) de tout le fichier, mais s'arrête dès qu'il a trouvé 15 lignes avec des erreurs. Une description précise des erreurs est donnée pour chaque ligne ou cellule. Si la validation est menée avec succès, l'import proprement dit commence. Dans le cas contraire, vous pouvez modifier le fichier localement sur votre ordinateur et le télécharger de nouveau lorsque les erreurs sont corrigées, jusqu'à ce qu'il passe la validation. La configuration est conservée pour chaque fichier, vous n'avez donc pas besoin de refaire la configuration à chaque fois que vous recherchez un fichier corrigé.

Dans l'exemple ci-dessous, le code Biolovision était paramétré pour le nom de l'espèce. Le système cherche donc le code Biolovision de l'espèce et comme elle ne trouve que des noms français, un message d'erreur est généré et le numéro de la cellule fautive est indiqué.

Masque import detail 4.jpg

Importer des données provenant d'eBird

Il est également possible d'importer les données issues d'export provenant de eBird. Pour cela, il faut sélectionner le Groupe taxonomique "Oiseaux", le Profil "ebird", puis Utiliser dans le profil "Nom de la colonne".

Lors du choix du profil eBird, une case à cocher avec l'option "Reconstituer le formulaire eBird" apparaît. Cette option permet de reconstruire les formulaires à partir des informations transmises (date, lieu, durée d'observation). Il est nécessaire d'avoir les colonnes "Protocol", "Location ID" et "Duration (Min)" présentes dans l'export eBird. Seules les observations avec le protocole "eBird - Traveling Count" ou "eBird - Stationary Count" seront importées comme des formulaires.

Si la case à cocher "Reconstituer le formulaire eBird" n'est pas sélectionnée, toutes les observations seront importées comme de simples observations.

Import profil eBird.png


Remarques finales


Vous n'êtes pas obligé d'attendre la fin du processus. Une fois le processus lancé, vous pouvez même éteindre votre ordinateur, le système continuera l'import. Vous pourrez connaître le résultat de l'import ultérieurement en consultant l'historique des imports situé sur la première page du module d'import dès qu'un premier import est réalisé :


Masque import.jpg


Si vous êtes admin, vous voyez tous les imports. Si vous n'êtes pas admin (mais avec le "Droit d'import", vous ne voyez que les imports que vous avez effectué vous-même.

Des codes couleurs sont utilisé pour comprendre d'un coup d'oeil l'issue du processsus :

  • Bleu : la configuration est en cours (quelqu'un est sur la page de la phase 2 ou le processus à été abandonné dans la phase 2)
  • Rouge : échec de l'import, le détail est visible en cliquant sur le + en début de ligne
  • Vert : succès de l'import
  • Jaune : un symbole rotatif en début de ligne indique qu'un processus d'import ou de validation est en cours, vous pouvez cliquez sur le + pour voir le détail. (Attention, cette page ne se rafraichi pas automatiquement, il faut donc revenir sur la page pour voir changer l'état d'avancement). Un V vert indique qu'un processus de validation à été réussi avec succès mais qu'aucune donnée n'a été importée.

Par exemple, ci-dessous, de bas en haut, nous avons d'abord le fichier qui est refusé car l'espèce "1159" n'est pas reconnue dans la cellule F1368 (rouge avec la croix). Le fichier excel à été corrigé puis renvoyé avec la case "validation seulement" activée. Le fichier est accepté (jaune avec le V) mais aucune insertion n'a eut lieu. Enfin, l'import à été relançé une dernière fois en décochant "validation seulement" et le fichier à été traité avec succès (vert avec le V). 


Historique 3.png