> Data > Dénicher des profils et des tendances

Dénicher des profils et des tendances

Data - Par iTPro.fr - Publié le 24 juin 2010
email

par Christine Y. Mato et Greg Meyer - Mis en ligne le 17/03/2004

Une application géologique de data warehousing et de data mining avec SQL Server 2000

Pour notre master's degree program en Management of Information Systems, nous avons dû réaliser un projet d'analyse visant à  apprendre les nuances du data mining en utilisant des données « réelles ». Notre travail précédent utilisait des données qui avaient été nettoyées afin que les élèves utilisateurs obtiennent tous les mêmes résultats...Notre école avait choisi SQL Server 2000 parce qu'il offre la fonctionnalité d'une base de données d'entreprise associée à  un faible prix et à  une maintenance facile. Nous étions libres de choisir le sujet d'analyse. Beaucoup d'autres élèves ont choisi les analyses de marketing ou de vente, mais comme nous avions un bagage de sciences naturelles, nous avons préféré les données géologiques et biologiques. En créant un data warehouse et en y pratiquant le data mining, nous avons constaté que SQL Server 2000 fournit un moyen rapide pour observer statistiquement les données géologiques.
Les scientifiques du monde entier amassent sans cesse de grandes quantités de données géologiques. C'est à  partir de ces sources que nous avons obtenu nos données échantillon. Comme SQL Server est plus facile à  utiliser que la méthodologie statistique traditionnelle, nous avons décidé de rassembler les sources de données existantes dans un data warehouse SQL Server. Nous avons dû aussi utiliser SQL Server pour vérifier les analyses originales des données géologiques, qui avaient été effectuées par des méthodes statistiques usuelles. Nous avons construit deux data warehouses à  partir de deux sources de données géologiques différentes. Ces sources étaient comparativement petites parce que notre projet était académique ; mais nous pensons que les constatations garderaient toute leur pertinence quelle que soit la taille de l'ensemble de données. Un ensemble de données constitué de plus de 20 fichiers provenait d'une étude de Eastern Continental Shelf qui avait été collectée et analysée par le United States Geological Survey (USGS) entre 1955 et 1970. La seconde base de données contenait les résultats d'une étude des effets de la décomposition de l'enfouissement de six espèces de bois différentes aux Bahamas et dans le Golfe du Mexique. La quantité de bois qui se conserve ou se désagrège dans l'eau dans le monde est phénoménale. La décomposition du bois produit des gaz à  effet de serre, mais ce phénomène cesse quand le bois est enfoui. Cette étude est intéressante parce qu'elle procure aux scientifiques des informations supplémentaires précieuses sur les sources d'émission d'hydrocarbures dans notre atmosphère.

Les résultats d’USGS dans un ensemble
de données comportant 20 fichiers
texte, avec des types de données
analytiques et descriptifs, ont été précédemment
publiés par le National
Geophysics Data Center (NGDC). (Voir
Hathaway, John C., 1971 Data File,
Continental Margin Program, Atlantic
Coast of the United States : WHOI
Reference No. 71-15.) Nous avons créé
une clé primaire composite basée sur
les colonnes existantes qui contenaient
le numéro de station, l’ID
échantillon, et les lettres de souséchantillon.
Puis nous avons défini la
granularité au sous-échantillon (le
code sous-échantillon identifie les
échantillons divisés à  partir d’un
échantillon plus grand). La figure 1
montre les données d’échantillon
provenant de l’un des fichiers.
Pour nettoyer les données USGS
originales, nous les avons d’abord importées
dans Microsoft Excel puis dans
Microsoft Access, et finalement dans
SQL Server 2000. Nous avons emprunté
ce circuit sinueux en raison de
la grande variation du format et de la
définition des données dans les fichiers
texte. Les fonctions d’import
dans SQL Server et Access n’étaient pas
aussi robustes que celles d’Excel. En
utilisant l’Excel Text Import Wizard,
nous avons défini manuellement les
largeurs et les formats de champs pour
chaque colonne, créant de nouvelles
colonnes pour les données amalgamées
et divisant les champs de données.
Cette opération a éliminé une
grande partie de la variation des données.
Nous avons ensuite chargé les
données dans Access en utilisant l’option
import external data d’Access.
Pendant l’import, Access a trouvé
d’autres erreurs de formatage de données
; il a stocké les numéros de lignes
des données incompatibles dans un
fichier d’erreurs d’import pour référence.
La figure 2 montre l’un des
problèmes que nous avons rencontrés
: les formats de données dans deux colonnes changeaient de numérique
à  alphabétique, puis revenaient à 
numérique. Pour corriger les erreurs,
nous avons utilisé une combinaison de
techniques d’édition dans Excel et
avons écrit du code SQL pour reformater
les données dans la table Access.
Après quoi, nous avons édité manuellement
certaines des données et utilisé
des requêtes Update pour transformer
d’autres données en leur équivalent
numérique.
Nous n’avons pas pu importer certains
fichiers dans Access en raison
d’erreurs d’incompatibilité de type de
données dans le champ Sample ID. Ce
champ est alphanumérique, mais
Access essayait de le formater comme
un entier. Nous avons essayé d’utiliser
l’Excel Text Import Wizard pour modifier
le format de données ; mais, quand
nous avons importé les données dans
Access, celui-ci n’a pas reconnu le format
caractère Excel. Nous avons alors
essayé de créer la table dans Access et
d’importer des données externes, mais
Access a continué à  supplanter le format
caractère. Pour contourner la difficulté,
nous avons chargé les données
dans SQL Server, en déclarant le
champ comme un type caractère puis
nous les avons réimportées dans
Access pour l’identification des
champs et le nettoyage des données.
Nous avons constaté que les manipulations
de tables étaient plus faciles
dans Access 2000 que dans SQL Server
2000.

Téléchargez cette ressource

Les mégatendances cybersécurité et cyber protection 2024

Les mégatendances cybersécurité et cyber protection 2024

L'évolution du paysage des menaces et les conséquences sur votre infrastructure, vos outils de contrôles de sécurité IT existants. EPP, XDR, EDR, IA, découvrez la synthèse des conseils et recommandations à appliquer dans votre organisation.

Data - Par iTPro.fr - Publié le 24 juin 2010