> Tech > Analyse approfondie des données

Analyse approfondie des données

Tech - Par iTPro - Publié le 24 juin 2010
email

Le package de data mining de SQL Server 2000 peut construire deux types de modèles - arbre de décision et clustering - que l'on peut appliquer à  des bases de données OLAP ou à  des bases de données relationnelles. Le modèle clustering permet de trouver des regroupements généraux de données.

Par exemple, quand nous avons utilisé
ce modèle pour explorer les tables relationnelles
d’étude du bois, Analysis
Manager a groupé séparément le bois
enfoui et partiellement enfoui. Comme
l’ensemble de données géologiques
était plus complexe, nous avons
pu voir les relations en utilisant les
deux modèles. Toutefois, seul le modèle
clustering a fourni des résultats significatifs
sur les données géologiques.
Quand nous avons exploré deux catégories
de tailles de grains distinctes,
nous avons trouvé le profil qu’illustre
la figure 6. A côté du seaboard US
Eastern, la fraction sand s’est regroupée
en cluster dans le nord entre New
York City et Washington D.C. La fraction
clay n’avait pas de cluster régional
mais elle avait deux zones prédictives :
une vers le nord entre New York et
Washington et l’autre en partant de
Charleston plus vers le sud. Le modèle
clustering USGS a montré une forte
probabilité qu’il existe beaucoup plus
de constituants organiques et non organiques
dans les argiles et dans les
sables que dans les autres profils d’emplacements
et tailles de grains.
Elizabeth Heise avait soumis les
données d’étude du bois à  plusieurs
analyses statistiques pendant des années,
mais nous n’avons comparé les
interprétations de nos résultats statistiques
aux résultats statistiques originaux
qu’après avoir travaillé les données
dans SQL Server 2000. A l’original,
la soumission de ces données à  des
analyses statistiques traditionnelles
(ANalysis Of VAriance between groups
– ANOVA, t-test et régression linéaire)
demandait 16 mois et 234 analyses
pour obtenir des profils statistiquement
significatifs. En 3 jours, dont la
plupart de ce temps a été consacré à 
mettre les données dans des tables
SQL Server, nous avons produit les
mêmes profils statistiquement significatifs.
Nous avons ainsi confirmé la validité
des outils de modélisation et
d’analyse de SQL Server 2000.
Pour le chercheur scientifique en
quête d’outils d’analyse, la différence de
temps requise pour les anciennes et les
nouvelles analyses montre que l’on
peut obtenir une énorme puissance
d’analyse en plaçant les données dans
un modèle relationnel. Les chercheurs
peuvent utiliser la puissance et la vitesse
de SQL Server 2000 pour modéliser statistiquement
leurs données. Au début,
les scientifiques utiliseront peut-être à 
la fois SQL Server et les méthodes statistiques
traditionnelles. Mais, au fur et à 
mesure que leur confiance dans les résultats
s’affirmera, ils se convaincront
que SQL Server est à  lui seul fort utile.
Malgré les limitations – le nettoyage de
données complexe que nous avons dû
effectuer avec DTS, Access et Excel et
l’incapacité à  utiliser rapidement DTS
Lookup – nous avons constaté que le
modèle clustering de SQL Server 2000
est un moyen rapide et simple d’examiner
le contenu de bases de données relationnelles.

Téléchargez gratuitement cette ressource

Protection des Données : 10 Best Practices

Protection des Données : 10 Best Practices

Le TOP 10 des meilleures pratiques, processus et solutions de sécurité pour mettre en œuvre une protection efficace des données et limiter au maximum les répercutions d’une violation de données.

Tech - Par iTPro - Publié le 24 juin 2010