Sources de données

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

La création de la source de données est des plus simples et revient à cliquer avec le bouton droit de la souris sur le dossier Sources de données (Data Sources) dans BIDS et à sélectionner Nouvelle source de données (New Data Source). L’Assistant Source de données (New Data Source Wizard)

vous guide tout au long du processus de sélection d’un serveur, d’une méthode d’authentification et d’une base de données.

Dans mon cas, j’ai choisi SRS01 comme serveur et WinBig en tant que base de données contenant la table lottery_load préremplie avec l’historique des tirages. Vues de source de données. Cette étape nécessite un peu plus de travail, principalement du fait que le simple choix de la table ne suffit pas pour l’analyse. J’avais besoin d’une requête personnalisée capable de fournir non seulement les numéros de loterie tirés, mais aussi des valeurs utilisables comme entrées pour l’auto-apprentissage des modèles d’exploration de données suivants.

Par exemple, prenons une hypothèse : vous essayez de prédire le type de produit qu’un client achètera sur la base de certains critères collectés auprès dudit client. La connaissance de la situation de ce dernier (par ex., revenu, statut martial, région de résidence) constitue un composant clé pour déterminer ses décisions d’achat potentielles. Toutes ces données associées sont entrées dans le modèle d’exploration de données pour les éléments prédictibles, notamment la probabilité que le client achètera tel ou tel article. Ce type d’analyse importe peu ici, vu la nature aléatoire d’une loterie, mais le fait de fournir ce type de données associées au modèle peut révéler des modèles cachés.

Dans le cas d’une prédiction pour la loterie, la date du tirage, en plus des numéros tirés, constitue une information pouvant constituer une entrée précieuse pour les modèles de prédiction. Je peux créer une vue de source de données basée sur une ou plusieurs tables source, comme dans le cas de la table lottery_load, mais je peux aussi recourir à une requête nommée au lieu d’une table, afin d’obtenir plus de souplesse dans mon schéma : l’utilisation d’une requête nommée me permet de relier les tables sousjacentes en une seule entité, puis de filtrer les colonnes employées et les données sur la base de ces critères.

Le moyen le plus facile de créer une vue de source de données basée sur une requête nommée consiste à cliquer avec le bouton droit de la souris sur le dossier Vues de source de données (Data Source Views) dans l’Explorateur de solutions et à sélectionner Nouvelle vue de source de données (New Data Source View) pour lancer l’assistant. J’ai alors sélectionné la table de la source de données WinBig que j’ai créée à l’étape précédente, puis j’ai parcouru l’assistant en sélectionnant la table lottery_load et en cliquant sur Terminer (Finish) pour créer la vue de source de données nommée WinBig.dsv.

Toutefois, j’ai ensuite la possibilité de cliquer avec le bouton droit de la souris sur l’en-tête de la table et de sélectionner Remplacer la table (Replace Table), puis Par la nouvelle requête nommée (With New Named Query). Les requêtes nommées permettent de définir plus facilement de nouvelles colonnes qui ne figurent pas dans la table de base. Avec une requête nommée, j’ai ajouté plusieurs nouveaux champs à utiliser comme éléments d’entrée afin d’aider les algorithmes du modèle d’exploration de données à prédire les numéros de loterie.

Les champs ajoutés à la table de base sont tous dérivés du champ DrawDate. Le fait de connaître le jour de la semaine, par exemple, peut révéler des tendances importantes dans la requête résultante. Le mois et l’année du tirage pourraient être tout aussi importants. La connaissance de la phase de la lune, des horaires des marées, des prévisions météorologiques locales et de la pression barométrique pourrait être tout aussi raisonnable dans cet exercice, mais nous devons travailler avec les données disponibles.

Le listing 1 présente la requête nommée qui va piloter les modèles d’exploration de données. Notez, à cet égard, les nouvelles colonnes dérivées du champ DrawDate. Le champ WeekPart peut se révéler important pendant l’auto-apprentissage des modèles car il y a deux tirages par semaine, le mercredi et le samedi, soit les quatrième et septième jours de la semaine pour la fonction WeekPart.

Téléchargez cette ressource

Percer le brouillard des rançongiciels

Explorez les méandres d’une investigation de ransomware, avec les experts de Palo Alto Networks et Unit 42 pour faire la lumière dans la nébuleuse des rançongiciels. Plongez au cœur de l’enquête pour comprendre les méthodes, les outils et les tactiques utilisés par les acteurs de la menace. Découvrez comment prévenir les attaques, les contrer et minimiser leur impact. Des enseignements indispensables aux équipes cyber.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Les articles les plus consultés