Accueil Blogues Martin Fairbank Exploration de données 101

Exploration de données 101

Envoyer Imprimer PDF

J'ai entendu dire récemment qu'il s'était généré plus de données dans les dix dernières minutes qu'au cours de la période se situant entre la préhistoire et 2003. Mesurer les choses et stocker les données acquises est devenu beaucoup plus facile et moins cher au fil des ans. La plupart des usines de pâtes et papiers ont des années de données dans leurs systèmes d'historisation des données qui peuvent être exploitées pour leur valeur. Mais où devriez-vous commencer?

Pendant de nombreuses années, j'ai récolté manuellement des données sur l'efficacité énergétique des voitures que j'ai possédées, mais je n'ai jamais fait grand-chose avec ces données. J'ai donc pensé utiliser cet article pour faire un voyage avec vous dans un exercice d'exploration de données!

L'exploration de données consiste à comprendre les tendances, puis à utiliser ces informations pour optimiser un système. Ce dernier transforme les données en informations qui, combinées à la connaissance des processus, peut aider à la prise de décision.

Au début, vous regardez habituellement vos données sous forme de série chronologique. Vous devrez peut-être faire beaucoup de travail pour obtenir vos données dans ce format comme, par exemple, les importer et les convertir en unités compréhensibles. C'est ce qu'on appelle le pré-traitement des données. Voici toutes mes données de consommation de carburant de 1991 à 2017, calculées à partir de la distance parcourue entre les remplissages d'essence.

Regroupement

La première chose que vous remarquerez à propos de cette série temporelle est qu'il y a trois groupes de points, correspondant à trois voitures différentes. Isoler des groupes de données qui se comportent différemment s'appelle "regrouper" les données. Afin de comprendre les tendances, il est important de se concentrer sur un groupe à la fois et il peut être nécessaire de faire un "nettoyage" et un filtrage des données. On peut voir quelques points très élevés au milieu du groupe Voiture 2. Ces points correspondent à un voyage de plusieurs jours où j'ai transporté une remorque, ce qui a augmenté la consommation de carburant. Je supprimerais ces points si j'essayais de modéliser le "processus normal".

Reconnaissance des tendances

À la droite des données de Voiture 2 et à gauche des données de Voiture 3, vous pouvez voir que les données montent et descendent. C'était une période où les voitures étaient utilisées presque exclusivement pour la conduite sur autoroute. Je me suis concentré sur les données de la voiture 2 pour la période ci-dessous.

C'est clairement une tendance saisonnière, avec une meilleure économie de carburant en été. Si je veux développer un modèle pour cela, il faudrait que j'aie la température correspondante et, il s'avère qu'Environnement Canada a des données historiques de température qu'on peut télécharger à partir de son site Web. Après quelques manipulations, j'ai pu établir une corrélation approximative entre la température diurne et le rendement énergétique, comme l'indique le graphique ci-dessous. Celui-ci montre que, pour toutes les baisses de température d'environ 5 ?, la voiture utilisait environ 0,2 L de plus par 100 km.

Évidemment, je n'ai pas un très bon modèle ici. D'autres facteurs entrent en jeu: la vitesse moyenne (à 120 km/h, un véhicule consomme environ 20% de carburant de plus qu'à 100 km/h), la charge transportée, la direction et la vitesse du vent... Dans cet exemple, je n'ai pas ces données, mais vous vous comprenez le concept. En construisant un bon modèle basé sur les données passées et en incluant toutes les variables qui influencent le processus, vous pouvez prédire ce qu'il adviendra de votre processus dans le futur. Cela pourra activer les paramètres d'alarme lorsque le processus ne fonctionnera pas correctement ou produira éventuellement des systèmes plus sophistiqués tels que la commande prédictive par modèle.

Basée sur mon expérience, l'exploration de données fonctionne mieux avec certains ensembles de données que d'autres. Plus le processus est simple et moins il est influencé par des paramètres aléatoires ou difficiles à mesurer, plus le modèle sera robuste. Généralement, si vous essayez de modéliser des processus énergétiques, tels que ceux associés à une chaudière, un rebouilleur ou une turbine, vous pouvez développer un bon modèle, car la plupart des relations dans le modèle sont linéaires et le nombre de variables requises n'est pas trop élevé. Cela peut également conduire à de bonnes possibilités d'économies, car toute amélioration de l'efficacité énergétique est facile à traduire en dollars.

Par contre, l'exploration de données ne fonctionne pas bien pour des phénomènes complexes tels que les ruptures au bout humide sur une machine à papier. Il y a beaucoup de choses qui peuvent causer une rupture, et certaines d'entre elles, telles que l'accumulation de poix ou de vase, sont difficiles à mesurer et à prédire. Il y a une vingtaine d'années, l'industrie pensait que les caméras vidéo à haute vitesse permettraient de développer une compréhension approfondie des causes de rupture et élimineraient les ruptures, mais tout comme l'exploration de données, les caméras ne sont qu'un autre outil pouvant être utilisé par un papetier intelligent pour tenter d'atteindre la cible de zéro rupture.

Des logiciels sont disponibles pour prendre en charge le travail fastidieux d'exploration des données. Bien que j'aie créé les graphiques dans ce blog en utilisant Excel, ce type de logiciels peut gérer l'importation de données, le nettoyage et le filtrage de données, le regroupement, la visualisation de données, la modélisation et d'autres tâches beaucoup plus facilement. Un exemple est le logiciel EXPLORE, disponible auprès de Canmet Energie, qui a présenté un atelier sur ce sujet à PaperWeek Canada en février dernier.


Martin Fairbank a travaillé dans le domaine de la foresterie pendant 31 ans, y compris de nombreuses années pour un producteur de pâtes et papier et deux ans avec Ressources Naturelles Canada. Détenteur d'un PhD en chimie et d'une expérience en amélioration de procédés, développement de produits, gestion d'énergie et de production rentable, Martin est actuellement un conseiller indépendant basé à Montréal. Il est également écrivain et a publié récemment Resolute Roots qui relate les 200 ans d'histoire de la compagnie Produits forestiers Résolu et de ses prédécesseurs.

Cette adresse email est protégée contre les robots des spammeurs, vous devez activer Javascript pour la voir.


Martin Fairbank Consulting

Expérience Industrielle

  • Pâtes et Papiers
  • Recyclage des Matériaux
  • Bioraffinerie
  • Fabrication
  • Gouvernement

Services

  • Marchés du Carbone
    . Crédits carbone
    . Empreinte carbone
    . Analyse de cycle de vie
  • Évaluation des Projets
    . Rédaction des propositions pour financement gouvernemental
    . Évaluation des projets techniques pour les agences gouvernementales
  • Règlementations des Produits Chimiques
    . Conseil en matière d'observation des règlements
    . Interprétation des questionnaires chimiques
  • Amélioration Continue
    . Amélioration des procédés
    . Production au plus juste

 

 
paptac-portal

inscription-infolettre

acces-infolettres
le maitre papetier
buckman banner
paper & beyond
fpinnovations banner
cristini banner
le maitre papetier