Manipulation de données avec Dplyr dans R


La manipulation des données est une compétence vitale d’analyse des données – en fait, c’est le fondement de l’analyse des données. Ce cours concerne l ‘outil de manipulation de données le plus efficace de R – dplyr!

En tant qu’analyste de données, vous passerez une grande partie de votre temps à préparer ou traiter vos données. L’objectif de la préparation des données est de convertir vos données brutes en une source de données de haute qualité, adaptée à l’analyse. Plus souvent qu’autrement, ce processus implique beaucoup de travail. Le paquet dplyr contient les outils qui peuvent rendre ce travail beaucoup plus facile.

dplyr présente quelques avantages importants par rapport aux autres outils ou fonctions de manipulation de données:

  • c’est beaucoup plus rapide (25 à 30 fois plus rapide)
  • son code est plus facile à écrire et à comprendre
  • il peut utiliser le chaînage pour créer des séquences de commandes, rendant ainsi le code encore plus propre et plus rapide à exécuter

Pour ces raisons, dplyr a rapidement lancé l’outil de manipulation de données le plus populaire parmi les scientifiques des données R. Lorsque vous aurez terminé ce cours, vous pourrez

lire plus  100% DE RÉDUCTION | Microsoft Excel pour les finances et la comptabilité

C’est un cours court, mais il se concentre sur les commandes et fonctions les plus essentielles du paquet dplyr, ces commandes que vous utiliserez probablement le plus souvent.

Voyons donc ce que vous allez apprendre dans ce cours.

La première section couvre les cinq commandes principales de dplyr. Ces commandes sont: filtrer, sélectionner, muter, organiser et résumer. Vous aurez besoin de ces commandes pratiquement chaque fois que vous travaillerez avec dplyr. Ils sont utilisés pour sous-ensembles de trames de données, calculer de nouvelles variables, trier des trames de données, calculer des indicateurs statistiques, etc. Voici quelques scénarios réels de leur utilisation:

  • vous devez extraire de l’ensemble de données de vos répondants les sujets masculins dont le revenu est supérieur à 30 000 $
  • vous devez calculer le revenu de chaque répondant par membre de la famille, en connaissant le revenu total et le nombre de membres de la famille
  • vous avez un ensemble de données avec 27 variables, mais vous n’en avez besoin que de 6 pour votre analyse (vous voulez donc supprimer les variables supplémentaires)
  • vous devez trier les données de vos employés par salaire
  • vous devez calculer la satisfaction moyenne envers un produit, connaître la satisfaction de chaque client individuel, etc.
lire plus  Comment réparer l'outil Snipping qui ne fonctionne pas sous Windows 11

La deuxième section aborde d’autres commandes et fonctions importantes de dplyr. Dans cette section, vous apprendrez:

  • comment compter l’observation dans un certain groupe
  • comment extraire un échantillon aléatoire de votre base de données
  • comment extraire les premières entrées de votre bloc de données, en fonction d’une variable donnée
  • comment visualiser la structure de votre jeu de données
  • comment utiliser les opérations définies dans dplyr (si vous avez utilisé ces opérations dans la base R, vous verrez que dplyr les amène à un tout autre niveau).

Dans la troisième section, vous commencerez à profiter de la véritable puissance de dplyr. Nous parlerons ici du chaînage – création de séquences de commandes dplyr qui accomplissent plusieurs tâches en un seul clic.

La quatrième section concerne la jonction de trames de données avec dplyr. Il s’agit d’un sujet très important, car vos données se retrouveront souvent dans plusieurs blocs de données. Vous devrez donc joindre ces trames de données en une seule, adaptée à vos analyses. Nous allons examiner cinq types de jointures disponibles dans dplyr: inner_join, semi_join, left_join, anti_join et full_join. Nous allons examiner la sortie de chaque type de jointure à l’aide d’un exemple simple.

lire plus  Como conseguir TRAFICO INCREÍBLE con PINTEREST para tu web - Cours Udemy gratuits

Dans la cinquième section, nous allons apprendre à combiner les commandes dplyr et ggplot2 (en utilisant le chaînage) pour créer des graphiques et des graphiques expressifs. Par exemple, si vous souhaitez représenter la répartition des revenus pour les matières ayant une formation supérieure uniquement, ou la relation entre le revenu et le niveau d’éducation pour les matières féminines uniquement, dans cette section, vous apprendrez exactement comment procéder.

Chaque commande est illustrée par une vidéo, la syntaxe et la sortie étant expliquées en détail. A la fin du cours, un grand nombre d’exercices pratiques sont proposés. En faisant ces exercices, vous appliquerez réellement dans la pratique ce que vous avez appris.

Rejoignez ce cours dès maintenant et acquérez une capacité d’analyse de données critique – la manipulation de données!



Telecharger ici

Laisser un commentaire

Aller au contenu principal