Apprentissage automatique et Python et science des données -140 heures de vidéo HD – Cours Udemy gratuits

Apprentissage automatique et Python et science des données -140 heures de vidéo HD – Cours Udemy gratuits

[ad_1]

Éditeur : JADA eLearning

Prix : 109 $

Durée du cours :

->

Langue du cours : Anglais

La description

Bonjour à tous et bienvenue à ce cours sur une introduction à l’apprentissage automatique

dans ce cours, nous aurons une introduction rapide à l’apprentissage automatique et cela ne sera pas très profond au sens mathématique, mais il aura une certaine quantité de déclencheur mathématique et ce que nous ferons dans ce cours couvrira différents paradigmes d’apprentissage automatique et avec un accent particulier sur les tâches de classification et de régression et vous présentera également divers autres paradigmes d’apprentissage automatique. Dans cet ensemble de conférences d’introduction, je donnerai un aperçu très rapide des différents types de paradigmes d’apprentissage automatique et, par conséquent, j’appelle cela des conférences d’apprentissage automatique. )

Une brève introduction en mettant l’accent sur le droit bref, donc le reste du cours serait une introduction plus allongée au droit de l’apprentissage automatique.

Alors, qu’est-ce que l’apprentissage automatique, je vais donc commencer par une définition canonique émise par Tom Mitchell en 97 et donc une machine ou un agent, je laisse délibérément le début indéfini parce que vous pouvez également l’appliquer à des machines autres que des agents biologiques, donc un agent est dit apprendre de l’expérience en ce qui concerne une certaine classe de tâches à droite et la mesure de performance P si les tâches de performance des apprenants dans la classe telles que mesurées par P s’améliorent avec l’expérience.

Donc, ce que nous obtenons de cette première chose, c’est que nous devons définir l’apprentissage par rapport à une classe de tâches spécifique, il peut s’agir de répondre à des examens dans un sujet particulier ou de diagnostiquer des patients souffrant d’une maladie spécifique.

Donc, mais nous devons être très prudents sur la définition de l’ensemble des tâches sur lesquelles nous allons définir ce droit d’apprentissage, et la deuxième chose dont nous avons besoin est d’une mesure de performance P à droite, donc en l’absence d’une mesure de performance P, vous commenceriez pour faire une déclaration vague comme oh je pense que quelque chose se passe bien qui semble être un changement et quelque chose appris est qu’il y a un apprentissage en cours et des trucs comme ça.

Donc, si vous voulez être plus clair sur la mesure de l’apprentissage ou non, vous devez d’abord définir une sorte de critère de performance.

Ainsi, par exemple, si vous parlez de répondre à des questions dans un examen, votre critère de performance pourrait très bien être le nombre de points que vous obtenez ou si vous parlez de diagnostiquer une maladie, votre mesure de la performance serait le nombre de patients que vous dites être le nombre de les patients qui n’ont pas eu de réaction indésirable aux médicaments que vous leur avez administrés peuvent avoir différentes manières de définir les mesures de performance en fonction de ce que vous recherchez et le troisième élément important ici est l’expérience correcte.

Donc, avec l’expérience, les performances doivent s’améliorer correctement et donc ce que nous entendons par expérience ici dans le cas de la rédaction d’examens, il pourrait s’agir de rédiger plus d’examens correctement, donc plus vous écrivez d’examens, mieux vous l’écrivez mieux. ou il peut s’agir d’un patient dans le cas du diagnostic de maladies comme plus il y a de patients que vous regardez, mieux vous devenez un bon diagnostic de la maladie.

Ce sont donc les trois composants, vous avez donc besoin d’une classe de tâches, vous avez besoin d’une mesure de la performance et vous avez besoin d’une expérience bien définie, donc ce type d’apprentissage là où vous apprenez à améliorer vos performances en fonction de l’expérience est connu comme ce type de apprendre où vous essayez où vous apprenez à améliorer vos performances avec l’expérience est connu sous le nom d’apprentissage inductif.

Et puis la base de l’apprentissage inductif remonte à plusieurs siècles, les gens débattent de l’apprentissage inductif depuis des centaines d’années maintenant et ce n’est que plus récemment que nous avons commencé à avoir des mécanismes plus quantifiés pour apprendre correctement. Donc, mais une chose que je signale toujours aux gens, c’est que si vous prenez cette définition avec une pincée de sel, vous pourriez par exemple penser que la tâche consiste à ajuster votre pied confortablement à droite.

Donc, vous pourriez dire si une pantoufle s’adapte confortablement à votre pied ou laissez-moi dire, je dis toujours que vous devriez prendre cette définition avec une pincée de sel, car prenez l’exemple d’une pantoufle que vous connaissez, donc la pantoufle est censée protéger votre pied droit et une mesure de performance pour la pantoufle serait de savoir si elle s’adapte à la jambe confortablement ou non ou si vous le savez, comme les gens disent qu’il se mord la jambe ou est-ce

Chaffin vos pieds à droite et avec une expérience que vous connaissez, car la pantoufle en sait de plus en plus sur votre pied tandis que vous continuez à varier la pantoufle pendant de plus longues périodes, il devient plus facile de bien ajuster votre pied, mesuré par le fait qu’il casse votre pied ou si ça vous mord le pied ou non.

Donc diriez-vous que la pantoufle est bien ajustée à votre pied par cette définition, oui, donc nous devons prendre cela avec une pincée de sel et donc tous les systèmes qui confirment cette définition de l’apprentissage ne peuvent pas être configurés pour apprendre généralement bien . (Reportez-vous à l’heure de la diapositive: 06:11) Donc, continuez donc il y a différents paradigmes d’apprentissage automatique dont nous parlerons et le premier est un apprentissage supervisé où vous apprenez une entrée à une carte de sortie à droite de sorte que vous recevez une sorte d’entrée. pourrait être une description du patient qui vient à la clinique et la sortie qui doit produire est de savoir si le patient a une certaine maladie ou non, donc cela a dû apprendre ce type de carte d’entrée à la sortie ou l’entrée pourrait être une sorte d’équation à droite, puis la sortie serait la réponse à la question ou ce pourrait être une question vraie ou fausse Je vous donne une description de la question que vous devez me donner vraie ou fausse comme sortie.

Et dans l’apprentissage supervisé, ce que vous faites essentiellement est sur une correspondance entre cette entrée et la sortie requise, si la sortie que vous recherchez se trouve être une sortie catégorique, comme s’il a une maladie ou non ou si la réponse est vrai ou faux, alors le problème d’apprentissage supervisé est appelé le problème de classification à droite et si la sortie se trouve être une valeur continue comme, alors combien de temps ce produit durera-t-il avant qu’il échoue à droite ou quelles sont les précipitations attendues demain à droite donc ce genre de problèmes, ils seraient appelés problèmes de régression. Ce sont des problèmes d’apprentissage supervisé où la sortie est une valeur continue et ils sont appelés problèmes de régression. Nous allons donc regarder plus en détail

la classification et la régression à mesure que nous progressons à droite, de sorte que la deuxième classe de problèmes est connue sous le nom de problèmes d’apprentissage non supervisés là où le but n’est pas vraiment de produire une sortie en réponse à une entrée mais étant donné un ensemble de données correctes, nous devons découvrir des modèles dans le droit de données. Donc, c’est plus de l’apprentissage sans surveillance des testicules qu’il n’y a pas de sortie réelle souhaitée que nous recherchons, nous sommes plus intéressés à trouver des modèles dans les données. Le clustering est donc une tâche, une tâche d’apprentissage non supervisée qui vous intéresse

pour trouver des groupes cohérents parmi le bon modèle d’entrée, par exemple, je pourrais regarder les clients qui viennent dans ma boutique à droite et je veux savoir s’il existe des catégories de clients, alors peut-être que les étudiants pourraient être une catégorie et les professionnels de l’informatique de couture pourraient être une autre catégorie et ainsi de suite et ainsi de suite et quand je regarde ce type de regroupement dans mes données, j’appellerais cela une tâche de clustering correcte.

Ainsi, l’autre paradigme d’apprentissage non supervisé populaire est connu sous le nom d’exploration de règles d’association ou d’exploration de modèles fréquents, où vous êtes intéressé à trouver une co-occurrence fréquente d’éléments directement dans les données qui vous sont fournies, donc chaque fois que A vient dans ma boutique, B vient également à ma boutique à droite. Donc, ce genre de cooccurrence, donc je peux toujours dire que si je vois A, il est très probable que B soit également dans ma boutique quelque part, vous savez, afin que je puisse apprendre ce genre d’associations entre les données. Et encore une fois, nous regardons cela plus en détail plus tard

ce sont, je veux dire, il existe de nombreuses variantes différentes de l’apprentissage supervisé et non supervisé, mais ce sont les principales que nous examinons, donc la troisième forme d’apprentissage qui s’appelle l’apprentissage par renforcement n’est ni de nature supervisée ni non supervisée et généralement ce sont des problèmes où vous apprennent à contrôler le comportement d’un système et je vais maintenant vous donner plus d’intuition

dans l’un des derniers modules, comme je l’ai dit plus tôt. (Reportez-vous à l’heure de la diapositive: 09:33) .Pour chaque tâche, vous devez donc avoir une sorte de mesure de la performance, donc si vous regardez la classification, la mesure de la performance sera une erreur de classification si généralement correcte.

Nous allons donc parler de nombreuses mesures de performance différentes pendant la durée de ce cours, mais la mesure de performance typique que vous voudriez utiliser cette erreur de classification est le nombre d’éléments ou le nombre de patients que j’ai obtenu incorrect, alors combien de ceux qui ne souffrent pas de la maladie prédisent aujourd’hui qu’ils avaient la maladie et combien d’entre eux avaient la maladie que j’ai ratée. Ce serait donc l’un des

les mesures que j’utiliserais et ce serait la mesure que nous voulons utiliser, mais nous verrons plus tard que, souvent, ce n’est pas possible d’apprendre réellement en ce qui concerne cette mesure. Nous utilisons donc d’autres formes à droite et de même pour la régression à nouveau, nous avons donc l’erreur de prédiction, supposons que je dis qu’il va pleuvoir comme 23 millimètres, puis qu’il finit par pleuvoir comme 49 centimètres, je ne sais pas, donc c’est une énorme erreur de prédiction à droite et dans termes de clustering c’est donc peu devient un peu plus difficile de définir des mesures de performance que nous ne faisons pas

savoir ce qu’est un bon algorithme de clustering car nous ne savons pas comment mesurer la qualité des clusters.

Donc, les gens proposent toutes sortes de mesures et l’une des plus populaires est une dispersion ou une propagation du cluster qui vous indique essentiellement la répartition des points qui appartiennent à un seul groupe si vous vous souvenez que nous sommes censés trouver groupes cohésifs, donc si le groupe n’est pas aussi cohésif, ils ne sont pas tous ensemble, alors vous diriez que le regroupement est de moins bonne qualité et si vous avez d’autres façons de mesurer des choses comme Alec vous le disait, donc si vous savez que les gens sont des étudiants de niveau collégial à droite et alors vous pouvez comprendre que combien quelle fraction de votre groupe ou des étudiants de niveau collégial.

Donc, vous pouvez faire ce genre d’évaluations externes, donc une mesure que les gens utilisent couramment est connue sous le nom de droit de pureté et dans l’exploration des règles de l’Association, nous utilisons une variété de mesures appelées soutien et confiance qui nécessitent un peu de travail pour expliquer le soutien en toute confiance afin Je vais le reporter et j’ai parlé des règles de l’Association en détail et plus dans les tâches d’apprentissage par renforcement, donc si nous nous souvenons, je vous ai dit qu’il apprenait à contrôler, donc vous allez avoir un coût pour contrôler le système et la mesure ici est coût et vous le feriez

tiens à minimiser le coût que vous allez accumuler tout en contrôlant le système. Ce sont donc les tâches de base de l’apprentissage automatique. (Reportez-vous à l’heure de la diapositive: 12:11) Il y a donc plusieurs défis lorsque vous essayez de créer une bonne solution d’apprentissage automatique, donc quelques-uns de ceux que j’ai énumérés sur cette diapositive à droite la première est que vous devez penser à quel point est un modèle que vous avez bien appris, donc j’ai parlé de quelques mesures sur la diapositive précédente, mais souvent celles-ci ne sont pas suffisantes, d’autres considérations pratiques entrent en jeu et

nous allons examiner certains d’entre eux vers toi, il y avait un milieu du cours quelque part à droite et la majeure partie du temps serait consacrée à répondre à la deuxième question qui est de savoir comment choisir un bon modèle. Donc, étant donné une sorte de données qui sera l’expérience dont nous parlons, étant donné cette expérience, comment choisirais-je comment choisir un bon modèle qui apprend en quelque sorte ce que je veux bien faire, comment cela s’améliore avec l’expérience, etc. alors comment choisir ce modèle et comment trouver les paramètres du modèle qui me donnent la bonne réponse. Voilà donc ce que nous allons passer une grande partie de notre temps dans ce

bien sûr, puis il y a tout un tas d’autres choses auxquelles vous devez vraiment répondre pour pouvoir construire une machine utile, des analyses de données complètes ou des solutions d’exploration de données comme: ai-je assez de données ai-je assez d’expérience pour dire que mon modèle est bon, c’est la qualité efficace des données qui pourrait être des erreurs dans les données, supposons que j’ai des données médicales et un est enregistré comme 225, alors qu’est-ce que cela signifie que cela pourrait être 225 jours auquel cas c’est un nombre raisonnable, il pourrait être 22,5 ans est à nouveau un nombre raisonnable ou 22,5 mois est raisonnable.

Mais si cela fait 225 ans, ce n’est pas un nombre raisonnable, donc il y a quelque chose qui ne va pas dans les données, alors comment gérez-vous ces choses ou le bruit dans les images ou les valeurs manquantes donc je parlerai brièvement de la gestion des valeurs manquantes plus tard dans le cours, mais cela est comme je l’ai mentionné au début est un cours d’apprentissage automatique à droite et ce n’est pas là n’est pas principalement il est principalement préoccupé par les algorithmes d’apprentissage automatique et les mathématiques et l’intuition derrière ceux-ci et pas nécessairement sur les questions de construction d’un pratique

systèmes basés sur cela. Je vais donc parler de bon nombre de ces questions pendant le cours, mais je tiens à répéter que ce ne sera pas le bon sujet et donc le prochain défi que j’ai énuméré ici est de savoir à quel point je peux être confiant des résultats et je veux que je nous parlerons certainement un peu parce que toute la prémisse de rapporter les résultats de l’apprentissage automatique dépend de la confiance que vous pouvez avoir des résultats corrects et la dernière question est-ce que je décris les données correctement.

C’est donc un domaine très, très dépendant et la question à laquelle vous ne pouvez répondre qu’avec votre expérience en tant qu’apprentissage automatique ou professionnel des données scientifiques ou avec le temps, mais il y a des questions typiques que vous souhaitez poser qui sont là les diapositives donc à partir du suivant dans le module suivant, nous examinons les différents paradigmes d’apprentissage plus en détail.

Si vous vous souvenez de l’apprentissage supervisé, nous avons parlé de l’expérience là où vous avez une sorte de description des données. Donc, dans ce cas, supposons que j’ai une base de données clients et je le décris par deux attributs ici, l’âge et le revenu.

J’ai donc chaque client qui vient dans ma boutique, je connais bien l’âge du client et le niveau de revenu des clients. (Reportez-vous à l’heure de la diapositive: 00:48) Et mon objectif est de prédire si le client achètera un ordinateur ou non. J’ai donc ce genre de données étiquetées qui me sont données pour construire un bon classificateur, rappelez-vous que nous avons parlé de classification où la sortie est une valeur discrète dans ce cas c’est oui ou non, oui c’est la personne va acheter un ordinateur, non, la personne n’achètera pas d’ordinateur.

Et la façon dont je décris l’entrée est à travers un ensemble d’attributs dans ce cas, nous considérons l’âge et le revenu comme les attributs qui décrivent le droit du client. Et maintenant, le but est de trouver une bonne fonction, de créer une cartographie qui prendra l’âge et le revenu comme entrée et cela vous donnera une sortie qui dit que la personne achètera l’ordinateur ou n’achètera pas l’ordinateur. Il existe donc de nombreuses façons différentes de créer cette fonction et étant donné que nous examinons actuellement une interprétation géométrique des données,

Je regarde les données comme des points dans l’espace. (Reportez-vous à l’heure de la diapositive: 01:57) L’une des façons les plus naturelles de penser à définir cette fonction consiste à tracer des lignes ou des courbes sur la droite de l’espace d’entrée.

Voici donc un exemple possible, alors ici j’ai tracé une ligne et tout à gauche de la ligne à droite. Ce sont donc des points qui sont rouges à droite, donc tout à gauche de la ligne sera classé comme n’achètera pas d’ordinateur, tout à droite de la ligne où la plupart des points de données sont bleus sera classé comme achètera un ordinateur . Alors, à quoi ressemblerait la fonction, elle ressemblerait à quelque chose comme si le revenu d’une personne se souvenait que l’axe des x était le revenu et l’axe des y était l’âge.

Donc, dans ce cas, il dit essentiellement que si le revenu de la personne est inférieur à une certaine valeur, inférieur à certains X, la personne n’achètera pas d’ordinateur. Si le revenu est supérieur à X, la personne achètera votre ordinateur. Voilà donc le genre de fonction simple que nous allons définir. Il remarquera simplement que de cette façon, nous ignorons complètement l’une des variables ici qui est l’âge. Donc, nous allons simplement par revenu, si le revenu est inférieur à certains X, alors la personne n’achètera pas d’ordinateur, si le revenu est supérieur à X, la personne achètera un ordinateur. C’est donc plus ou moins une bonne règle, je veux dire que la plupart des points sont corrects, à l’exception de quelques bons.

Il semble donc que oui, nous pouvons nous pouvons survivre avec cette bonne règle. Ce n’est donc pas trop mal, mais vous pouvez faire un peu mieux. (Reportez-vous à l’heure de la diapositive: 03:29) Très bien, alors maintenant nous avons ces deux points rouges que ceux qui gardent juste que les points sont du mauvais côté de la ligne plus tôt. Semble maintenant être du bon côté à droite, donc

tout à gauche de cette ligne n’achètera pas d’ordinateur, tout à droite achètera un ordinateur à droite, tout le monde à droite achètera un ordinateur. Donc, si vous pensez à ce qui s’est passé ici, nous avons donc bien amélioré notre mesure de performance. Donc, le coût de quelque chose, alors quel est le coût ici. Donc, plus tôt, nous ne prêtons attention qu’au droit au revenu, mais maintenant nous devons aussi prêter attention à l’âge. Donc, plus vous avez raison, plus le seuil de revenu auquel nous allons acheter un ordinateur est plus élevé

droite. Donc, plus vous êtes jeune, plus jeune signifie plus bas sur l’axe y, donc plus vous êtes jeune, le seuil de revenu auquel vous allez acheter un ordinateur est en bas à droite. Donc, c’est clair, donc plus vous avez raison, donc le seuil de revenu est déplacé vers la droite ici, donc plus vous êtes âgé, vous devez donc avoir un revenu plus élevé avant d’acheter un ordinateur et la colère que vous êtes votre seuil de revenu est plus bas, donc cela ne vous dérange pas d’acheter un ordinateur même si votre revenu est légèrement inférieur.

Alors maintenant, nous devons commencer à prêter attention à l’âge, mais l’avantage est que vous obtenez de bien meilleures performances, pouvez-vous faire mieux que cela, oui, d’accord. (Reportez-vous à l’heure de la diapositive: 04:54) Maintenant, presque tout est correct, sauf un point rouge embêtant, mais tout le reste est correct. Et donc ce qui s’est passé ici, nous obtenons de bien meilleures performances, mais au prix d’avoir un bon classificateur plus complexe. Donc, plus tôt, si vous y pensiez en termes géométriques, vous aviez donc d’abord une ligne parallèle à l’axe des y, je devais simplement définir une interception sur l’axe des x à droite. Donc, si X est inférieur à une certaine valeur, alors c’était une classe qui était supérieure à une certaine valeur qui était une autre classe.

Ensuite, la deuxième fonction était en fait une ligne d’affaiblissement comme ça, donc je devais définir à la fois l’ordonnée à l’origine et la pente droite. Et maintenant ici c’est maintenant un quadratique donc je dois bien définir trois paramètres. Je dois donc définir quelque chose comme ax2 + bx + c, j’ai donc défini l’ABC les trois paramètres afin de trouver le quadratique, et j’obtiens de meilleures performances. Pouvez-vous faire mieux que cela? (Reportez-vous à l’heure de la diapositive: 05:57)

D’accord, la somme pour ne semble pas correcte, semble être une fonction trop complexe juste pour obtenir ce bon point. Et je ne suis pas sûr que je ne sois même pas sûr du nombre de paramètres dont vous avez besoin pour dessiner cela parce que Microsoft utilise une sorte de spline PowerPoint utilise une sorte d’interpolation de spline pour dessiner cette courbe, je suis presque sûr que c’est beaucoup, beaucoup plus de paramètres que ça vaut autre chose à noter ici, c’est que ce point rouge particulier que vous voyez est en fait entouré d’une mer de droite bleue. Il est donc très probable qu’il y ait eu un problème là-bas, soit la personne a effectivement acheté un ordinateur et nous n’avons jamais enregistré qu’il a eu quel ordinateur ou il y a une raison extrémiste pour laquelle la personne entre dans la boutique, sûre qu’elle va acheter un ordinateur. ordinateur, mais reçoit ensuite un appel téléphonique disant qu’une urgence doit sortir immédiatement et qu’il est donc parti sans acheter d’ordinateur, il pourrait y avoir diverses raisons pour lesquelles ce bruit s’est produit et ce sera probablement le classificateur le plus approprié. Voilà donc le genre de problèmes auxquels je voudrais penser quelle est la complexité du classificateur que j’aimerais bien et par rapport à la précision du classificateur, alors à quel point

est le classificateur qui récupère réellement la bonne carte de sortie d’entrée et / ou leurs données de bruit dans l’entrée de l’expérience que je reçois est-elle propre ou y a-t-il du bruit et si oui, comment puis-je gérer ce bruit ce sont les types des questions que nous devons examiner bien. (Reportez-vous à l’heure de la diapositive: 07:31) Donc, ces types de lignes que nous avons tracées correctement cachent une hypothèse que nous faisons, le fait est que les données qui me parviennent sont des points discrets dans l’espace à droite et à partir de ces points discrets dans l’espace, j’ai besoin de généraliser et de pouvoir dire quelque chose sur tout l’espace d’état à droite, donc peu m’importe où le point de données se trouve sur les axes x et y à droite, je devrais pouvoir donner une étiquette à ce droit. Si je n’ai pas une sorte d’hypothèse sur ces lignes, et si vous n’avez pas une sorte d’hypothèse sur ces lignes, la seule chose que je puisse faire est que le même client revienne ou quelqu’un qui a exactement le même âge et le même revenu que que le client revienne, je peux vous dire si la personne va acheter un ordinateur ou non, mais je ne serai pas en mesure de vous parler d’autre chose en dehors de l’expérience. Donc, l’hypothèse que nous avons faite est que tout ce qui se trouve à gauche d’une ligne va faire une chose ou l’autre à droite, donc tout ce qui se trouve à gauche de la ligne n’achètera pas l’ordinateur tout à droite ou tout le monde à droite achètera un ordinateur ce est une hypothèse que j’ai faite l’hypothèse était que les Lions sont capables de séparer les personnes qui achètent de qui n’achètent pas les lignes ou les courbes ont été en mesure de séparer les personnes qui achèteront de qui n’achèteront pas, c’est donc une sorte d’hypothèse que j’ai faite sur la distribution des données d’entrée et des étiquettes de classe. Donc, ce genre d’hypothèses que nous faisons à propos de ces lignes est connu sous le nom de biais inductifs en général, le biais inductif a comme deux catégories différentes, l’une est appelée biais linguistique, qui est essentiellement le type de lignes que je vais dessiner, je vais dessiner des lignes droites ou je suis Je vais dessiner des courbes et dans quel ordre les polynômes vais-je regarder et ainsi de suite pour mon biais linguistique et ce biais est l’autre forme de biais inductif qui me dit comment dans quel ordre vais-je examiner tous ces possibles lignes à droite

. Donc, cela me donne le droit de biais de recherche, donc en combinant ces deux choses, nous sommes en mesure de généraliser à partir de quelques points de formation à tout l’espace des entrées, je rendrai cela plus formel au fur et à mesure, puis dans le jeu de modules la nuit prochaine à droite. (Reportez-vous à l’heure de la diapositive: 10:01) Et voici donc une façon de voir l’ensemble du processus, donc je vais vous donner un ensemble de données que nous appellerons l’ensemble de formation afin que l’ensemble de formation soit composé de: comme une entrée que nous appellerons comme X et une sortie que nous appelons comme Y à droite, donc je vais avoir un ensemble d’entrées j’ai X1, X2, X3, X4 de même j’aurai Y1, Y2, Y3, Y4 et T

ses données sont introduites dans une formation ces données sont introduites dans un algorithme de formation à droite et donc les données vont ressembler à ceci dans notre cas à droite. Alors rappelez-vous que nos X sont la variable d’entrée qui réussit toutes les entrées donc dans ce cas qui devraient avoir le revenu et l’âge, donc x1 est comme 30 000 et 25 et x2 est comme 80 000 et 45 et ainsi de suite et ainsi de suite les Y ou les

les étiquettes correspondent aux couleurs de l’image précédente à droite, donc y1 n’achète pas d’ordinateur Y2 achète un ordinateur et ainsi de suite, donc cela me donne essentiellement le codage des couleurs, donc y1 est essentiellement rouge et y2 est bleu à droite et je vraiment si je Je vais utiliser quelque chose de numérique, c’est ce que nous ferons plus tard. Je ne peux vraiment pas utiliser ces valeurs d’abord ou non numériquement et le X varie trop à droite. Donc, la première coordonnée dans le X est comme 30 000 et 80 000 et ainsi de suite, et la deuxième coordonnée est comme 25 et 45, ce qui est beaucoup plus petit, ce qui entraînera une sorte d’instabilité numérique, alors qu’est-ce qui finissent généralement par faire est de normaliser ceux-ci afin qu’ils se forment de manière appropriée dans la même plage afin que vous puissiez voir que j’ai essayé de normaliser ces valeurs X entre 0 et 1 à droite.

Donc, vous avez choisi un niveau de revenu de disons 2 lakhs, c’est le maximum et l’âge de 100 ans et vous pouvez voir les valeurs normalisées et de même pour les achats et non les achats, je les ai pris non pas comme – 1 et comme l’ordinateur est +1, ce sont des choix arbitraires , maintenant, mais plus tard, vous verrez qu’il y a des raisons spécifiques de vouloir bien choisir cet encodage, puis l’algorithme de formation obstrue correctement ces données et il produira un classificateur alors maintenant ce classificateur, je ne sais pas, je ne sais pas savoir si elle est bonne ou mauvaise à droite, donc nous avions une ligne droite dans le premier cas à droite une ligne parallèle à l’axe si nous ne connaissions pas le bien ou le mal et nous avions besoin d’un mécanisme par lequel nous évaluions ce droit. Alors, comment faisons-nous l’évaluation est généralement que vous avez ce qui est

appelé un ensemble de tests ou un ensemble de validation à droite donc c’est un autre ensemble de chemins x et y comme nous l’avions dans l’ensemble de formation, donc encore une fois dans l’ensemble de tests, nous savons quelles sont les étiquettes, c’est juste que nous ne le montrons pas au algorithme de formation, nous savons ce que sont les étiquettes car nous devons utiliser les étiquettes correctes pour évaluer si votre algorithme de trading fonctionne bien ou non, donc ce processus par lequel cette évaluation se produit est appelé validation plus tard de la validation. Si vous êtes satisfait de la qualité du classificateur, nous pouvons le conserver si vous n’êtes pas satisfait, ils reviennent à l’algorithme de formation et disent que je ne suis pas satisfait de ce que vous avez produit, donnez-moi quelque chose de différent, nous devons donc soit répéter l’algorithme à nouveau, nous allons à nouveau parcourir les données et essayer d’affiner l’estimation des paramètres ou nous pourrions même penser à changer certaines valeurs de paramètres, puis essayer de refaire l’algorithme de formation, mais c’est le processus général et nous verrons que beaucoup des différents algorithmes que nous regardons, regardez au cours de l’adaptation le cours de ces conférences suivent en fait ce genre de processus, donc ce qui se passe à l’intérieur de cette boîte verte. (Reportez-vous à l’heure de la diapositive: 13:48) Donc, à l’intérieur de l’algorithme de formation, il y aura cet agent d’apprentissage à droite qui prendra une entrée et il p

produit une sortie blanche à laquelle il pense être la bonne sortie, mais il la comparera à la cible réelle pourquoi elle a été donnée pour le droit d’entraînement, donc dans la formation, vous avez réellement une cible pourquoi, donc elle la comparera à une Ciblez pourquoi à droite, puis déterminez quelle est l’erreur et utilisez l’erreur pour changer l’agent correctement afin qu’il puisse produire la bonne sortie la prochaine fois. Ceci est essentiellement un processus itératif de sorte que vous voyez que les entrées produisent correctement une sortie Y ha

t et ensuite vous prenez le Y cible. Vous pouvez le comparer au chapeau en Y pour déterminer quelle est l’erreur et utiliser l’erreur pour changer à nouveau correctement l’agent et c’est en gros la façon dont la plupart de l’apprentissage tous les algorithmes fonctionneront le plus des algorithmes de classification ou même des algorithmes de régression l’ouvriront et nous verrons comment chacun de ceux-ci fonctionne car, nous continuons à droite il y a beaucoup, beaucoup d’applications. (Reportez-vous à l’heure de la diapositive: 14:46) Je veux dire que c’est trop nombreux pour être énumérés ici sont quelques exemples que vous pourriez regarder, par exemple un droit de détection de fraude, nous avons

certaines données où l’entrée est un ensemble de transactions effectuées par un utilisateur, puis vous pouvez marquer chaque transaction comme une transaction valide ou non, vous pouvez consulter l’analyse des sentiments que vous connaissez variée Lee appelée exploration d’opinion ou analyse de buzz, etc. Où je vous donne un un morceau de texte ou une critique écrite sur un produit ou un film et ensuite vous me dites si les films si la critique est positive ou négative et quels sont les points négatifs dont les gens parlent, etc., etc. Ceci est à nouveau une tâche de classification ou vous pouvez l’utiliser pour faire une prédiction de désabonnement où vous allez dire si un client qui est dans le système est susceptible de quitter votre système va continuer à utiliser votre produit ou à utiliser votre service pendant une plus longue période de temps, donc c’est essentiellement un taux de désabonnement, donc quand une personne quitte vos services, vous appelez la personne qui gagne et vous pouvez étiqueter ce que la personne est Channel ou non et je vous ai donné des exemples de diagnostic médical tout au long du diagnostic, si une personne a la maladie ou non, vous pouvez également l’utiliser pour l’analyse des risques de la manière légèrement indirecte dont j’ai parlé lorsque nous lorsque nous faisons les algorithmes de classification. Nous avons donc parlé de la façon dont nous souhaitons apprendre différentes lignes ou courbes qui peuvent séparer différentes classes dans l’apprentissage supervisé et, de sorte que ces courbes peuvent être représentées à l’aide de différentes structures et tout au long du cours, nous examinerons différents types de mécanismes d’apprentissage tels que les neurones artificiels les réseaux prennent en charge les arbres de décision des machines vectorielles, les voisins les plus proches et les réseaux bayésiens, et ceux-ci sont parmi les plus populaires et nous les examinons plus en détail au fur et à mesure que le cours progresse, de sorte qu’un autre problème d’apprentissage supervisé est celui de la prédiction. (Reportez-vous à l’heure de la diapositive: 16:45) Ou régression où la sortie que vous allez prédire

ict n’est plus une valeur discrète, ce n’est pas comme si nous allions acheter un ordinateur alors que pas acheter un ordinateur, c’est plutôt une valeur continue, voici donc un exemple où, à différents moments de la journée, vous avez enregistré la température, donc l’entrée dans le le système va être l’heure du jour et la sortie du système va être la température qui a été mesurée à un moment particulier au bon moment, donc vous allez acquérir votre expérience ou vos données d’entraînement vont prendre cette forme donc les points bleus vont

d serait votre entrée et les points rouges seraient les sorties que vous êtes censé prévoir. Donc, notez ici que les sorties sont continues ou que la valeur réelle est droite et vous pouvez donc penser à cela dans cet exemple de jouet comme des points à gauche étant le jour et les points à droite étant la nuit à droite et tout comme dans le cas précédent de la classification, donc nous pourrions essayer de faire ces ajustements aussi simples que possible dans ce cas qui serait de tracer une ligne aussi proche que possible de ces points maintenant vous voyez que comme dans le cas de la classification quand il choisit une solution simple il y a certains points où nous commettons de grosses erreurs afin que nous puissions essayer de résoudre ce problème.

And try to do something more fancy but you can see that while the daytime temperatures are more or less fine with the night times we seem to be doing something really off right because we are going off too much to thee the right-hand side all right how are you could do something more complex just like in the classification case where we wanted to get that one point right so we could try and fit all these temperatures that were given to us by looking at a sufficiently complex curve. And again this as we discussed earlier is probably not the right answer and you are probably in this case surprisingly or better off fitting the straight line rig

ht and so these kinds of solutions where we trying to fit the noise in the data we are trying to make the solution predict the noise in the training data correctly are known as over fitting over fit solut

ions and one of the things that we look to avoid in, in machine learning is to over fit to the training data. (Refer Slide Time: 19:21) So we will talk about this again and then new course right and so what we do is typically we would like to do what is called linear regression some of you might have come across this and of different circumstances and the typical aim in linear regression is to say take the error that your line is making so if you take an example point let us say I take any let us say I take an example point somewhere here righ

t. So this is the actual training data that is given to you and this is the prediction that your line is making at this point so this quantity is essentially the, the prediction error that this line is making and so what you do is you try to find that line that has the least prediction error right so you take the square of the errors that your prediction is making and then you try to minimize the, the sum of the squares of the errors why do we take the squares. (Refer Slide Time: 20:31) Because errors could be both positive or negative and we want to make sure that you are minimizing that regardless of the sign of the error okay and so with sufficient data right so a linear regression is simple enough you could just already using matrix inversions as we will see later but with many dimensions like the challenge is to avoid

over fitting like we talked about earlier and then there are many ways of avoiding this. And so I will again talk about this in detail when we look at linear regression

right so one point that I want to make is that linear regression is not as simple as it sounds right so here is an example so I have two input variables x1 and x2 right and if I try to fit a straight line with x1 and x2 I will probably end up with something like a1 x1 plus a2 x2 right and that looks like, like a plane in two dimensions right. But then if I just take these two dimensions and then transform them transform the input so instead of saying just the x1 and x2 if I say my input is going to look like x1 square x2 squared x1 x2 and then the x1 and x2 s it was in the beginning so instead of looking at a two-dimensional input if I am going to look at a 5 dimensional input right. So that wil

l and out now I am going to fit a line or a linear plane in this 5 dimensional input so that will be like a1 x1 squared plus a2 x2 square plus a3 x1 x2 plus a4 x1 plus a5 x2 now that is no longer the equation of a line in two dimensions right so that is the equation of a second-order polynomial in two dimensions but I can still think of this as doing linear regression because I am only fitting a function that is going to be linear in the input variables right so by choosing an appropriate transformation of the inputs. (Refer Slide Time: 22:38) I can fit any higher-order function so I could solve very complex problems using linear regression and so it is not really a weak method as you would think at first, first glance again we will

look at this in slightly more detail in the later lectures right and regression our prediction can be applied in a variety of places one popular places in time series prediction you could think about predicting rainfall in a certain region or how much you are going to spend on your telephone calls you could think of doing even classification using this.

If you think of you remember our encoding of plus 1 and minus 1 for the class labels so you could think of plus 1 and minus 1 as the outputs right and then you can fit a regression line regression curve to that and if the output is greater than 0 you would say this classis plus 1 its output is less than 0 you see the class is minus 1 so it could use the regression ideas to fitness will solve the classificat

ion problem and you could also do data addiction. So I really do not want to you know give you all the millions of data points that I have in my data set but what I would do is essentially fit the curve to that and then give you just the coefficients of the curve right. And more often than not that is sufficient for us to get a sense of the data and that brings us to the next application I have listed their which is trend analysis so I am not really interested in quite many times. je

am not interested in the actual values of the data but more in the, the trends so for example I have a solution that I am trying to measure the running times off and I am not really interested in the actual running time because with 37seconds to 38 seconds is not going to tell me much. But I would really like to know if the running time scales linearly or exponentially with the size of the important all right so those kinds of analysis again can be done using regression and in the last one here is again risk factor analysis like we had in classification and you can look at which are the factors that contribute most to the output so that brings us to the end of this module on supervised learning,,

Hello and welcome to this module on introduction to unsupervised learning, right. So in supervised learning we looked at how you will handle training data that had labels on it. (Refer Slide Time: 00:26) So this is this particular place this is a classification data set where red denotes one class and blue denotes the other class right. (Refer Slide Time: 00:35) And in unsupervised learning right so you basically have a lot of data that is given to you but they do not have any labels attached to them right so we look at first at the problem of clus

tering where your goal is to find groups of coherent or cohesive data points in this input space right so here is an example of possible clusters. (Refer Slide Time: 00:57) So those set of data points could form a cluster right and again now those set of data points could form a cluster and again those and those so there are like four clusters that we have identified in this in this setup so one thing to note here is that even in something like clustering so I need to have some form of a bias right so in this case the bias that I am having is in the shape of the cluster so I am assuming that the clusters are all ellipsoids right and therefore you know I have been drawing a specific shape curves for representing the clusters.

And also note that not all data points need to fall into clusters and there are a couple of points there that do not fall into any of the clusters this is primarily a artifact of me assuming that they are ellipsoids but still there are other points in the center is actually faraway from

all the other points in the in the data set to be considered as what are known as outliers so when you do clustering so there are two things so one is you are interested in finding cohesive groups of points and the second is you are also interested in finding data points that do not conform to the patterns in the input and these are known as outliers all right. (Refer Slide Time: 02:23) And that is as many mean different ways of an which you can accomplish clustering and we will look at a few in the course and the applications are numerous right so here are a few representative ones so one thing is to look at customer data right and try to discover the classes of customers you kno

w there are so earlier we looked at in the supervised learning case we looked at is that a customer will buy a computer or will not buy a computer as opposed to that we could just take all the customer data that you have and try to just group them into different kinds

of customers who come to your shop and then you could do some kind of targeted promotions and different classes of customers right. And this need not

necessarily come with labels you know I am not going to tell you that okay this customer is class 1 that customer is class 2 you are just going to find out which of the customers are more similar with each other all right. And as the second application which you have illustrated here is that I could do clustering on image pixels so that you could discover different regions in the image and then you could do some segmentation based on that different region so for example here it have a picture of a picture of a beach scene and then you are able to figure out the clouds and the sand and the sea and the tree from the image so that allows you to make more sense out of the image right.

Or you could do clustering on world usages right and you could discover synonyms and you could also do clustering on documents right and depending on which kind of documents are similar to each other and if I give you a collection of say 100,000 documents I might be able to figure out what are the different topics that are discussed in this collection of documents and many ways in which you can use clustering rule mining. (Refer Slide Time: 04:17)

And as I should give you a site about the usage of the word mining here so many of you might have heard of the term data mining and more often than not the purported data mining tasks are essentially machine learning problems right so it could be classification regression and so on so forth and the first problem that was essentially introduced as a mining problem and not as a learning problem was the one of mining frequent patterns and associations and that is one of the reasons

I call this Association rule mining as opposed to Association rule learning just to keep the historic connection intact right, so in Association rule mining we are interested in finding frequent patterns that occur in the input data and then we are looking at conditional dependencies among these patterns right.

And so for example if A and B occur together often right then I could say something like if A happens then B will happen let us suppose that so you have customers that are coming to your shop and whenever customer A visits your shop custom B also tags along with him right, so the next time you find customary

A somewhere in the shop so you can know that customer B is already there in the shop along with A. Or with very high confidence you could say that B is also in the shop at some somewhere else maybe not with A but somewhere else in the shop all right, so these are the kinds of rules that we are looking at Association rules which are conditional dependencies if A has come then B is also there right and so the Association rule mining process usually goes in two stages so the first thing is we find all frequent patterns. So A happens often so A is a customer that comes to measure the store often right and then I find that A and B are paths of customers that come to my store often so if I once I have that right A comes to my store often an A and B comes to my store often then I can derive associations from this kind this frequent patterns right and also you could do this in the variety of different settings you could find sequences in time series data right and where you could look at triggers for certain events. Or you could look at fault analysis right by looking at a sequence of events that happened and you can figure out which event occurs more often with the fault right or you could look at transactions data which is the most popular example given here is what is called Market Basket data so you go to a shop and you buy a bunch of things together and you put them in your basket so what is there in your basket right so this forms the transaction so you buy say eggs, milk and bread and so all of this go together in your basket. And then you can find out what are the frequently occurring patterns in this purchase data and

then you can make rules out of those or you could look at finding patterns and graphs that is typically used in social network analysis so which kind of interactions among entities happen often right so that is a that is another question that is what we looking at right. (Refer Slide Time: 07:31) So the most popular thing here is mining transactions so the most popular application here is mining transactions and as I mentioned earlier transaction is a collection o

f items that are bought together right and so here is a little bit of terminology and it is a set or a subset of items is often called an item set in the Association rule mining community and so the first step that you have to do is find fre

quent item sets right. And you can conclude that item set A if it is frequent implies item set B if both A and AUB or frequent item sets right so A and B are subset so AUB is another subset so if both A and AUB or frequent item sets then you can say that item set A implies item set B right and like I mentioned earlier so there are many applications here so you could think of predicting co-occurrence of events. (Refer Slide Time: 08:31) And Market Basket analysis and type series analysis like I mentioned earlier you could think of trigger events or false causes of False and so on so forth right so this brings us to the end of this module introducing unsupervised learning.

it is a 30 day refund period!! So you have nothing to lose!!

[ad_2]

Telecharger ici

Comments

No comments yet. Why don’t you start the discussion?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *