Zelfstudie over machine learning voor beginners: wat is de basis van ML

Wat is machinaal leren?

Machine leren is een systeem van computeralgoritmen dat kan leren van voorbeelden door zelfverbetering zonder expliciet gecodeerd te worden door een programmeur. Machine learning is een onderdeel van kunstmatige intelligentie dat data combineert met statistische tools om een ​​output te voorspellen die gebruikt kan worden om bruikbare inzichten te verkrijgen.

De doorbraak komt met het idee dat een machine op unieke wijze van de gegevens (dwz bijvoorbeeld) kan leren om nauwkeurige resultaten te produceren. Machine learning is nauw verwant aan datamining en Bayesiaanse voorspellende modellen. De machine ontvangt gegevens als invoer en gebruikt een algoritme om antwoorden te formuleren.

Een typische machine learning-taak is het geven van een aanbeveling. Voor degenen die een Netflix account zijn alle aanbevelingen van films of series gebaseerd op de historische gegevens van de gebruiker. Technologiebedrijven gebruiken zonder toezicht leren om de gebruikerservaring te verbeteren met gepersonaliseerde aanbevelingen.

Machine learning wordt ook gebruikt voor een verscheidenheid aan taken, zoals fraudedetectie, voorspellend onderhoud, portfolio-optimalisatie, het automatiseren van taken, enzovoort.

Machine learning versus traditioneel programmeren

Traditionele programmering verschilt aanzienlijk van machine learning. Bij traditionele programmering codeert een programmeur alle regels in overleg met een expert in de branche waarvoor software wordt ontwikkeld. Elke regel is gebaseerd op een logische basis; de machine voert een output uit na de logische verklaring. Wanneer het systeem complexer wordt, moeten er meer regels worden geschreven. Het kan snel onhoudbaar worden om te onderhouden.

Traditionele programmering
Traditionele programmering

Machine learning zou dit probleem moeten oplossen. De machine leert hoe de invoer- en uitvoergegevens gecorreleerd zijn en schrijft een regel. De programmeurs hoeven niet elke keer dat er nieuwe gegevens zijn, nieuwe regels te schrijven. De algoritmen passen zich aan als reactie op nieuwe gegevens en ervaringen om de effectiviteit in de loop van de tijd te verbeteren.

Machine leren

Machine leren

Hoe werkt machinaal leren?

In deze basiscursus Machine learning voor beginners leren we hoe Machine Learning (ML) werkt:

Machine learning is het brein waar al het leren plaatsvindt. De manier waarop de machine leert is vergelijkbaar met die van de mens. Mensen leren van ervaringen. Hoe meer we weten, hoe gemakkelijker we kunnen voorspellen. Naar analogie: wanneer we met een onbekende situatie worden geconfronteerd, is de kans op succes kleiner dan in de bekende situatie. Machines worden op dezelfde manier getraind. Om een ​​nauwkeurige voorspelling te doen, ziet de machine een voorbeeld. Als we de machine een soortgelijk voorbeeld geven, kan deze de uitkomst achterhalen. Maar net als een mens kan de machine moeilijk voorspellen als hij een voorheen onzichtbaar voorbeeld voedt.

Het kerndoel van machine learning is het leren en gevolgtrekking. Allereerst leert de machine door het ontdekken van patronen. Deze ontdekking is gedaan dankzij de gegevens. Een cruciaal onderdeel van de datawetenschapper is om zorgvuldig te kiezen welke gegevens aan de machine worden verstrekt. De lijst met attributen die worden gebruikt om een ​​probleem op te lossen, wordt a genoemd voorzien van vector. U kunt een kenmerkvector zien als een subset van gegevens die wordt gebruikt om een ​​probleem aan te pakken.

De machine gebruikt een aantal geavanceerde algoritmes om de werkelijkheid te vereenvoudigen en deze ontdekking om te zetten in een modelDaarom wordt de leerfase gebruikt om de data te beschrijven en samen te vatten in een model.

Machine learning-werk

De machine probeert bijvoorbeeld de relatie te begrijpen tussen het loon van een individu en de kans om naar een chique restaurant te gaan. Het blijkt dat de machine een positieve relatie vindt tussen loon en naar een luxe restaurant gaan: dit is het model

Afleiden

Wanneer het model is gebouwd, is het mogelijk om te testen hoe krachtig het is op nooit eerder vertoonde gegevens. De nieuwe gegevens worden omgezet in een kenmerkenvector, doorlopen het model en geven een voorspelling. Dit is het mooie van machinaal leren. Het is niet nodig om de regels bij te werken of het model opnieuw te trainen. U kunt het eerder getrainde model gebruiken om conclusies te trekken uit nieuwe gegevens.

Gevolgtrekking uit model

De levenscyclus van Machine Learning-programma's is eenvoudig en kan als volgt worden samengevat:

  1. Definieer een vraag
  2. Data verzamelen
  3. Gegevens visualiseren
  4. Trein algoritme
  5. Test het algoritme
  6. Feedback verzamelen
  7. Verfijn het algoritme
  8. Loop 4-7 totdat de resultaten bevredigend zijn
  9. Gebruik het model om een ​​voorspelling te doen

Zodra het algoritme goed is in het trekken van de juiste conclusies, past het die kennis toe op nieuwe datasets.

Machine leren Algorithms en waar worden ze gebruikt?

In deze Machine Learning-zelfstudie voor beginners leren we waar Machine Learning (ML)-algoritmen worden gebruikt:

Machine leren Algorithms

machine learning Algorithms

Machine learning kan worden gegroepeerd in twee brede leertaken: Supervised en Unsupervised. Er zijn veel andere algoritmes

Leren onder toezicht

Een algoritme gebruikt trainingsgegevens en feedback van mensen om de relatie tussen bepaalde input en een bepaalde output te leren. Een arts kan bijvoorbeeld marketingkosten en weersvoorspellingen gebruiken als invoergegevens om de verkoop van blikjes te voorspellen.

U kunt begeleid leren gebruiken als de uitvoergegevens bekend zijn. Het algoritme zal nieuwe gegevens voorspellen.

Er zijn twee categorieën van leren onder toezicht:

  • Classificatie taak
  • Regressie taak

Classificatie

Stel je voor dat je voor een commercial het geslacht van een klant wilt voorspellen. U begint met het verzamelen van gegevens over lengte, gewicht, functie, salaris, aankoopmandje, etc. uit uw klantenbestand. U kent het geslacht van elk van uw klanten, dit kan alleen mannelijk of vrouwelijk zijn. Het doel van de classificatie is om een ​​waarschijnlijkheid toe te kennen dat je een man of een vrouw bent (dat wil zeggen het label) op basis van de informatie (dat wil zeggen de kenmerken die je hebt verzameld). Toen het model leerde mannelijk of vrouwelijk te herkennen, kun je nieuwe gegevens gebruiken om een ​​voorspelling te doen. U heeft bijvoorbeeld net nieuwe informatie gekregen van een onbekende klant en u wilt weten of het een man of een vrouw is. Als de classificator man = 70% voorspelt, betekent dit dat het algoritme er voor 70% zeker van is dat deze klant een man is, en voor 30% een vrouw.

Het label kan uit twee of meer klassen bestaan. Het bovenstaande voorbeeld van Machine Learning heeft slechts twee klassen, maar als een classificator een object moet voorspellen, heeft deze tientallen klassen (bijvoorbeeld glas, tafel, schoenen, enz. Elk object vertegenwoordigt een klasse).

Regressie

Wanneer de uitvoer een continue waarde is, is de taak een regressie. Een financieel analist moet bijvoorbeeld mogelijk de waarde van een aandeel voorspellen op basis van een reeks kenmerken zoals aandelen, eerdere aandelenprestaties en de macro-economische index. Het systeem zal worden getraind om de prijs van de aandelen met de laagst mogelijke fout te schatten.

Algoritme Beschrijving Type
Lineaire regressie Vindt een manier om elke functie te correleren met de uitvoer om toekomstige waarden te helpen voorspellen. Regressie
Logistische regressie Uitbreiding van lineaire regressie die wordt gebruikt voor classificatietaken. De uitvoervariabele 3 is binair (bijvoorbeeld alleen zwart of wit) in plaats van continu (bijvoorbeeld een oneindige lijst met mogelijke kleuren) Classificatie
Beslissingsboom Uiterst interpreteerbaar classificatie- of regressiemodel dat waarden van gegevenskenmerken opsplitst in vertakkingen op beslissingsknooppunten (als een kenmerk bijvoorbeeld een kleur is, wordt elke mogelijke kleur een nieuwe vertakking) totdat er een definitieve beslissing wordt genomen Regressie
Classificatie
Naïeve Bayes De Bayesiaanse methode is een classificatiemethode die gebruik maakt van de Bayesiaanse stelling. De stelling werkt de voorkennis van een gebeurtenis bij met de onafhankelijke waarschijnlijkheid van elk kenmerk dat de gebeurtenis kan beïnvloeden. Regressie
Classificatie
Ondersteuning van vector machine
Support Vector Machine, of SVM, wordt doorgaans gebruikt voor de classificatietaak.
Het SVM-algoritme vindt een hypervlak dat de klassen optimaal verdeelde. Het kan het beste worden gebruikt met een niet-lineaire oplosser.
Regressie (niet erg gebruikelijk)
Classificatie
Willekeurig bos Het algoritme is gebaseerd op een beslissingsboom om de nauwkeurigheid drastisch te verbeteren. Willekeurig bos genereert vele malen eenvoudige beslissingsbomen en gebruikt de 'meerderheidsstem'-methode om te beslissen welk label moet worden geretourneerd. Voor de classificatietaak zal de uiteindelijke voorspelling degene zijn met de meeste stemmen; terwijl voor de regressietaak de gemiddelde voorspelling van alle bomen de uiteindelijke voorspelling is. Regressie
Classificatie
AdaBoost Classificatie- of regressietechniek die een groot aantal modellen gebruikt om tot een beslissing te komen, maar deze weegt op basis van hun nauwkeurigheid bij het voorspellen van de uitkomst Regressie
Classificatie
Bomen die het verloop bevorderen Verloopverhogende bomen zijn een geavanceerde classificatie-/regressietechniek. Het concentreert zich op de fout die door de vorige bomen is begaan en probeert deze te corrigeren. Regressie
Classificatie

Niet-gecontroleerd leren

Bij onbewaakt leren onderzoekt een algoritme invoergegevens zonder een expliciete uitvoervariabele te krijgen (verkent bijvoorbeeld demografische gegevens van klanten om patronen te identificeren)

U kunt het gebruiken als u niet weet hoe u de gegevens moet classificeren en u wilt dat het algoritme patronen vindt en de gegevens voor u classificeert

Naam algoritme Beschrijving Type
K-betekent clustering Plaatst gegevens in een aantal groepen (k) die elk gegevens bevatten met vergelijkbare kenmerken (zoals bepaald door het model, niet vooraf door mensen) ClusterING
Gaussiaans mengselmodel Een generalisatie van k-means clustering die meer flexibiliteit biedt in de grootte en vorm van groepen (clusters) ClusterING
Hiërarchische clustering Verdeelt clusters langs een hiërarchische boom om een ​​classificatiesysteem te vormen.

Kan gebruikt worden voor Cluster klant met klantenkaart

ClusterING
Aanbevelingssysteem: Help bij het definiëren van de relevante gegevens voor het doen van een aanbeveling. ClusterING
PCA/T-SNE Meestal gebruikt om de dimensionaliteit van de data te verminderen. De algoritmes verminderen het aantal features tot 3 of 4 vectoren met de hoogste variantie. Dimensievermindering

Hoe u een machine learning-algoritme kiest

In deze basistutorial over machine learning leren we hoe we het Machine Learning (ML)-algoritme kunnen kiezen:

Er zijn veel machine learning-algoritmes. De keuze van het algoritme is gebaseerd op het doel.

In het onderstaande voorbeeld van Machine learning is de taak om het type bloem te voorspellen tussen de drie variëteiten. De voorspellingen zijn gebaseerd op de lengte en de breedte van het bloemblaadje. De afbeelding toont de resultaten van tien verschillende algoritmen. De afbeelding linksboven is de dataset. De data is ingedeeld in drie categorieën: rood, lichtblauw en donkerblauw. Er zijn enkele groeperingen. Bijvoorbeeld, van de tweede afbeelding, behoort alles in de linkerbovenhoek tot de rode categorie, in het middelste deel is er een mix van onzekerheid en lichtblauw, terwijl het onderste deel overeenkomt met de donkere categorie. De andere afbeeldingen tonen verschillende algoritmen en hoe ze proberen de data te classificeren.

Hoe u een machine learning-algoritme kiest

Uitdagingen en beperkingen van machinaal leren

In deze Machine learning-tutorial leren we nu over de beperkingen van Machine Learning:

De belangrijkste uitdaging van machinaal leren is het gebrek aan gegevens of de diversiteit in de dataset. Een machine kan niet leren als er geen gegevens beschikbaar zijn. Bovendien bezorgt een dataset met een gebrek aan diversiteit het de machine moeilijk. Een machine moet heterogeniteit hebben om betekenisvol inzicht te leren. Het komt zelden voor dat een algoritme informatie kan extraheren als er geen of weinig variaties zijn. Het wordt aanbevolen om minimaal 20 observaties per groep te hebben om de machine te helpen leren. Deze beperking leidt tot slechte evaluatie en voorspelling.

Toepassing van machinaal leren

Laten we nu in deze Machine learning-tutorial de toepassingen van Machine Learning leren:

toenemen:

  • Machine learning, dat mensen helpt bij hun dagelijkse taken, persoonlijk of commercieel, zonder volledige controle over de output. Dergelijk machinaal leren wordt op verschillende manieren gebruikt, zoals virtuele assistent, data-analyse en softwareoplossingen. De primaire gebruiker is het verminderen van fouten als gevolg van menselijke vooroordelen.

Automatisering:

  • Machine learning, dat op elk gebied volledig autonoom werkt, zonder menselijke tussenkomst. Robots die bijvoorbeeld de essentiële processtappen in productiefabrieken uitvoeren.

Financiële sector

  • Machine learning wordt steeds populairder in de financiële sector. Banken gebruiken ML voornamelijk om patronen in de data te vinden, maar ook om fraude te voorkomen.

Overheidsorganisatie

  • De overheid maakt gebruik van ML om de openbare veiligheid en nutsvoorzieningen te beheren. Neem het voorbeeld van China met de enorme gezichtsherkenning. De overheid gebruikt Kunstmatige intelligentie om jaywalker te voorkomen.

Gezondheidszorg

  • De gezondheidszorg was een van de eerste sectoren die machine learning met beelddetectie gebruikte.

Marketing

  • Er wordt in de marketing breed gebruik gemaakt van AI dankzij de overvloedige toegang tot gegevens. Vóór het tijdperk van massadata ontwikkelen onderzoekers geavanceerde wiskundige hulpmiddelen zoals Bayesiaanse analyse om de waarde van een klant te schatten. Met de enorme hoeveelheid data vertrouwt de marketingafdeling op AI om de klantrelatie en marketingcampagne te optimaliseren.

Voorbeeld van toepassing van Machine Learning in Supply Chain

Machine learning levert geweldige resultaten op voor visuele patroonherkenning, waardoor veel potentiële toepassingen in fysieke inspectie en onderhoud in het hele supply chain-netwerk ontstaan.

Ongecontroleerd leren kan snel zoeken naar vergelijkbare patronen in de diverse dataset. Op zijn beurt kan de machine kwaliteitsinspecties uitvoeren in het hele logistieke knooppunt, verzendingen met schade en slijtage.

Bijvoorbeeld, IBMHet Watson-platform kan schade aan zeecontainers vaststellen. Watson combineert visuele en systeemgebaseerde gegevens om in realtime bij te houden, te rapporteren en aanbevelingen te doen.

Het afgelopen jaar vertrouwt de voorraadbeheerder uitgebreid op de primaire methode om de voorraad te evalueren en te voorspellen. Bij het combineren van big data en machinaal leren zijn betere voorspellingstechnieken geïmplementeerd (een verbetering van 20 tot 30% ten opzichte van traditionele voorspellingsinstrumenten). In termen van omzet betekent dit een stijging van 2 tot 3% vanwege de potentiële verlaging van de voorraadkosten.

Voorbeeld van Machine Learning Google Car

Iedereen kent bijvoorbeeld de Google-auto. De auto zit vol met lasers op het dak die aangeven waar hij zich bevindt ten opzichte van de omgeving. Het heeft een radar aan de voorkant, die de auto informeert over de snelheid en beweging van alle auto's eromheen. Het gebruikt al die gegevens om niet alleen uit te zoeken hoe de auto moet worden bestuurd, maar ook om uit te zoeken en te voorspellen wat potentiële bestuurders rondom de auto gaan doen. Wat indrukwekkend is, is dat de auto bijna een gigabyte per seconde aan gegevens verwerkt.

Toepassing van machinaal leren

Waarom is machinaal leren belangrijk?

Machine learning is tot nu toe het beste hulpmiddel om een ​​patroon in de gegevens te analyseren, begrijpen en identificeren. Een van de belangrijkste ideeën achter machinaal leren is dat de computer kan worden getraind om taken te automatiseren die voor een mens uitputtend of onmogelijk zouden zijn. De duidelijke breuk met de traditionele analyse is dat machinaal leren beslissingen kan nemen met minimale menselijke tussenkomst.

Neem het volgende voorbeeld voor deze ML-zelfstudie: een makelaar kan de prijs van een huis schatten op basis van zijn eigen ervaring en zijn kennis van de markt.

Een machine kan worden getraind om de kennis van een expert te vertalen in functionaliteit. De kenmerken zijn alle kenmerken van een huis, buurt, economische omgeving, etc. die het prijsverschil maken. Voor de deskundige kostte het hem waarschijnlijk enkele jaren om de kunst van het inschatten van de prijs van een huis onder de knie te krijgen. Zijn expertise wordt na elke verkoop steeds beter.

Voor de machine zijn (bijvoorbeeld) miljoenen gegevens nodig om deze kunst onder de knie te krijgen. Helemaal aan het begin van zijn leerproces maakt de machine een fout, op de een of andere manier net als de junior verkoper. Zodra de machine alle voorbeelden heeft gezien, heeft deze voldoende kennis om een ​​schatting te maken. Tegelijkertijd met ongelooflijke nauwkeurigheid. De machine kan zijn fout ook dienovereenkomstig aanpassen.

De meeste grote bedrijven hebben de waarde van machine learning en het bewaren van gegevens begrepen. McKinsey heeft geschat dat de waarde van analytics varieert van $9.5 biljoen aan $15.4 biljoen terwijl $5 tot 7 biljoen kan worden toegeschreven aan de meest geavanceerde AI-technieken.

Lees ook Wat is Fuzzy Logic? Architectie, toepassing en voorbeeld: Klik Hier