Begeleid versus onbewaakt leren: het verschil daartussen
Belangrijkste verschil tussen begeleid en niet-gesuperviseerd leren
- Bij begeleid leren train je de machine met behulp van gegevens die goed zijn 'gelabeld'.
- Unsupervised learning is een machine learning-techniek, waarbij u geen toezicht hoeft te houden op het model.
- Met begeleid leren kunt u gegevens verzamelen of een gegevensuitvoer uit de vorige ervaring produceren.
- Unsupervised machine learning helpt je om allerlei onbekende patronen in data te ontdekken.
- Regressie en classificatie zijn twee soorten begeleide machine learning-technieken.
- Clustering en Association zijn twee soorten onbewaakt leren.
- In een begeleid leermodel worden input- en outputvariabelen gegeven, terwijl bij een onbewaakt leermodel alleen invoergegevens worden gegeven
Wat is begeleid machine learning?
Bij begeleid leren train je de machine met behulp van gegevens die goed zijn “gelabeld.” Dit betekent dat sommige gegevens al zijn getagd met het juiste antwoord. Het kan worden vergeleken met leren dat plaatsvindt in aanwezigheid van een supervisor of een leraar.
Een begeleid leeralgoritme leert van gelabelde trainingsgegevens en helpt u resultaten voor onvoorziene gegevens te voorspellen. Het succesvol bouwen, schalen en inzetten van nauwkeurig machine learning-datawetenschapsmodel onder toezicht kost tijd en technische expertise van een team van zeer bekwame datawetenschappers. Bovendien moet de datawetenschapper modellen opnieuw opbouwen om ervoor te zorgen dat de gegeven inzichten waar blijven totdat de gegevens veranderen.
Wat is onbegeleid leren?
Unsupervised learning is een machine learning-techniek, waarbij u geen toezicht hoeft te houden op het model. In plaats daarvan moet u het model zelfstandig laten werken om informatie te ontdekken. Het gaat vooral om de niet-gelabelde gegevens.
Met ongeleide leeralgoritmen kunt u complexere verwerkingstaken uitvoeren in vergelijking met begeleid leren. Hoewel ongeleid leren onvoorspelbaarder kan zijn in vergelijking met andere natuurlijke leermethoden, zoals deep learning en reinforcement learning.
Waarom begeleid leren?
- Met begeleid leren kunt u gegevens verzamelen of een gegevensuitvoer uit de vorige ervaring produceren.
- Helpt u prestatiecriteria te optimaliseren op basis van ervaring
- Machine learning onder toezicht helpt u bij het oplossen van verschillende soorten rekenproblemen in de echte wereld.
Waarom onbegeleid leren?
Dit zijn de belangrijkste redenen om Unsupervised Learning te gebruiken:
- Unsupervised machine learning ontdekt allerlei onbekende patronen in data.
- Met methoden zonder toezicht kunt u functies vinden die nuttig kunnen zijn voor categorisering.
- Het vindt plaats in realtime, zodat alle invoergegevens worden geanalyseerd en gelabeld in aanwezigheid van de leerlingen.
- Het is gemakkelijker om ongelabelde gegevens van een computer te halen dan gelabelde gegevens, waarvoor handmatige tussenkomst nodig is.
Hoe werkt begeleid leren?
U wilt bijvoorbeeld een machine trainen om u te helpen voorspellen hoe lang het duurt voordat u van uw werkplek naar huis rijdt. Hier begint u met het maken van een set gelabelde gegevens. Deze gegevens omvatten
- Weersomstandigheden
- Tijd van de dag
- Feestdagen
Al deze details zijn uw inputs. De output is de hoeveelheid tijd die het kostte om op die specifieke dag terug naar huis te rijden.
Je weet instinctief dat als het buiten regent, het langer duurt om naar huis te rijden. Maar de machine heeft data en statistieken nodig.
Laten we nu eens kijken hoe u een begeleid leermodel van dit voorbeeld kunt ontwikkelen, waarmee de gebruiker de reistijd kan bepalen. Het eerste dat u moet maken, is een trainingsgegevensset. Deze trainingsset bevat de totale reistijd en bijbehorende factoren zoals het weer, de tijd, enz. Op basis van deze trainingsset kan uw machine zien dat er een directe relatie bestaat tussen de hoeveelheid regen en de tijd die u nodig heeft om thuis te komen.
Het stelt dus vast dat hoe meer het regent, hoe langer u zult rijden om terug naar huis te gaan. Het kan ook het verband zien tussen het tijdstip waarop u uw werk verlaat en het tijdstip waarop u onderweg bent.
Hoe dichter je bij 6 uur bent, hoe langer het duurt voordat je thuiskomt. Mogelijk vindt uw machine enkele relaties met uw gelabelde gegevens.
Dit is het begin van uw gegevensmodel. Het begint invloed te krijgen op de manier waarop regen de manier waarop mensen rijden beïnvloedt. Het begint ook te zien dat meer mensen op een bepaald tijdstip van de dag reizen.
Hoe werkt onbewaakt leren?
Laten we het geval nemen van een baby en haar familiehond.
Ze kent en identificeert deze hond. Een paar weken later neemt een vriend van de familie een hond mee en probeert met de baby te spelen.
Baby heeft deze hond nog niet eerder gezien. Maar hij herkent veel kenmerken (2 oren, ogen, lopen op 4 poten) die op haar hond lijken. Ze identificeert een nieuw dier, zoals een hond. Dit is leren zonder toezicht, waarbij je geen les krijgt, maar je leert van de gegevens (in dit geval gegevens over een hond). Als dit leren onder toezicht was geweest, zou de vriend van de familie de baby hebben verteld dat het een hond is.
Soorten begeleide machine learning-technieken
Regressie
Regressietechniek voorspelt een enkele outputwaarde op basis van trainingsgegevens.
Voorbeeld: U kunt regressie gebruiken om de huizenprijs te voorspellen op basis van trainingsgegevens. De invoervariabelen zijn de locatie, de grootte van een huis, enz.
Classificatie
Classificatie betekent het groeperen van de uitvoer binnen een klasse. Als het algoritme invoer in twee verschillende klassen probeert te labelen, wordt dit binaire classificatie genoemd. Het selecteren tussen meer dan twee klassen wordt multiklasseclassificatie genoemd.
Voorbeeld: Bepalen of iemand al dan niet in gebreke blijft met de lening.
Sterke punten: Uitvoer heeft altijd een probabilistische interpretatie en het algoritme kan worden geregulariseerd om overfitting te voorkomen.
Zwakke punten: Logistische regressie kan ondermaats presteren als er meerdere of niet-lineaire beslissingsgrenzen zijn. Deze methode is niet flexibel, dus het legt geen complexere relaties vast.
Soorten machinale leertechnieken zonder toezicht
Problemen met ongeleid leren worden verder gegroepeerd in clustering- en associatieproblemen.
ClusterING
Clustering is een belangrijk concept als het gaat om onbegeleid leren. Het gaat vooral over het vinden van een structuur of patroon in een verzameling ongecategoriseerde gegevens. Clustering-algoritmen verwerken uw gegevens en vinden natuurlijke clusters (groepen) als deze in de gegevens voorkomen. U kunt ook wijzigen hoeveel clusters uw algoritmen moeten identificeren. Hiermee kunt u de granulariteit van deze groepen aanpassen.
Vereniging
Met associatieregels kunt u associaties tot stand brengen tussen gegevensobjecten in grote databases. Deze techniek zonder toezicht gaat over het ontdekken van spannende relaties tussen variabelen in grote databases. Mensen die bijvoorbeeld een nieuw huis kopen, zullen waarschijnlijk ook nieuw meubilair kopen.
Andere voorbeelden:
- Een subgroep van kankerpatiënten gegroepeerd op basis van hun genexpressiemetingen
- Groepen shoppers op basis van hun browse- en aankoopgeschiedenis
- Filmgroepering op basis van de beoordeling gegeven door filmkijkers
Verschil tussen begeleid en onbewaakt leren
parameters | Machine learning-techniek onder toezicht | Machine learning-techniek zonder toezicht |
---|---|---|
Proces | In een begeleid leermodel worden input- en outputvariabelen gegeven. | In het onbewaakte leermodel worden alleen invoergegevens gegeven |
Invoergegevens | Algorithms worden getraind met behulp van gelabelde gegevens. | Algorithms worden gebruikt tegen gegevens die niet zijn gelabeld |
Algorithms Gebruikt | Ondersteuning van vectormachines, neuraal netwerk, lineaire en logistieke regressie, willekeurig bos en classificatiebomen. | Onbegeleide algoritmen kunnen worden onderverdeeld in verschillende categorieën: zoals Cluster algoritmen, K-means, hiërarchische clustering, etc. |
Computationele complexiteit | Begeleid leren is een eenvoudiger methode. | Ongeleid leren is rekenkundig complex |
Gebruik van gegevens | Het begeleide leermodel maakt gebruik van trainingsgegevens om een verband tussen de input en de output te leren. | Bij onbewaakt leren wordt geen gebruik gemaakt van outputgegevens. |
Nauwkeurigheid van resultaten | Zeer nauwkeurige en betrouwbare methode. | Less nauwkeurige en betrouwbare methode. |
Realtime leren | De leermethode vindt offline plaats. | De leermethode vindt plaats in realtime. |
Aantal lessen | Aantal klassen is bekend. | Aantal klassen is niet bekend. |
Belangrijkste nadeel | Het classificeren van big data kan een echte uitdaging zijn bij begeleid leren. | U kunt geen nauwkeurige informatie krijgen over het sorteren van gegevens, en de uitvoer van gegevens die worden gebruikt bij leren zonder toezicht is gelabeld en niet bekend. |