Oblast strojového učení zahrnuje řadu metodologií a paradigmat, z nichž každá je vhodná pro různé typy dat a problémů. Mezi těmito paradigmaty jsou dvě nejzákladnější učení pod dohledem a učení bez dozoru.
Řízené učení zahrnuje trénování modelu na označeném datovém souboru, kde jsou vstupní data spárována se správným výstupem. Model se učí mapovat vstupy na výstupy tím, že minimalizuje chybu mezi svými předpověďmi a skutečnými výstupy. Učení bez dozoru se na druhé straně zabývá neoznačenými daty, kde cílem je odvodit přirozenou strukturu přítomnou v sadě datových bodů.
Existuje typ učení, který integruje techniky učení pod dohledem i bez dozoru, často označované jako učení s částečným dohledem. Tento přístup využívá během tréninkového procesu jak označená, tak neoznačená data. Důvodem polořízeného učení je, že neoznačená data, pokud jsou použita ve spojení s malým množstvím označených dat, mohou přinést značné zlepšení přesnosti učení. To je užitečné zejména ve scénářích, kdy je získání označených dat vzácné nebo drahé, ale neoznačených údajů je velké množství a snadno se shromažďují.
Semi-supervised learning je založen na předpokladu, že základní struktura neoznačených dat může poskytnout cenné informace, které doplňují označená data. Tento předpoklad může mít několik podob, jako je shlukový předpoklad, různý předpoklad nebo předpoklad separace s nízkou hustotou. Předpoklad clusteru předpokládá, že datové body ve stejném clusteru budou mít pravděpodobně stejné označení. Předpoklad rozmanitosti naznačuje, že vysokorozměrná data leží na rozmanitosti mnohem nižších rozměrů a úkolem je tuto rozmanitost naučit. Předpoklad separace s nízkou hustotou je založen na myšlence, že hranice rozhodování by měla ležet v oblasti s nízkou hustotou dat.
Jednou z běžných technik používaných v částečně kontrolovaném učení je autotrénink. Při autotréninku je model zpočátku trénován na označených datech. Poté používá své vlastní předpovědi na neoznačených datech jako pseudo-štítky. Model je dále trénován na této rozšířené datové sadě a iterativně zpřesňuje své předpovědi. Další technikou je společné školení, kdy se dva nebo více modelů trénují současně na různých pohledech na data. Každý model je zodpovědný za označení části neoznačených dat, která se pak používají k trénování ostatních modelů. Tato metoda využívá redundanci ve více pohledech na data ke zlepšení výkonu učení.
Metody založené na grafech jsou také převládající v částečně řízeném učení. Tyto metody vytvářejí graf, kde uzly představují datové body a hrany představují podobnosti mezi nimi. Učební úloha je poté přeformulována jako optimalizační problém založený na grafu, kde cílem je šířit značky z označených uzlů k neoznačeným při zachování struktury grafu. Tyto techniky jsou zvláště účinné v doménách, kde data přirozeně tvoří síť, jako jsou sociální sítě nebo biologické sítě.
Dalším přístupem ke kombinování učení pod dohledem a učení bez dozoru je učení s více úkoly. Při víceúkolovém učení se současně řeší více výukových úkolů, přičemž se využívají společné rysy a rozdíly mezi úkoly. To lze považovat za formu induktivního přenosu, kdy znalosti získané z jednoho úkolu pomáhají zlepšit učení jiného. Víceúlohové učení může být zvláště přínosné, pokud mezi úkoly existuje sdílená reprezentace nebo prostor funkcí, což umožňuje přenos informací.
Praktickou ukázkou polořízeného učení je oblast zpracování přirozeného jazyka (NLP). Zvažte úlohu analýzy sentimentu, kde je cílem klasifikovat daný text jako pozitivní nebo negativní. Označená data, jako jsou recenze s sentimentálními štítky, mohou být omezená. K dispozici je však obrovské množství neoznačeného textu. Semi-supervised learning by mohl zahrnovat trénování klasifikátoru sentimentu na označených datech a jeho použití k predikci sentimentu neoznačených dat. Tyto předpovědi pak mohou být použity jako další tréninková data, která zlepšují výkon klasifikátoru.
Další příklad lze nalézt v klasifikaci obrázků. V mnoha případech je získání označených obrázků pracné a nákladné, zatímco neoznačených obrázků je mnoho. Polořízený přístup může zahrnovat použití malé sady označených obrázků k trénování počátečního modelu. Tento model by pak mohl být aplikován na neoznačené obrázky pro generování pseudo-označení, které jsou následně použity k přetrénování modelu.
Integrace učení pod dohledem a učení bez dozoru prostřednictvím učení s částečným dohledem a souvisejících metodologií představuje účinný přístup ve strojovém učení. Využitím silných stránek obou paradigmat je možné dosáhnout významného zlepšení výkonnosti modelu, zejména v doménách, kde jsou značená data omezená, ale neznačená data jsou hojná. Tento přístup nejen zlepšuje schopnost modelů zobecňovat z omezených dat, ale také poskytuje robustnější rámec pro pochopení základní struktury komplexních datových sad.
Další nedávné otázky a odpovědi týkající se EITC/AI/GCML Google Cloud Machine Learning:
- Když se v materiálech ke čtení mluví o „výběru správného algoritmu“, znamená to, že v podstatě všechny možné algoritmy již existují? Jak víme, že algoritmus je „správný“ pro konkrétní problém?
- Jaké jsou hyperparametry používané ve strojovém učení?
- Jaký je programovací jazyk pro strojové učení, je to Just Python
- Jak se strojové učení aplikuje ve světě vědy?
- Jak se rozhodujete, který algoritmus strojového učení použít a jak jej najdete?
- Jaké jsou rozdíly mezi Federated Learning, Edge Computing a On-Device Machine Learning?
- Jak připravit a vyčistit data před tréninkem?
- Jaké jsou konkrétní počáteční úkoly a aktivity v projektu strojového učení?
- Jaká jsou základní pravidla pro přijetí konkrétní strategie a modelu strojového učení?
- Které parametry naznačují, že je čas přejít z lineárního modelu na hluboké učení?
Další otázky a odpovědi naleznete v EITC/AI/GCML Google Cloud Machine Learning