Označená data v kontextu umělé inteligence (AI) a konkrétně v doméně Google Cloud Machine Learning označují datovou sadu, která byla anotována nebo označena konkrétními štítky nebo kategoriemi. Tyto štítky slouží jako základní pravda nebo reference pro trénování algoritmů strojového učení. Přidružením datových bodů k jejich odpovídajícím štítkům se model strojového učení může naučit rozpoznávat vzory a vytvářet předpovědi na základě nových, neviditelných dat.
Označená data hrají klíčovou roli v učení pod dohledem, což je běžný přístup ve strojovém učení. Při učení pod dohledem je model trénován na označeném datovém souboru, aby se naučil vztah mezi vstupními funkcemi a jejich odpovídajícími výstupními štítky. Tento tréninkový proces umožňuje modelu zobecnit své znalosti a provádět přesné předpovědi na nových, neviditelných datech.
Pro ilustraci tohoto konceptu uvažujme příklad úlohy strojového učení v oblasti rozpoznávání obrazu. Předpokládejme, že chceme vytvořit model, který dokáže klasifikovat obrázky zvířat do různých kategorií, jako jsou kočky, psi a ptáci. Potřebovali bychom označenou datovou sadu, kde je každý obrázek spojen se správným štítkem. Například obrázek kočky by byl označen jako „kočka“, obrázek psa jako „pes“ a tak dále.
Označený datový soubor by sestával z kolekce obrázků a jejich odpovídajících štítků. Každý obrázek by byl reprezentován sadou funkcí, jako jsou hodnoty pixelů nebo reprezentace vyšší úrovně extrahované z obrázku. Štítky by označovaly správnou kategorii nebo třídu, do které každý obrázek patří.
Během trénovací fáze bude model strojového učení prezentován s označenou datovou sadou. Naučil by se identifikovat vzory a vztahy mezi vstupními prvky a odpovídajícími štítky. Model by aktualizoval své vnitřní parametry, aby se minimalizoval rozdíl mezi jeho předpověďmi a skutečnými štítky v trénovacích datech.
Jakmile je model natrénován, lze jej použít k předpovědím na nových, neviditelných snímcích. Vzhledem k neoznačenému obrázku by model analyzoval jeho vlastnosti a předpověděl nejpravděpodobnější označení na základě svých naučených znalostí z označeného souboru dat. Pokud například model předpovídá, že obrázek obsahuje kočku, znamená to, že na obrázku rozpoznal vzory, které naznačují kočku.
Označená data jsou základní součástí tréninkových modelů strojového učení. Poskytuje nezbytné informace, ze kterých se model může učit a provádět přesné předpovědi. Přidružením datových bodů k jejich odpovídajícím štítkům se model může naučit rozpoznávat vzory a zobecnit své znalosti na neviditelná data.
Další nedávné otázky a odpovědi týkající se EITC/AI/GCML Google Cloud Machine Learning:
- Co je převod textu na řeč (TTS) a jak funguje s umělou inteligencí?
- Jaká jsou omezení při práci s velkými datovými sadami ve strojovém učení?
- Dokáže strojové učení nějakou dialogickou pomoc?
- Co je hřiště TensorFlow?
- Co vlastně znamená větší soubor dat?
- Jaké jsou příklady hyperparametrů algoritmu?
- Co je to souborové učení?
- Co když vybraný algoritmus strojového učení není vhodný a jak se lze ujistit, že vyberete ten správný?
- Potřebuje model strojového učení během tréninku dohled?
- Jaké jsou klíčové parametry používané v algoritmech založených na neuronové síti?
Další otázky a odpovědi naleznete v EITC/AI/GCML Google Cloud Machine Learning