Konvoluční neuronové sítě (CNN) byly nejprve navrženy pro účely rozpoznávání obrazu v oblasti počítačového vidění. Tyto sítě jsou specializovaným typem umělé neuronové sítě, která se ukázala jako vysoce účinná při analýze vizuálních dat. Vývoj CNN byl řízen potřebou vytvořit modely, které by dokázaly přesně klasifikovat a kategorizovat obrázky, a jejich úspěch v této oblasti vedl k jejich širokému použití v různých dalších aplikacích, jako je detekce objektů, segmentace obrazu a dokonce i zpracování přirozeného jazyka.
CNN jsou inspirovány strukturou a funkčností zrakové kůry v lidském mozku. Stejně jako zraková kůra se CNN skládají z několika vrstev vzájemně propojených neuronů, které zpracovávají různé aspekty vstupních dat. Klíčová inovace CNN spočívá v jejich schopnosti automaticky se učit a extrahovat relevantní funkce z obrázků, což eliminuje potřebu ručního inženýrství funkcí. Toho je dosaženo použitím konvolučních vrstev, které aplikují filtry na vstupní obraz pro detekci různých vizuálních vzorů a prvků, jako jsou hrany, rohy a textury.
První průlom v CNN přišel se zavedením architektury LeNet-5 Yannem LeCunem a kol. v roce 1998. LeNet-5 byl speciálně navržen pro rozpoznávání ručně psaných číslic a dosáhl pozoruhodného výkonu na datové sadě MNIST, což je referenční datová sada široce používaná pro vyhodnocování algoritmů rozpoznávání obrazu. LeNet-5 demonstroval sílu CNN při zachycování hierarchických prvků z obrázků, což umožňuje přesnou klasifikaci i v přítomnosti variací v měřítku, rotaci a posunu.
Od té doby se CNN výrazně vyvinuly a vyvíjely se hlubší a složitější architektury. Jedním z pozoruhodných pokroků bylo zavedení architektury AlexNet od Alex Krizhevsky et al. v roce 2012. AlexNet dosáhl průlomu v klasifikaci obrázků vítězstvím v ImageNet Large Scale Visual Recognition Challenge (ILSVRC) s výrazně nižší chybovostí ve srovnání s předchozími přístupy. Tento úspěch připravil cestu pro široké přijetí CNN v úlohách rozpoznávání obrazu.
CNN byly také úspěšně aplikovány na další úlohy počítačového vidění. Například při detekci objektů lze CNN kombinovat s dalšími vrstvami pro lokalizaci a klasifikaci objektů v rámci obrázku. Slavná oblastní konvoluční neuronová síť (R-CNN) představená Rossem Girshickem a kol. v roce 2014 je příkladem takové architektury. R-CNN dosáhla nejmodernějších výsledků v testech detekce objektů využitím síly CNN pro extrakci funkcí a její kombinací s metodami návrhu regionu.
Konvoluční neuronové sítě byly nejprve navrženy pro úlohy rozpoznávání obrazu v oblasti počítačového vidění. Přinesli revoluci v oboru automatickým učením relevantních funkcí z obrázků, čímž eliminovali potřebu ručního inženýrství funkcí. Vývoj CNN vedl k významnému pokroku v klasifikaci obrazu, detekci objektů a různých dalších úlohách počítačového vidění.
Další nedávné otázky a odpovědi týkající se EITC/AI/ADL Advanced Deep Learning:
- Proč potřebujeme používat optimalizace ve strojovém učení?
- Kdy dochází k přemontování?
- Mohou konvoluční neuronové sítě zpracovávat sekvenční data začleněním konvolucí v průběhu času, jak se používají v modelech konvolučních sekvencí k sekvencím?
- Spoléhají Generative Adversarial Networks (GAN) na myšlenku generátoru a diskriminátoru?