Projekcije v nižjedimenzionalne prostore
Section outline
-
Za razumevanje strukture podatkov, razkrivanje podobnosti med primeri in odkrivanje skupin nam zalo koristijo prikazi podatkov na nizkodimenzionalnih kartah. Še najbolje kar točkovni prikaz podatkov v dveh dimenzijah. To mislimo na karte, kjer so primeri podani s točkami in kjer odnosi med primeri (oddaljenost, bližina) čimbolj ustrezajo odnosom med primeri v osnovnem, večdimenzionalnem prostoru. Ideja je torej zmanjšanje dimenzionalnosti podatkov in osnovnih n dimenzij na naprimer dve dimenziji. Na predavanju orišemo dva postopka, ki lahko vodita k konstrukciji takih projekcij. Prvi postopek je tehnika glavnih komponent (angl. PCA, principal component analysis), ki v osnovnem prostoru poišče smeri, ki najbolj razpenjajo podatke. Drugi postopek pa v prikazu v dveh dimenzijah skuša kar najbolj verno ohranjati razdalje med primeri, torej razdalje, ki jih izmerimo z neko mero razdalje v osnovnem n-dimenzionalnem prostoru. Slednji postopek se imenuje večrazredno lestvičenje (angl. MDS, multi-dimensional scaling). Mnogokrat nas namesto razdalj zanima samo ohranjanje bližine: primeri, ki so blizu v osnovnem prostoru naj bi bili blizu tudi v projekciji. Na predavanjih tehniko, ki implementira tako projekcijo in se imenuje t-SNE, samo omenimo in je ne izpeljemo, povdarimo pa, da predstavlja izboljšanje tehnike MDS.
Literatura - Projekcije podatkov v nižje dimenzije (zapiski predavatelja)
Predavanja- Motivacija: problemi z interpretacijo dendrogramov
- Motivacija: zvezde
- Metoda glavnih komponent: matematični nastavki
- Metoda glavnih komponent: kovariančna matrika
- Metoda glavnih komponent: rešitev
- Graf razložene variance
- Graf razložene variance: primer
- Potenčna metoda za določitev prvega lastnega vektorja
- Ortogonalizacija po Gram-Schmidtu
- Večrazredno lestvičenje in t-SNE
- Primer s primerjavo PCA, MDS in t-SNE
Dodatni viri