Szinguláris érték dekompozíció (SVD) bemutató

Singuláris érték dekompozíció (SVD)bemutató

BE.400 / 7.548

A szinguláris érték dekompozíció a génexpressziós adatok téglalap alakú mátrixát veszi (A, ahol A egy n x p mátrix), amelyben az n sorok a géneket, a p oszlopok pedig a kísérleti feltételeket képviselik. Az SVD-tétel kimondja:

Anxp= Unxn Snxp VTpxp

Hol

UTU = Inxn

VTV = Ipxp (azaz.U és V ortogonálisak)

Melyik U oszlopai a bal oldali szinguláris vektorok (génkoefficiens-vektorok);S (az A-val azonos dimenziójú) szinguláris értékekkel rendelkezik és diagonális (módusamplitúdók); és VT sorai a jobb oldali szinguláris vektorok (expressziós szintvektorok). Az SVD az eredeti adatok kiterjesztését jelenti egy olyan koordinátarendszerben, ahol a kovariancia mátrix diagonális.

Az SVD kiszámítása az AAT és az ATA sajátértékeinek és sajátvektorainak meghatározásából áll.Az ATA sajátvektorai alkotják a V oszlopait, az AAT sajátvektorai pedig az U oszlopait.Az S-ben lévő szinguláris értékek az AAT vagy az ATA sajátértékeinek négyzetgyökerei. A szinguláris értékek az S mátrix diagonálisai, és csökkenő sorrendben vannak elrendezve. A szinguláris értékek mindig valós számok. Ha az A mátrix valós mátrix, akkor Ués V is valós.

Az SVD megoldásának megértéséhez vegyük a Kuruvilla et al-ban megadott mátrix példáját:

Ebben a példában a mátrix egy 4×2-es mátrix.Tudjuk, hogy egy n x n mátrix W esetében akkor egy nem nulla x vektor a W sajátvektora, ha:

W x = l x

Egy bizonyos l skalárhoz. Ekkor az l skalárt A sajátértékének nevezzük, és azt mondjuk, hogy x az A l-nek megfelelő sajátvektora.

A fenti sajátértékek megtalálásához tehát kiszámítjuk az AAT és ATA mátrixokat. Ahogyan korábban említettük ,az AAT sajátvektorai alkotják az U oszlopait, így az U megtalálásához a következő analízist tudjuk elvégezni.

Most, hogy van egy nx n mátrixunk, meg tudjuk határozni a W mátrix sajátértékeit.

Mivel W x = l x akkor (W- lI) x = 0

Egyedi sajátértékek halmazához a mátrix (W-lI) determinánsának nullával kell egyenlőnek lennie. Így a karakterisztikus egyenlet megoldásából |W-lI|=0 kapjuk:

l=0, l=0; l = 15+Ö221,5 ~ 29,883; l = 15-Ö221,5 ~ 0,117 (négy sajátérték, mivel ez egy negyedfokúepolinom). Ez az érték felhasználható az U oszlopaiba helyezhető sajátvektor meghatározására. Így a következő egyenleteket kapjuk:

19,883 x1 + 14 x2= 0

14 x1 + 9.883 x2 =0

x3 = 0

x4 = 0

Az első két egyenletet egyszerűsítve kapunk egy arányszámot, amely x1 és x2 értékét viszonyítja. Az x1 és x2 értékeit úgy választjuk meg, hogy az S elemei a sajátértékek négyzetgyökei legyenek. Így a fenti egyenletet kielégítő megoldásx1 = -0,58 és x2 = 0,82 és x3 = x4 = 0 (ez az Umátrix második oszlopa).

A másik sajátértéket behelyettesítve megkapjuk:

-9,883×1 + 14 x2 = 0

14 x1 – 19.883 x2= 0

x3 = 0

x4 = 0

Az ezt az egyenlethalmazt kielégítő megoldás tehát x1 = 0,82 és x2 = -0,58 és x3 = x4 = 0 (ez az U mátrix első oszlopa). Ezeket kombinálva megkapjuk:

Hasonlóképpen ATA alkotja V oszlopait, így hasonló elemzést végezhetünk V értékének megtalálására.

és hasonlóan megkapjuk a következő kifejezést:

Végül, ahogy korábban említettük, az S az AAT vagy ATA sajátértékek négyzetgyöke. és közvetlenül megkaphatjuk, így kapjuk:

Megjegyezzük, hogy: s1 > s2 > s3 > … amire a Kuruvillapaper 4. ábrája utal. Abban a papírban az értékeket úgy számították ki és normalizálták, hogy a legnagyobb szinguláris érték egyenlő legyen 1-gyel.

Bizonyítás:

A=USVT és AT=VSUT

ATA = VSUTUSVT

ATA = VS2VT

ATAV = VS2

  • Alter O, Brown PO, Botstein D. (2000) Singular value decomposition for genome-wide expression data processing and modeling. Proc Natl Acad Sci U S A, 97, 10101-6.
  • Golub, G.H., és Van Loan, C.F. (1989) Matrix Computations, 2nd ed. (Baltimore: Johns Hopkins University Press).
  • Greenberg, M. (2001) Differential equations & Linear algebra (Upper Saddle River, N.J. : Prentice Hall).
  • Strang, G. (1998) Introduction to linear algebra (Wellesley, MA : Wellesley-Cambridge Press).

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.