Décomposition en valeur singulière (SVD) tutoriel

Décomposition en valeur singulière (SVD)tutoriel

BE.400 / 7.548

La décomposition en valeur singulière prend une matrice rectangulaire de données d’expression génique (définie comme A, où A est une matrice n x p) dans laquelle les n lignes représentent les gènes, et les p colonnes représententles conditions expérimentales. Le théorème SVD stipule :

Anxp= Unxn Snxp VTpxp

UTU = Inxn

VTV = Ipxp (c’est-à-dire que U et V sont orthogonaux).U et V sont orthogonaux)

où les colonnes de U sont les vecteurs singuliers de gauche (vecteurs de coefficient de gène);S (les mêmes dimensions que A) a des valeurs singulières et est diagonal (modeamplitudes) ; et VT a des rangées qui sont les vecteurs singuliers de droite (vecteurs de niveau d’expression). Le SVD représente une expansion des données originales dans un système de coordonnées où la matrice de covariance est diagonale.

Le calcul du SVD consiste à trouver les valeurs propres et les vecteurs propres de AAT et ATA.
Les vecteurs propres de ATA constituent les colonnes de V, les vecteurs propres de AAT constituent les colonnes de U. De plus, les valeurs singulières dans S sont les racines carrées des valeurs propres de AAT ou ATA. Les valeurs singulières sont les entrées diagonales de la matrice S et sont classées par ordre décroissant. Les valeurs singulières sont toujours des nombres réels. Si la matrice A est une matrice réelle, alors Uet V sont également réels.

Pour comprendre comment résoudre la SVD, prenons l’exemple de la matrice qui a été fourni dans Kuruvilla et al:

Dans cet exemple, la matrice est une matrice 4×2.Nous savons que pour une matrice n x n W, alors un vecteur non nul x est le vecteur propre de W si:

W x = l x

Pour un certain scalaire l. Alors le scalaire l est appelé une valeur propre de A, et x est dit être un vecteur propre de A correspondant à l.

Donc pour trouver les valeurs propres de l’entité ci-dessus nous calculons les matrices AAT et ATA. Comme indiqué précédemment ,les vecteurs propres de AAT composent les colonnes de U donc nous pouvons faire l’analyse suivante pour trouver U.

Maintenant que nous avons une matrice nx n nous pouvons déterminer les valeurs propres de la matrice W.

Si W x = l x alors (W- lI) x = 0

Pour un ensemble unique de valeurs propres, le déterminant de la matrice (W-lI) doit être égal à zéro. Ainsi, à partir de la solution de la quéquence de caractérisation, |W-lI|=0, nous obtenons:

l=0, l=0 ; l = 15+Ö221,5 ~ 29,883 ; l = 15-Ö221,5 ~ 0,117 (quatre valeurs propres puisqu’il s’agit d’un polynôme de quatrième degré). Cette valeur peut être utilisée pour déterminer le vecteur propre qui peut être placé dans les colonnes de U. On obtient ainsi les équations suivantes :

19,883 x1 + 14 x2= 0

14 x1 + 9.883 x2 =0

x3 = 0

x4 = 0

En simplifiant les deux premières équations, on obtient un rapport qui relie la valeur de x1 à celle de x2. Les valeurs de x1 et x2 sont choisies de telle sorte que les éléments de S sont les racines carrées des valeurs propres. Ainsi une solution qui satisfait l’équation ci-dessusx1 = -0,58 et x2 = 0,82 et x3 = x4 = 0 (c’est la deuxième colonne de l’Umatrix).

En substituant l’autre valeur propre, on obtient :

-9,883×1 + 14 x2 = 0

14 x1 – 19.883 x2= 0

x3 = 0

x4 = 0

Donc une solution qui satisfait cet ensemble d’équations est x1 = 0,82 et x2 = -0,58 et x3 = x4 = 0 (c’est la première colonne de la matrice U). En les combinant, on obtient :

De même, ATA compose les colonnes de V, nous pouvons donc faire une analyse similaire pour trouver la valeur de V.

et de la même manière nous obtenons l’expression:

Enfin comme mentionné précédemment le S est la racine carrée des valeurs propres de AAT ou ATA. et peut être obtenue directement, ce qui nous donne :

Notez que : s1 > s2 > s3 > … ce qui est ce que l’article indiquait par la figure 4 de l’article de Kuruvill. Dans cet article, les valeurs ont été calculées et normalisées de telle sorte que la valeur singulière la plus élevée soit égale à 1.

Preuve:

A=USVT et AT=VSUT

ATA = VSUTUSVT

ATA = VS2VT

ATAV = VS2

  • Alter O, Brown PO, Botstein D. (2000) Décomposition en valeurs singulières pour le traitement et la modélisation des données d’expression à l’échelle du génome. Proc Natl Acad Sci U S A, 97, 10101-6.
  • Golub, G.H., et Van Loan, C.F. (1989) Matrix Computations, 2nd ed. (Baltimore : Johns Hopkins University Press).
  • Greenberg, M. (2001) Equations différentielles &Algèbre linéaire (Upper Saddle River, N.J. : Prentice Hall).
  • Strang, G. (1998) Introduction à l’algèbre linéaire (Wellesley, MA : Wellesley-Cambridge Press).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.