Tutorial de descomposición del valor singular (SVD)

Tutorial de descomposición del valor singular (SVD)

BE.400 / 7.548

La descomposición del valor singular toma una matriz rectangular de datos de expresión génica (definida como A, donde A es una matriz n x p) en la que las n filas representan los genes, y las p columnas representan las condiciones experimentales. El teorema SVD establece:

Anxp= Unxn Snxp VTpxp

Donde

UTU = Inxn

VTV = Ipxp (es decirU y V son ortogonales)

Donde las columnas de U son los vectores singulares izquierdos (vectores de coeficientes de genes); S (las mismas dimensiones que A) tiene valores singulares y es diagonal (amplitudes de modo); y VT tiene filas que son los vectores singulares derechos (vectores de nivel de expresión). La SVD representa una expansión de los datos originales en un sistema de coordenadas en el que la matriz de covarianza es diagonal.

El cálculo de la SVD consiste en encontrar los valores propios y los vectores propios de AAT y ATA.Los vectores propios de ATA forman las columnas de V, los vectores propios de AAT forman las columnas de U. Además, los valores singulares de S son raíces cuadradas de los valores propios de AAT o ATA. Los valores singulares son las entradas diagonales de la matriz S y están dispuestos en orden descendente. Los valores singulares son siempre números reales. Si la matriz A es una matriz real, entonces U y V también son reales.

Para entender cómo resolver la SVD, tomemos el ejemplo de la matriz que se proporcionó en Kuruvilla et al:

En este ejemplo la matriz es de 4×2.Sabemos que para una matriz n x n W, entonces un vector no nulo x es un vector propio de W si:

W x = l x

Para algún escalar l. El escalar l se llama un valor propio de A, y se dice que x es un vector propio de A correspondiente a l.

Así que para encontrar los valores propios de la entidad anterior calculamos las matrices AAT y ATA. Como se ha dicho anteriormente, los vectores propios de AAT componen las columnas de U por lo que podemos hacer el siguiente análisis para encontrar U.

Ahora que tenemos una matriz nx n podemos determinar los valores propios de la matriz W.

Como W x = l x entonces (W- lI) x = 0

Para un conjunto único de valores propios el determinante de la matriz (W-lI) debe ser igual a cero. Así, a partir de la solución de la ecuación característica, |W-lI|=0 obtenemos:

l=0, l=0; l = 15+Ö221,5 ~ 29,883; l = 15-Ö221,5 ~ 0,117 (cuatro valores propios ya que es un polinomio de cuarto grado). Este valor puede utilizarse para determinar el vector propio que puede colocarse en las columnas de U. Así obtenemos las siguientes ecuaciones:

19,883 x1 + 14 x2= 0

14 x1 + 9.883 x2 =0

x3 = 0

x4 = 0

Al simplificar las dos primeras ecuaciones obtenemos un cociente que relaciona el valor de x1 con el de x2. Los valores de x1 y x2 se eligen de manera que los elementos de la S son las raíces cuadradas de los valores propios. Así, una solución que satisface la ecuación anteriorx1 = -0,58 y x2 = 0,82 y x3 = x4 = 0 (esta es la segunda columna de la Umatriz).

Sustituyendo el otro valor propio obtenemos:

-9,883×1 + 14 x2 = 0

14 x1 – 19.883 x2= 0

x3 = 0

x4 = 0

Por tanto, una solución que satisface este conjunto de ecuaciones es x1 = 0,82 y x2 = -0,58 y x3 = x4 = 0 (es la primera columna de la matriz U). Combinando esto obtenemos:

De forma similar ATA compone las columnas de V por lo que podemos hacer un análisis similar para encontrar el valor de V.

y de forma similar obtenemos la expresión:

Finalmente como se ha mencionado anteriormente la S es la raíz cuadrada de los valores propios de AAT o ATA. y se puede obtener directamente dándonos:

Nótese que: s1 > s2 > s3 > … que es lo que se indicaba en la figura 4 del documento de Kuruvill. En ese documento los valores fueron calculados y normalizados de tal manera que el valor singular más alto era igual a 1.

Prueba:

A=USVT y AT=VSUT

ATA = VSUTUSVT

ATA = VS2VT

ATAV = VS2

  • Alter O, Brown PO, Botstein D. (2000) Descomposición de valores singulares para el procesamiento y modelado de datos de expresión de todo el genoma. Proc Natl Acad Sci U S A, 97, 10101-6.
  • Golub, G.H., y Van Loan, C.F. (1989) Matrix Computations, 2nd ed. (Baltimore: Johns Hopkins University Press).
  • Greenberg, M. (2001) Differential equations & Linear algebra (Upper Saddle River, N.J. : Prentice Hall).
  • Strang, G. (1998) Introduction to linear algebra (Wellesley, MA : Wellesley-Cambridge Press).

Deja una respuesta

Tu dirección de correo electrónico no será publicada.