- Diseño y preparación de plásmidos de ARNhc
- Estrategia para la secuenciación precisa a través de estructuras de horquilla
- Correlación entre la eficacia del knockdown de ARNhc y los algoritmos publicados para el diseño de ARNhc
- Aplicación de una modificación del algoritmo basada en la estabilidad de las 6 bases centrales de cada ARNhc
Diseño y preparación de plásmidos de ARNhc
Para abordar la cuestión de cómo la secuencia de ARNhc se correlaciona con la eficacia del derribo, se diseñaron y construyeron 27 vectores de ARNhc de 11 genes diferentes (Tabla 1). Las secuencias diana fueron seleccionadas en la región codificante de cada gen y fueron diseñadas para ajustarse ampliamente a los estudios seminales de las características de la secuencia para la eficacia del oligómero de ARNsi . En consecuencia, las secuencias son bajas en ejecuciones y tienen una relación G/C de aproximadamente el 50%. Los ARNhc se diseñaron para dirigirse a sitios desprovistos de polimorfismos de un solo nucleótido y corresponden a todas las variantes de empalme amplificadas por nuestros conjuntos de cebadores de PCR en tiempo real.
Dado que los ARNhc pueden tener efectos fuera del objetivo, es importante para los ensayos funcionales hacer un mutante específico con uno o más desajustes de base dentro del sitio de reconocimiento del objetivo como control . Para ahorrar tiempo y costes, hemos desarrollado un método para fabricar vectores de ARNhc salvajes y mutantes simultáneamente (detallado en Métodos y Figura 1). En la Figura 2 se muestran los resultados del knockdown de genes para cuatro pares de ARNhc de tipo salvaje/mutante. Estos resultados demuestran la utilidad de este método para proporcionar un vector de ARNhc mutante puntual que puede servir como control de la pérdida de función para la eliminación de genes mediante ARNhc de tipo salvaje. Aunque se han publicado protocolos detallados para la construcción de vectores de ARNhc, este es el primer protocolo para producir vectores de tipo salvaje y mutantes simultáneamente y debería facilitar la implementación de un sistema altamente controlado para el ARNhc.
Estrategia para la secuenciación precisa a través de estructuras de horquilla
La verificación de la secuencia de una horquilla de ARNhc es esencial ya que el desajuste de incluso un nucleótido dentro de la secuencia diana puede anular el knockdown (Figura 2 y .Un problema que se encuentra con frecuencia en la preparación de vectores de ARNhc es que muchos son difíciles de secuenciar debido a la estructura secundaria intrínseca de la horquilla. Una estrategia propuesta recientemente para superar este problema consiste en diseñar un sitio de restricción dentro de la región del bucle/tallo de la horquilla para separar físicamente las repeticiones invertidas mediante digestión, y luego juntar la secuencia utilizando cebadores en sentido y antisentido. Sin embargo, la capacidad de lograr la secuenciación de las construcciones de ARNhc sin modificar la secuencia del tallo/lazo sería una clara ventaja. Para abordar esta posibilidad, evaluamos reacciones de secuenciación modificadas para mejorar la lectura de la estructura secundaria de la horquilla en tres horquillas de ARNhc. Las modificaciones incluyen la adición de agentes conocidos por relajar la estructura del ADN, como DMSO, betaína, potenciador de PCRx y termofidelasa I; y la adición de cantidades crecientes de la química del terminador BigDye dGTP (dGTP) a la química estándar de BigDye v1.1 (BD), que contiene dITP en lugar de dGTP.
Los resultados de la secuenciación para cada una de las tres construcciones de ADN se resumen en la Tabla 2. La lectura de la estructura de la horquilla se midió como la relación entre la altura del pico de unas 300 bases después de la estructura de la horquilla y la señal de unas 50 bases antes de la estructura de la horquilla. Una relación de 1 indica que no hay pérdida de señal y 0 indica una pérdida completa de lectura. En ausencia de cualquier aditivo para la química de BD, la horquilla causó una reducción en la relación de altura de pico para nuestra horquilla menos estructurada, pHSPG-shmutTLR4, a 0,4, y una pérdida completa de lectura para los otros dos plásmidos. Esto puede visualizarse como una parada abrupta en el perfil del pico de la secuencia para pHSPG-shTLR4 (Figura 3A).
Entre los agentes relajantes del ADN, el 5% de DMSO, la betaína 0,83 M y 1 × PCRx Enhancer mejoraron significativamente la lectura de la secuencia para algunas construcciones. Sin embargo, la adición de 0,83 M de betaína más 1 × PCRx Enhancer a la química BD resultó ser la más consistente en cuanto a la secuencia, con relaciones de altura de pico de 0,5-0,9 (Tabla 2 y Figura 3B). La adición de productos químicos 10:1 BD:dGTP solos también mejoró un poco la lectura, con relaciones de altura de pico de 0,5-0,6 (Tabla 2 y Figura 3C). La relación de altura de pico subóptima para 10:1 BD:dGTP puede atribuirse a un paso visible en el perfil de pico de la secuencia después de la región de la estructura secundaria donde la señal se reduce (Figura 3C, flecha). El aumento del contenido de la química dGTP a 5:1 y 3:1 BD:dGTP o el uso de la química dGTP directa aumentó la relación de altura del pico y redujo un poco el escalón (relación de 0,6 a 0,8). Sin embargo, la incorporación mixta de dITP y dGTP dio lugar a un peor ensanchamiento de los picos a medida que aumentaba la cantidad de dGTP utilizada, y la química de sólo dGTP causó graves compresiones de la secuencia (datos no mostrados). Los mejores resultados globales se observaron al combinar las químicas mixtas de betaína más PCRx y 10:1 BD:dGTP. Esta combinación redujo el paso con menos ensanchamiento de los picos y aumentó las relaciones de altura de los picos a 0,9-1,0 (Tabla 2 y Figura 3D). La termofidelasa I, una enzima desestabilizadora del ADN que se utiliza con frecuencia para mejorar la secuenciación del ADN genómico, no mejoró la secuenciación de ninguna de las tres horquillas en la química BD directa (datos no mostrados) y, de hecho, redujo la relación de altura de los picos de forma significativa en las químicas 10:1 BD:dGTP para las tres construcciones de ARNhc, provocando la reaparición de una parada en la estructura de la horquilla (Tabla 2 y Figura 3E).
En resumen, la combinación de las químicas 10:1 BD:GTP, 0.83 M Betaina, y 1 × PCRx Enhancer proporcionaron una secuenciación óptima, y las químicas mixtas BD:dGTP, Betaina, PCRx Enhancer, y DMSO tuvieron cada una algunos efectos positivos por sí mismas. Sin embargo, la ThermoFidelase I probablemente debería evitarse para los vectores de ARNhc con una estructura secundaria intrínseca difícil.
Correlación entre la eficacia del knockdown de ARNhc y los algoritmos publicados para el diseño de ARNhc
Para determinar si la eficacia del knockdown mediante vectores de ARNhc se correlaciona con las reglas publicadas para el diseño de oligonucleótidos de ARNhc eficaces, se evaluó la capacidad de los ARNhc para derribar la expresión génica. Los ARNhc fueron transducidos de forma estable en líneas celulares humanas THP1 o Jurkat, como se detalla en la Tabla 3, en las dos primeras columnas. El promedio de knockdown se determinó a partir del ARN recogido en tres o más días diferentes y se indica para cada ARNhc (columna 3). El knockdown fue reproducible para las líneas celulares que fueron transducidas y clasificadas independientemente, lo que sugiere que el knockdown es una función de la secuencia objetivo del shRNA más que de las características de la transducción viral. Más de un tercio de los vectores de ARNhc construidos fueron incapaces de suprimir la transcripción (<10% en la columna 3), a pesar de las tasas de crecimiento comparables y de la expresión a largo plazo del marcador GFP a niveles elevados en estas líneas celulares. Además, las grandes variaciones en la eficacia del knockdown para varios shRNAs hechos contra muchos de los mismos genes (es decir, CLR16.2, CLR19.3 y TLR4) argumentan en contra de cualquier razón biológica simple para las diferencias en la eficacia de estos genes. Muchos de los ARNhc inefectivos tienen valores de 5′ ΔΔG negativos y una alta puntuación de Reynolds, cada uno de los cuales ha sido hipotetizado para correlacionar con la eficacia del siRNA knockdown (Tabla 3, Columnas 4 y 5) . Por el contrario, entre los ARNhc que fueron capaces de provocar el knockdown del gen, varios tenían valores positivos de 5’ΔΔG o bajas puntuaciones de Reynolds. Estos resultados indican que la 5’ΔΔG y el algoritmo de puntuación de Reynolds para el ARNsi pueden no proporcionar criterios correlativos positivos para el diseño del ARNhc.
Para determinar si otros algoritmos publicados para el diseño de oligonucleótidos de ARNsi pueden aplicarse a los vectores de ARNhc, cada uno de los sitios diana de ARNhc fue evaluado por cuatro algoritmos adicionales, y las puntuaciones se trazaron contra el porcentaje de knockdown para cada ARNhc (Tabla 3, Columnas 6-9 y Fig. 4). Para cada algoritmo se trazó una línea de mejor ajuste y se calculó el valor R2 como indicación de si la varianza en la eficacia del knockdown puede ser explicada por la puntuación del algoritmo. Los resultados confirman una pobre asociación entre la eficacia del ARNhc y las consideraciones de 5′ ΔΔG (diferencial de energía libre) o el algoritmo de Reynolds et al. , y también demuestran una pobre asociación con el algoritmo de Hsieh et al. , mostrando cada uno de ellos una débil correlación inversa con los datos. Los algoritmos de Amarguizoui et al. , Ui-Tei et al. , y Takasaki et al. , se correlacionan directamente con la eficacia del ARNhc. Sin embargo, ninguna de las puntuaciones de los algoritmos explica un porcentaje significativo de la varianza en la eficacia del knockdown. Entre los algoritmos probados, el sistema de puntuación de Takasaki et al. muestra la mayor asociación, con un valor R2 de 0,0251.
Debido a que estos resultados sugieren que una relación lineal no se aplica fuertemente a los knockdown de ARNhc para ninguno de los seis algoritmos, evaluamos cada uno de los algoritmos mediante un análisis de curva ROC para determinar si algún algoritmo es superior a los demás en la identificación de ARNhc eficaces. La curva ROC es un gráfico de sensibilidad (la fracción de verdaderos positivos, TPF) frente a 1 menos la especificidad (la fracción de falsos positivos, FPF) que se genera variando el umbral de decisión entre la puntuación mínima y máxima del algoritmo. La diagonal del gráfico ROC representa la curva ROC para un algoritmo que no es mejor en la discriminación que la selección aleatoria. Los algoritmos que discriminan mal tienen curvas ROC que siguen la diagonal y tienen un área bajo la curva ROC (AUC) que no es significativamente diferente del AUC de la diagonal (0,5). Los algoritmos que son buenos discriminadores tienen curvas ROC con una fuerte desviación convexa de la diagonal y AUC que se acercan a 1 y son significativamente diferentes del AUC de la diagonal.
El algoritmo de Hsieh et al. tenía una curva ROC cóncava (Fig. 5A) que indicaba una sensibilidad y especificidad inaceptables a la hora de discriminar los ARNhc eficaces de los ineficaces. Las curvas ROC de todos los demás algoritmos (Figs. 5B-F) seguían cerca de la diagonal del gráfico ROC y tenían AUCs que no eran significativamente diferentes de la AUC de la diagonal (Figs. 5B-F). Así, ninguno de los algoritmos mostró una capacidad estadísticamente significativa para discriminar entre ARNhc eficaces e ineficaces.
El algoritmo de Takasaki et al. (Fig. 5F) fue el más prometedor como discriminador de los ARNhc eficaces de los ineficaces. Sin embargo, este algoritmo sufrió de una fracción de falsos positivos relativamente alta para los umbrales de decisión cerca de la puntuación máxima como se indica por la desviación débil y errática de la diagonal cerca del origen de la curva ROC (Fig. 5F). Esto indica que el algoritmo asignó una puntuación alta a un número de ARNhc ineficaces. La inspección de los datos reveló que dos de los tres ARNhc inefectivos de alta puntuación se dirigían a genes cuya expresión fue eliminada con éxito por otros ARNhc (Tabla 3, asteriscos). Por tanto, es poco probable que la ineficacia de los ARNhc sea una consecuencia de la presión selectiva contra la supresión estable de la expresión génica. Es más probable que el algoritmo de Takasaki et al. no tenga en cuenta una característica crítica de los ARNhc eficaces.
Aplicación de una modificación del algoritmo basada en la estabilidad de las 6 bases centrales de cada ARNhc
La inspección de las propiedades físicas de los ARNhc inefectivos de alta puntuación reveló que la estabilidad media del dúplex formado por las 6 bases centrales de los ARNhc (bases 6-11 de la cadena sentido hibridadas con bases 9-14 de la cadena antisentido) era mayor que la estabilidad media de los ARNhc efectivos de alta puntuación (ΔG = -13.1 ± 0,1 frente a -11,1 ± 1 kcal/mol respectivamente). Basándose en esta observación, el algoritmo de Takasaki et al. se modificó de forma que a los ARNhc con un dúplex central ΔG igual o inferior a -12,9 kcal/mol se les asignó una puntuación mínima (Tabla 4). Esta modificación asignó puntuaciones mínimas a cinco ARNhc, cuatro de los cuales eran ineficaces, aumentando así la especificidad del algoritmo sin una pérdida significativa de sensibilidad. Una puntuación mínima asignada a un ARNhc efectivo (71% de knockdown), indica que otras propiedades, además de la estabilidad del dúplex central, influyen en la eficacia. Sin embargo, la adición de esta modificación eliminó la débil desviación errática de la curva ROC de la diagonal para umbrales de decisión altos y aumentó el AUC a 0,79 (Fig. 5I). Una modificación similar de los algoritmos de Amarzguioui et al. y Ui-Tei et al. también aumentó las AUC de sus curvas ROC (Figs. 5G y 5H). Con esta modificación, las AUC de las curvas ROC de los tres algoritmos modificados fueron significativamente diferentes de la AUC de la diagonal (Figs. 5G-I), lo que indica una capacidad de predicción estadísticamente significativa. Las diferencias entre las AUC de las curvas ROC de los algoritmos modificados no fueron significativas, por lo que, desde el punto de vista estadístico, los tres algoritmos modificados tuvieron la misma utilidad. Los algoritmos 5′ ΔΔG, Reynolds et al. y el de Hsieh et al. no mejoraron hasta alcanzar una capacidad predictiva estadísticamente significativa al aplicar la modificación del dúplex central ΔG (datos no mostrados).
Para abordar la posibilidad de que la mejora lograda por la modificación de los algoritmos de Amarzguioui et al, Ui-Tei et al, y Takasaki et al. sea una consecuencia del sobreajuste de nuestro conjunto de ARNhc, se sometió a análisis un conjunto independiente de 38 ARNhc agrupados de publicaciones anteriores (; Tabla 5). Mientras que ninguna de las curvas ROC de los tres algoritmos no modificados tenía un AUC significativamente diferente del de la diagonal (Amarzguioui et al., p = 0,174; Ui-Tei et al. p = 0,09; Takasaki et al., p = 0,26), todos los algoritmos modificados produjeron curvas ROC con AUCs significativamente diferentes del AUC de la diagonal (p = 0,0001-0,009; Figs. 5J-L). Desde el punto de vista estadístico, los tres algoritmos modificados tuvieron la misma utilidad, ya que las AUC de las curvas ROC de los algoritmos modificados fueron todas significativamente diferentes de la AUC de la diagonal, pero no fueron significativamente diferentes entre sí. Este análisis de un conjunto independiente de ARNhc sugiere que la modificación de los algoritmos es de validez general.
Debido a que la minimización de la tasa de falsos positivos es la principal preocupación en el diseño de ARNhc, recomendamos utilizar el algoritmo modificado de Ui-Tei et al. que tuvo la menor fracción de falsos positivos en los umbrales de decisión cercanos a la puntuación máxima, como indica la fuerte desviación de la diagonal cerca del origen de la curva ROC (Figs. 5H y 5K). El uso de un umbral de decisión de 3 limita la selección de ARNhc a una región de la curva ROC en la que la sensibilidad era aceptable (0.28-.33), mientras que la especificidad era muy buena (1.0). Al establecer este umbral de decisión, se minimizó la fracción de falsos positivos, mientras que el 28 – 33% de los shRNAs efectivos se identificaron a partir de nuestros shRNAs y del conjunto de shRNAs publicados respectivamente. Si fuera necesario aumentar la sensibilidad, recomendamos utilizar un umbral de decisión de 2. Este umbral tuvo una sensibilidad de 0,54 – 0,55 y una especificidad de 0,88 – 0,9. Si el umbral de decisión se relaja aún más hasta el 0, la sensibilidad aumenta hasta el 0,86 – 0,9, pero la especificidad cae hasta el 0,55 – 0,54. Recomendamos utilizar el mayor de estos umbrales de decisión posibles.
Aunque es estadísticamente pequeño, este estudio tiene la ventaja, hasta donde sabemos, de ser el conjunto más grande publicado de ARNhc basados en 19 marcadores hasta la fecha. Ademas, a diferencia de otros estudios de ARNhc que necesariamente se inclinan hacia los ARNhc efectivos, nuestro estudio incluye tanto ARNhc funcionales como no funcionales. Hemos demostrado que los algoritmos modificados de Ui-Tei et al., Amarzguioui et al. y Takasaki et al. son herramientas de predicción de regulares a buenas que distinguen los ARNhc eficaces de los ineficaces. Sin embargo, los algoritmos modificados siguen presentando importantes deficiencias. Una evaluación directa de las modificaciones de los algoritmos mediante el uso de ARNhc diseñados según cada algoritmo original y modificado respaldaría estas conclusiones. Estos algoritmos están pensados para reducir el número de ARNhc falsos positivos seleccionados, no para eliminarlos por completo, por lo que se necesitaría un gran número de ARNhc para obtener una diferencia estadísticamente significativa en la tasa de falsos positivos. La disponibilidad de conjuntos de datos de ARNhc más grandes debería apoyar el desarrollo de algoritmos con mayor sensibilidad y especificidad. Además, varias aplicaciones de software para el diseño de oligonucleótidos de ARNsi que no se tuvieron en cuenta en este estudio pueden ser de utilidad en el diseño de ARNhc. Los criterios para el diseño de oligonucleótidos de ARNsi funcionales siguen siendo controvertidos, como demuestra el gran número de estudios que aún se están elaborando para el diseño de ARNsi, y dado que no probamos estas secuencias como ARNsi, no se puede establecer si la modificación de estos algoritmos también se aplica en el contexto de los oligonucleótidos de ARNsi. El ARNhc tiene una capa de complejidad añadida con respecto a los oligonucleótidos de ARNsi, ya que la horquilla debe procesarse dentro de la célula antes de entrar en el complejo RISC. Además, se espera que la presión selectiva contra la expresión estable de los ARNhc que son perjudiciales para el crecimiento de la célula, preste una restricción adicional a la expresión estable de ciertos ARNhc. A pesar de estas complejidades, nuestros descubrimientos comienzan a aportar información sobre la capacidad de aplicar algoritmos de ARNsi para el diseño de ARNhc funcionales.