En un estudio reciente publicado en Naturaleza Biotecnologíalos investigadores desarrollaron un método de secuenciación del genoma completo (WGS) que lee cuatro bases canónicas de ácido desoxirribonucleico (ADN), a saber, adenina (A), citosina (C), guanina (G) y timina (T) más 5-metilcitosina (5mC) y 5-hidroximetilcitosina (5hmC), variantes epigenéticas de C sin modificar para producir una lectura digital precisa de seis letras en un solo flujo de trabajo.

Además, este enfoque fue versátil, lo que implica que amplió su aplicabilidad a diferentes formatos de muestras de ADN. Por ejemplo, podría analizar una muestra de ADN libre de células (cfDNA) obtenida de un paciente con cáncer con alta precisión. Este método también tenía una capacidad inherente de supresión de errores que ayudó a obtener llamadas de bases genéticas y epigenéticas precisas. Finalmente, procesó la(s) muestra(s) de ADN completamente enzimáticamente, previniendo así la degradación del ADN.
Fondo
Table of Contents
El ADN o genoma de los mamíferos almacena información multidimensional necesaria para el sustento; sin embargo, los enfoques de secuenciación de alto rendimiento leen la secuenciación de solo cuatro bases de ADN para interpretar esta información. Estos enfoques analíticos, por lo tanto, no han logrado descubrir la información epigenética almacenada en el ADN, es decir, una expresión génica alterada a pesar de que no hay alteración en el genoma. Aunque son reversibles, los cambios epigenéticos (p. ej., la metilación del ADN) cambian la forma en que su cuerpo lee una secuencia de ADN, lo que, a su vez, podría cambiar el destino celular.
Un análisis combinado de la información genética y epigenética podría generar predicciones más precisas sobre la susceptibilidad a una enfermedad, por ejemplo, el cáncer. La secuenciación de 5mC y 5hmC podría ayudar a recuperar información epigenética en el ADN humano. Con este fin, los investigadores han desarrollado tres métodos de conversión de bases, secuenciación de bisulfito de genoma completo (WGBS), secuenciación de metilo enzimático (EM-seq) y secuenciación de piridina borano asistida por TET para distinguir C no modificado (unmodC) de 5mC o 5hmC .
Sin embargo, estos métodos tienen varias deficiencias. En primer lugar, no pueden detectar con precisión los cambios genéticos de C a T, la mutación más común en los genomas de los mamíferos, especialmente durante el cáncer.
En segundo lugar, en algunos casos, obtienen coincidencias de falsos positivos que posteriormente hacen que el mapeo de las lecturas convertidas sea impreciso, más lento y costoso. Por último, estos métodos no han logrado distinguir 5mC de 5hmC en un solo flujo de trabajo.
Sobre el estudio
En el presente estudio, los investigadores implementaron el flujo de trabajo de cinco secuencias en una muestra de ADN mixta. Comprendía una línea celular de linfoblastos B derivada de 80 nanogramos (ng) de ADN genómico humano (ADNg). Utilizaron 0,5 ng de ADN lambda (λ) de un bacteriófago que estaba metilado enzimáticamente en todas las C. Asimismo, recuperaron 0,5 ng de pUC19 (un vector) de una metilación negativa Escherichia coli cepa.
Prepararon el ADN por duplicado y lo secuenciaron en un Illumina Novaseq 6000 para obtener ~550 millones de lecturas de extremos emparejados. En promedio, resolvieron computacionalmente el 98,4 % de todas las lecturas de ADN. En particular, el 89,8% de estas lecturas de ADN se alinearon con el genoma. Todas las lecturas resueltas comprendían la información genética de cuatro estados y la información epigenética guardada como etiquetas de mapa de alineación de secuencias (SAM).
Los investigadores también compararon la calidad de los datos de los componentes epigenéticos y genéticos de la secuencia de cinco letras con métodos de mejores prácticas. Además, agruparon los recuentos de llamadas modificadas y no modC en CpG en ambos hilos en dos réplicas técnicas para hacer comparaciones. Finalmente, solo consideraron los CpG que abarcaban al menos tres lecturas, es decir, el 94,24 % de todos los CpG.
Además, los investigadores compararon la precisión del componente de secuenciación genética del método de cinco secuencias. Para ello, calcularon la sensibilidad para detectar modC (expresada en porcentaje) y evaluaron la relación de modCs sobre el total de Cs, tanto modC como unmodC. Además, calcularon la especificidad como la proporción de unmodC a todos los C en la referencia de pUC19.
Resultados
Un sistema que utiliza un enfoque de codificación de dos bases permitió la decodificación de hasta 16 estados sin ambigüedades. Hizo la lectura de los cuatro estados genéticos y varios estados epigenéticos en una sola ejecución. Los datos de secuenciación de cinco letras tenían una reacción en cadena de la polimerasa (PCR) promedio y una tasa de duplicación de grupos del 8,5 %, con una lectura de ADN que cubría 15 veces el genoma completo y un mínimo del 90,2 % del genoma.
Este método redujo los tiempos de ejecución en comparación con WGBS y EM-seq. En consecuencia, la coincidencia exacta mínima de Burrows-Wheeler Aligner (BWA-MEM) completó la ejecución para la alineación genómica de un millón de lecturas de ADN resueltas en 16 estados en 7,5 minutos. Del mismo modo, el tiempo de alineación genómica para un millón de lecturas de tres estados, evaluado mediante metilación de BWA, fue de 16,5 minutos.
En todo el genoma humano evaluado en este estudio, los niveles promedio de modC observados en los sitios CHG y CHH medidos por secuencias de cinco letras, WGBS y EM-seq fueron 0,07 %, 0,14 % y 0,33 %, respectivamente. La secuencia de cinco letras produjo los niveles modC promedio más altos en los sitios CpG, es decir, 54,05 %, mientras que lo mismo medido por EM-seq y WGBS fue 51,10 % y 49,38 %.
La secuencia de cinco letras alcanzó una cobertura media media para el 87,82 % de las bases en la muestra de gDNA utilizada en el estudio, mientras que WGBS y EM-seq alcanzaron una cobertura media media del 85,91 % y el 87,48 %, respectivamente. Sin embargo, los investigadores notaron pequeñas caídas y picos en la cobertura de CpG cerca de los sitios de inicio de la transcripción en relación con el genoma restante.
La sensibilidad y especificidad de la secuencia de cinco letras fue 98,55 % y 99,95 %, respectivamente, superior a la de los métodos EM-seq y WGBS, con sensibilidades y especificidades de 97,89 % y 99,5 %, y 95,69 % y 99,92 %, respectivamente. Curiosamente, la secuencia de cinco letras cuantificó modC en todas las lecturas que abarcan CpG y el nivel del genoma al igual que WGBS.
El análisis de cfDNA es crucial en el diagnóstico, con varias aplicaciones en el diagnóstico prenatal, detección de cáncer en una etapa temprana y seguimiento de muchas enfermedades. Una extracción de sangre estándar suele arrojar 10 ng/ml de cfDNA. Los investigadores extrajeron cfDNA de un paciente con cáncer de colon en estadio III y lo analizaron utilizando un flujo de trabajo de secuencia de cinco letras.
Esta muestra tenía apenas dos o 10 ng de cfDNA u 80 ng de gDNA. Todavía. el método de cinco secuencias mantuvo una alta precisión en la detección de metilación, logrando una sensibilidad superior al 98 % a 0,05 ng de ADN de control en la muestra mixta de dos ng. Además, este método no alteró la distribución de longitud de fragmentos típica de cfDNA, lo que sugiere el perfil fraccional mono y dinucleosomal.
La oxidación de 5mC a través de enzimas genera 5hmC, un marcador de estados biológicos, como el cáncer temprano. La distinción inequívoca de 5mC de 5hmC sin comprometer la llamada de base genética siguió un flujo de trabajo de secuenciación de cinco letras que generó el fragmento de muestra ligado con adaptador con la hebra de copia sintética. Sin embargo, para la secuencia de seis letras, usaron ADN metiltransferasa 5 (DNMT5) por su especificidad para la metilación de copias de novo. DNMT5 copió la metilación a 5 mC a través de la unidad CpG a la C en la cadena de ADN de copia.
Conclusiones
La plataforma de estudio utilizó el emparejamiento de bases Watson-Crick para decodificar información genética y epigenética. Por lo tanto, fue fácil de integrar en cualquier plataforma de secuenciador, lo que ampliaría las oportunidades para sus aplicaciones en el futuro, por ejemplo, para el análisis de una sola célula. Además, el trabajo futuro podría explorar modificaciones epigenéticas adicionales, como 5-carboxicitosina, 5-formilcitosina y N6-metiladenina, en varios organismos.


