Este manuscrito proporciona todo el procesamiento necesario y las estrategias de control de calidad para generar un conjunto de datos de genotipado de Illumina de alta calidad.
Los arreglos de genotipado de Illumina han impulsado miles de estudios de asociación a gran escala del genoma en la última década. Sin embargo, debido al tremendo volumen y las complicadas suposiciones genéticas de los datos de genotipado de Illumina, el procesamiento y el control de calidad (QC) de estos datos siguen siendo un desafío. El control de calidad exhaustivo garantiza la identificación precisa de los polimorfismos de un solo nucleótido y es necesario para la correcta interpretación de los resultados de la asociación genética. Al procesar datos de genotipado en> 100 000 sujetos de> 10 matrices principales de genotipado de Illumina, hemos acumulado una amplia experiencia en el manejo de algunos de los escenarios más peculiares relacionados con el procesamiento y el control de calidad de los datos de genotipado de Illumina. Aquí, describimos estrategias para procesar datos de genotipado de Illumina de los datos sin procesar a un formato listo para análisis, y elaboramos los procedimientos de control de calidad necesarios requeridos en cada paso del proceso. Se pueden obtener conjuntos de datos de genotipado de Illumina de alta calidad siguiendo nuestras estrategias detalladas de control de calidad.
Palabras clave: matriz SNP, genotipado, matriz de genotipado, control de calidad, cluster
Introducción
Las micromatrices de genotipificación también se conocen como matrices de polimorfismo de un solo nucleótido (SNP), y han sido la herramienta elegida para los estudios de asociación de genoma completo (GWAS) en los últimos 15 años. Illumina tiene una larga historia de diseño y producción de arreglos de genotipado, y muchos de ellos impulsan importantes GWAS. Una de las series de productos más recientes de Illumina es la matriz de exomas con SN240 000 SNP, que, según la versión, se centra en las variantes exónicas, con un 24,8% adicional de los SNP del catálogo GWAS [ 7 ]. Con una parte sustancial (68%) de los SNP en arreglos de exomas que son raros, con frecuencia de alelos menores (MAF) <1%, protocolos especiales [ 8] se han desarrollado para procesar y control de calidad (QC) estos datos. La última matriz de genotipificación de Illumina es la matriz de genotipado multiétnica expandida Infinium (MEGA EX ), que contiene> 2 millones de SNP y cubre el 65.7% de los SNP del catálogo de GWAS.
La característica más atractiva de estos nuevos arreglos de Illumina es su asequibilidad, con precios de $ 55 a $ 70 por grupo. En comparación con el costo de $ 600– $ 700 de secuenciación del exoma por muestra, el chip del exoma ofrece una alternativa mucho más fiscalmente razonable para realizar GWAS a gran escala. Las matrices de exomas se han popularizado rápidamente y potencian muchos estudios genéticos y de asociación de alto perfil [ 9–11 ]. Con el precio asequible, el excelente contenido de SNP y la personalización, la matriz MEGA EX está preparada para convertirse en la próxima plataforma popular de genotipificación para estudios de asociación genética a gran escala.
El procesamiento y el control de calidad de los arreglos de genotipado de Illumina se pueden dividir en dos etapas principales basadas en las herramientas principales utilizadas: GenomeStudio y PLINK [ 12 ]. GenomeStudio es un software diseñado por Illumina que procesa sus datos genómicos en bruto. No hay métodos alternativos para procesar la matriz de genotipado de Illumina actualmente. El módulo de genotipado de GenomeStudio procesa la matriz de genotipado de Illumina desde los datos sin procesar hasta el formato PLINK, que es el formato estándar para almacenar datos de genotipado. El control de calidad siempre ha sido un componente importante en el procesamiento de datos genómicos de alto rendimiento, y es necesario un control de calidad exhaustivo en los múltiples pasos del procesamiento de datos para garantizar la integridad de los datos [ 13–16]. Se pueden realizar varios procedimientos de control de calidad tanto a nivel de GenomeStudio como de PLINK. A continuación, describiremos estrategias detalladas para el procesamiento y el control de calidad de las matrices de genotipado de Illumina desde múltiples perspectivas.
Procesamiento de GenomeStudio Carga de datos El primer paso para analizar los datos de genotipado de Illumina es cargar los datos sin procesar en GenomeStudio, que puede ser un proceso tedioso para proyectos grandes con cientos de hojas de muestra. En general, cada hoja de muestra puede contener hasta 96 muestras (96 muestras por placa). GenomeStudio solo permite cargar una hoja de muestra a la vez, lo que es muy ineficiente. En su lugar, se pueden combinar varias hojas de muestras en una hoja para cargar todas las muestras a la vez. Al cargar los datos, se da una opción de incluir un archivo de clúster disponible anterior. El archivo de clúster se puede exportar desde otros proyectos de genotipado del mismo diseño de arreglo que ya ha sido sometido a un control de calidad riguroso. El uso de un archivo de clúster que ya ha sido de calidad controlada reduce significativamente la posibilidad de agrupación errónea y mejora la tasa de llamadas de las muestras. Esta mejora es de particular importancia para las variantes raras, que a menudo se incluyen en las últimas generaciones de las plataformas de genotipado. Un ejemplo del beneficio para usar un archivo de clúster de control de calidad se presenta enFigura 1 .
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f1p.jpg Abrir en una ventana separada Figura 1 Mejora mediante el uso de un archivo de agrupamiento anterior. En este ejemplo, un archivo de clúster se exportó desde un proyecto de genotipado utilizando la matriz MEGA EX de 7300 sujetos después de un control de calidad exhaustivo. Un nuevo proyecto de genotipado que utiliza la misma matriz en 64 sujetos se agrupó con y sin el archivo de clúster exportado de los 7300 temas anteriores. Observamos un promedio de 1.70% (rango: 1.34–1.90%) aumento de la frecuencia de llamadas por muestra cuando se agrupan con un archivo de clúster con control de calidad anterior. Esta evidencia demuestra que el uso de un archivo de clúster controlado de buena calidad puede mejorar significativamente (el valor de p de t de par <0.0001) mejorar significativamente la tasa de llamadas de las muestras.
Agrupación El diseño de una matriz de genotipado se basa en el concepto de tecnología de hibridación. Para detectar los dos alelos de un SNP, se sintetizan dos sondas (oligonucleótidos) para capturar cada uno de los dos alelos (alelos A y B) para el SNP. Un SNP puede representarse como genotipos AA, AB y BB. Las secuencias diana marcadas con fluorescencia creadas a partir de muestras de origen se unen a las dos secuencias de sonda y generan una señal que depende de las condiciones de hibridación. El nivel de intensidad de fluorescencia de cada sonda representa la intensidad de la señal para cada alelo. Después de medir los niveles fluorescentes de las dos sondas de múltiples muestras, se aplica un algoritmo de agrupación a los niveles fluorescentes para formar una agrupación que distingue las muestras en agrupaciones AA, AB y BB ( Figura 2A).). El grupo también puede verse después de una transformación polar de la intensidad A y B para una mejor claridad ( Figura 2B ).
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f2p.jpg Figura 2 ( A ) El diagrama de racimo presentado en coordenadas cartesianas. El eje x es la intensidad normalizada para el alelo A. El eje y es la intensidad normalizada para el alelo B. ( B ) El mismo diagrama de grupo se presenta en coordenadas polares. El eje x es el normal normalizado, que se calcula como θ = 2πa r c t a n( 1A B). El eje y es la normalizada R , que se calcula como R = A + B . En ambas gráficas, el grupo rojo (Izquierda en A y Derecho en B) denota el genotipo AA, el grupo púrpura (centro) denota el genotipo AB y el grupo azul (Izquierda en A y Derecho en B) denota el grupo BB. A las muestras entre grupos (negro) no se les asignó un genotipo. Una versión en color de esta figura está disponible en BIB en línea: https://academic.oup.com/bib .
Después de cargar los datos sin procesar en GenomeStudio, se realiza el agrupamiento de intensidades para todos los SNP. El siguiente paso es filtrar muestras de baja calidad. Para estudios grandes que contienen miles de sujetos, esperamos una tasa de fracaso de la muestra de alrededor del 1-2% [ 8 ]. El mejor parámetro para medir la calidad general de la muestra es la tasa de llamada, que mide el porcentaje de SNP con llamadas de genotipo para una muestra. Diferentes arreglos de genotipado pueden tener diferentes estándares de tasa de llamadas, sin embargo, el estándar de tasa de llamadas comúnmente utilizado es de 95 a 98% [ 8 ]. Cualquier muestra por debajo del estándar de tasa de llamada debe excluirse de análisis posteriores. Dentro de GenomeStudio, una opción útil para mostrar los clústeres es ocultar las muestras excluidas, lo que puede mejorar sustancialmente la claridad del clúster ( Figura 3 ).
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f3p.jpg figura 3 ( A ) Un ejemplo de un grupo de SNP con un gráfico con muestras que deben eliminarse debido a la baja calidad de la muestra. ( B ) El mismo SNP con las muestras de baja calidad eliminadas. El clúster se hizo mucho más claro. Una versión en color de esta figura está disponible en BIB en línea: https://academic.oup.com/bib .
Re-agrupamiento manual El algoritmo de agrupación utilizado en el módulo de genotipado de GenomeStudio se llama GenTrain. La implementación exacta del algoritmo no ha sido divulgada por Illumina. El algoritmo funciona bien en la mayoría de los SNP en cualquier matriz de genotipado de Illumina. Sin embargo, hasta el 5% de todos los SNP pueden estar mal agrupados, lo que significa que los clústeres AA, AB y BB no están correctamente identificados [ 8]. En este caso, el operador del software puede arreglar manualmente estos clústeres. Hay varias mediciones de control de calidad importantes para las llamadas de SNP dentro de GenomeStudio que pueden ayudar a identificar los SNP que pueden necesitar ser reagrupados manualmente. Nuevamente, el aumento en el número de variantes raras incluidas en el diseño de la última generación de plataformas de genotipificación hace imperativo que se utilicen estas medidas de control de calidad, ya que estas variantes raras son las que tienen más probabilidades de fallar en el agrupamiento automático.
El parámetro de control de calidad más importante es la puntuación GenTrain. El puntaje GenTrain se calcula a partir del algoritmo de agrupamiento GenTrain 2.0. Es una medida de la calidad de las llamadas de SNP, que va de 0 a 1, con un valor más alto que significa una mejor calidad. Un ejemplo de un puntaje de GenTrain se da en la Figura 4 . El segundo parámetro de control de calidad más importante es la puntuación de separación del grupo, que mide qué tan bien se separan los grupos AA, AB y BB. El puntaje de separación del grupo también varía de 0 a 1, con un significado más alto mejor (más separación). Un ejemplo de una puntuación de separación de grupo se muestra en la Figura 4. El tercer parámetro de control de calidad más importante es la frecuencia de llamadas, que mide el porcentaje de muestras con llamadas exitosas para ese SNP. La frecuencia de llamadas también varía de 0 a 1, lo que significa que más muestras tienen llamadas exitosas para este SNP. Estas tres puntuaciones a menudo están correlacionadas positivamente, pero también identifican escenarios únicos a los que solo una de las tres medidas puede ser sensible. Por lo tanto, para determinar si se necesita un reagrupamiento manual, es mejor ordenar los SNP por cada uno de los tres parámetros de control de calidad, de pequeño a grande, y revisar los SNP con las puntuaciones más bajas en cualquiera de las tres medidas.
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f4p.jpg Figura 4 ( A ) Un ejemplo de un SNP con un bajo puntaje de GenTrain (0.42). ( B ) Al realinear manualmente las posiciones del clúster, el clúster se vuelve mucho más claro y la puntuación GenTrain mejora a 0,8. ( C ) Un ejemplo de clúster fallido por el algoritmo GenTrain, con una puntuación de separación de clúster de 0,65. ( D ) El mismo SNP se volvió a agrupar al realinear manualmente las posiciones del clúster, y la puntuación de separación del clúster aumentó a 1. Una versión en color de esta figura está disponible en línea en BIB: https://academic.oup.com/bib .
Pueden surgir escenarios de cluster peculiar. Por ejemplo, los grupos homocigotos y heterocigotos pueden estar cerca, lo que hace que los grupos sean difíciles de separar ( Figura 5A ). A veces, el grupo AA o BB puede tener una cola larga ( Figura 5B ) o una extensión extraña ( Figura 5C ). Ocasionalmente, se pueden observar cuatro grupos en lugar de tres ( Figura 5D ). En todos estos escenarios, es mejor adoptar el enfoque conservador de eliminar el SNP o simplemente las muestras que aparecieron fuera del patrón de agrupación normal, por ejemplo, en la cola larga.
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f5p.jpg Figura 5 ( A ) Un ejemplo de un SNP con presuntos agrupamientos AB y BB estrechamente conectados. En este escenario, elimine el SNP (preferido) o elimine las muestras entre los grupos. ( B ) Un ejemplo de un SNP con una cola larga en el grupo de AA. Recomendamos retirar las muestras de la cola para que sean conservadoras. ( C ) Un ejemplo de un SNP con una extensión o cola extraña en el cluster AA. La causa exacta de este patrón es desconocida. Recomendamos eliminar el SNP o eliminar las muestras en la extensión. ( D ) Un ejemplo de un SNP con cuatro grupos visibles que no tiene sentido biológico. Recomendamos quitar este SNP. Una versión en color de esta figura está disponible en BIB en línea: https://academic.oup.com/bib .
Repetir muestras y errores mendelianos. Todos los estudios de genotipado a gran escala contienen muestras de control para evaluar la calidad. Las muestras de control son repeticiones de muestras o muestras de tríos familiares (padre, madre e hijo) de HapMap [ 17]. GenomeStudio evalúa el error de repetición de muestras repetidas y el error mendeliano de muestras de tríos familiares. Los errores de repetición ocurren cuando los genotipos del mismo SNP son diferentes entre las muestras repetidas. Los errores mendelianos son instancias en las que los alelos de la línea germinal de un descendiente no se obtienen a través de la herencia mendeliana de cada padre. Por ejemplo, para un SNP, la madre tiene el genotipo [A / A], el padre tiene el genotipo [A / A] y el niño tiene el genotipo [A / C]. El alelo C se considera un error mendeliano. En GenomeStudio, los errores mendelianos se conocen como errores de padre a padre e hijo (PPC) o errores de padre a hijo (PC) cuando solo hay un padre disponible. Mientras que los errores mendelianos pueden ser verdaderos de novo.Las mutaciones, en general, indican problemas de genotipado con ese SNP. Los SNP con errores repetidos (> 10) excesivos o mendelianos deben considerarse para su eliminación.
Cromosomas sexuales y mitocondrias. Los cromosomas 1–22 son diploides, lo que significa que tienen dos alelos para cada SNP. También hay dos cromosomas sexuales: X e Y. Las hembras tienen dos copias de X, lo que las hace diploides, mientras que los machos tienen solo una copia de X y una copia de Y. La evaluación de la calidad de los SNP en los cromosomas X e Y debe ser estratificada por sexo. Una complicación adicional es que en los cromosomas sexuales, hay muchas regiones pseudoautosómicas (PAR), que son regiones homólogas que resultan del emparejamiento y la recombinación de los cromosomas X e Y durante la meiosis. Los SNP en los PAR suelen anotarse como el cromosoma XY. Sin embargo, en algunos arreglos, los SNP de PAR se etiquetan simplemente como SNP en el Cromosoma X. Hasta ahora, se han identificado tres PAR [ 18 , 19]. Los SNP en los PAR deben tratarse como diploides, incluso en hombres, en lugar de como cromosomas sexuales. En la Figura 6 se dan ejemplos de SNP problemáticos en los cromosomas sexuales .
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f6p.jpg Figura 6 ( A ) Un ejemplo de un SNP problemático en el cromosoma X. Los sujetos masculinos se presentan en amarillo (gris cuando se imprimen en escala de grises), y no deberían aparecer en el grupo AB porque los machos son haploides en el cromosoma X. ( B ) Un ejemplo de un SNP problemático en el cromosoma Y. Los sujetos femeninos se presentan en verde (gris cuando se imprimen en escala de grises), y no deben incluirse en ningún grupo porque las hembras no tienen el cromosoma Y. ( C ) Un ejemplo de un SNP de ADNmt. El grupo AB indica la presencia de heteroplasmia en numerosas muestras en este sitio. ( D) Un ejemplo de un mtDNA SNP donde el grupo AB incluyó algunas muestras con valores de R bajos por error. Este problema se puede resolver moviendo el grupo AB ligeramente hacia arriba. Una versión en color de esta figura está disponible en BIB en línea: https://academic.oup.com/bib .
Las mitocondrias contienen un genoma haploide hereditario de la madre, ADN mitocondrial (ADNmt). En cualquier posición dada en el genoma mitocondrial, solo debe haber un alelo. Esta característica teóricamente hará que cualquier SNP en una mitocondria parezca ser el genotipo AA o BB. Esto es cierto para la mayoría de las muestras y mtDNA SNP. Sin embargo, las células de mamíferos pueden contener muchas mitocondrias, y cada mitocondria puede contener hasta 10 copias de ADNmt [ 20 ]. Por lo tanto, el ADNmt es a menudo heteroplásmico (que contiene copias normales y mutantes del ADNmt) [ 21 , 22 ]. La característica de la heteroplasmia se puede ver en el diagrama de conglomerados como un conglomerado AB [ 23]. La aparición del clúster AB para los SNP de ADNmt debe ser rara, ya que una representación abrumadora del clúster AB puede indicar SNP problemáticos. En la Figura 6 se dan ejemplos de SNP heteroplásmicos en mitocondrias . Al igual que con el cromosoma sexual, la calidad de los SNP de ADNmt debe evaluarse por separado de los SNP autosómicos. Sin embargo, a diferencia de los cromosomas sexuales, no es necesario evaluar la calidad del SNP del ADNmt por separado en hombres y mujeres.
SNPs raros Los SNP con MAF <1% pueden ser problemáticos para agrupar. Los algoritmos de agrupamiento estándar se diseñaron teniendo en cuenta los SNP comunes. El algoritmo de clúster GenTrain a menudo falla en identificar clústeres de baja frecuencia, por lo que no se cuentan los SNP raros. Para identificar dichos SNP, podemos aplicar los siguientes filtros dentro de GenomeStudio: Primero, seleccione los SNP con MAF <1%, seleccione los SNP con frecuencia de llamada <0.999 y luego seleccione los SNP con frecuencia AB <0.001. El filtro de frecuencia de llamada seleccionará los SNP con una pequeña cantidad de muestras que no se llaman. La combinación de estos tres filtros producirá una lista de SNP con MAF bajo o cero. Algunas muestras en las que estos SNP están fuera de lugar son probables candidatos a portar el alelo menor de esos SNP raros, pero fueron agrupados por el algoritmo GenTrain.
Hay dos enfoques para el manejo de SNP raros y agrupados incorrectamente. El primer enfoque consiste en utilizar el programa zCall [ 24 ], que puede volver a agrupar los SNP en función del archivo de informe GenomeStudio. Los informes han demostrado que, aunque zCall puede recuperar algunos SNP raros mal agrupados, también puede introducir nuevos falsos positivos [ 8 ]. Recomendamos que solo se vuelvan a agrupar los SNP raros (MAF <1%) para minimizar la posibilidad de falsos positivos adicionales. El segundo enfoque es un enfoque de fuerza bruta, lo que significa la revisión manual de todos los candidatos SNP raros por los filtros seleccionados.
Control de calidad PLINK GenomeStudio ofrece dos formatos de exportación principales: el informe GenomeStudio y PLINK. Dado que PLINK es el formato estándar universal para almacenar datos de genotipado, consideraremos todos nuestros análisis restantes basados en el formato PLINK. PLINK en sí ofrece muchas funcionalidades útiles de control de calidad, que analizaremos en detalle.
Hebra Una de las mayores debilidades del diseño de matriz de genotipado de Illumina es la definición de hebra de Illumina. Como el ADN es de doble cadena, los SNP significativos de GWAS deben presentarse con su información de cadena para informar adecuadamente los alelos de riesgo. Lamentablemente esto no ha sido una práctica habitual. La definición más intuitiva de hebra es usar la referencia del genoma humano como hebra hacia adelante. Desafiando a la lógica, Illumina introdujo una definición más complicada de cadena: superior e inferior [ 25 ], que ha causado una gran confusión con respecto a la línea directa e inversa [ 26 , 27]. Al exportar datos de genotipado de GenomeStudio a un archivo de formato PLINK, se puede seleccionar una opción para convertir todos los SNP a la cadena de reenvío. Sin embargo, esta definición de 'Línea directa' es diferente de la convencional o existen varios errores en el algoritmo de conversión, lo que hace que ∼1–1% de todos los SNP no se conviertan en la cadena directa en el archivo PLINK exportado en varios genotipos Illumina matrices
Se pueden aplicar varias estrategias para detectar la cadena de un SNP, como comparar la frecuencia calculada del alelo con la frecuencia alélica de un conjunto de datos reportado previamente o comparar alelos reales con una población de referencia. Sin embargo, cuando la frecuencia del alelo está cerca del 50%, o los dos alelos del SNP son complementarios inversos ([A / T] o [C / G]), estos métodos simples no son suficientes para identificar la verdadera cadena del SNP. Una solución típica es crear archivos flip de hebra para convertir la hebra de la matriz de genotipado de Illumina. Este tipo de enfoque [ 28 , 29] requiere la creación de un archivo flip para cada versión de la matriz, por lo que requiere actualizaciones frecuentes del creador. La solución definitiva para la ambigüedad de la cadena es comparar la secuencia de la sonda con la secuencia de referencia, que se ha implementado en StrandScript [ 30 ]. Este tipo de enfoque es más seguro para el futuro porque es independiente de la versión de la matriz de genotipado de Illumina, siempre que las secuencias de la sonda se informen con precisión.
Sexo y raza Sexo y raza son dos variables clínicas autoinformadas que a menudo están sujetas a errores. Afortunadamente, el sexo y la raza se pueden determinar mediante un análisis cuidadoso de los datos de genotipado. PLINK ofrece la funcionalidad (comando –check-sex) para estimar el sexo mediante el cálculo de las estimaciones de endogamia utilizando los SNP en el cromosoma X. La salida de sex check es un archivo de texto de seis columnas. La quinta columna es "Estado", que puede ser PROBLEMA o OK. La sexta columna contiene la estimación de la consanguinidad del cromosoma X. PLINK tiende a sobreestimar la probabilidad de desajuste sexual. En su lugar, recomendamos utilizar la estimación de endogamia para evaluar el sexo de cada muestra. Un varón debe tener una estimación de consanguinidad para el cromosoma X> 0,8. Una hembra debe tener una estimación de consanguinidad <0.2. Un ejemplo de verificación de sexo usando PLINK se da en la Figura 7 .
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f7p.jpg Figura 7 ( A ) Un ejemplo de un histograma para la estimación de la consanguinidad del cromosoma X calculada por PLINK para los machos. ( B ) Un ejemplo de un histograma para la estimación de la consanguinidad del cromosoma X computada por PLINK para hembras. El color rojo (derecha en A y izquierda en B) indica sujetos sin problemas obvios; el color azul (Izquierda en A y Derecha en B) indica muestras con problemas definitivos que pueden ser causados por transfusiones de sangre, autoinformes o errores de entrada de datos. El color verde (centro) indica muestras cuestionables, ya que están fuera del rango normal para las estimaciones de endogamia, pero no lo suficientemente fuertes como para ser definidas como valores atípicos. Recomendamos marcar estas muestras y decidir si excluirlas en función de otras métricas de control de calidad. Una versión en color de esta figura está disponible en BIB en línea:https://academic.oup.com/bib .
La raza puede determinarse genéticamente mediante la realización de un análisis de componentes de principio (PC) en marcadores informativos de ascendencia (AIM). Los AIM son SNP que muestran frecuencias de alelos sustancialmente diferentes entre poblaciones de diferentes etnias. Cada diseño de la matriz de genotipado de Illumina contiene miles de AIM. El análisis de PC puede realizarse utilizando EIGENSTRAT [ 31 ]. PC1 y PC2 se consideran sustitutos prácticos de la raza, en particular para la población estadounidense. Los estudios de asociación genética a menudo se ajustan a las primeras PC en lugar de la raza real en sus modelos de asociación porque las PC pueden capturar con mayor precisión la diferencia genética intrínseca incluso dentro de una población aparentemente de la misma raza [ 32]]. Al trazar PC1 frente a PC2, podemos visualizar la carrera determinada genéticamente como posiciones en el diagrama de dispersión ( Figura 8 ) e identificar muestras de valores atípicos obvios.
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f8p.jpg Figura 8 ( A ) Diagrama de dispersión de PC1 frente a PC2 calculado por EIGENSTRAT a partir de datos de genotipado de 1000G. Las muestras están estrechamente agrupadas por raza. AFR = poblaciones de ascendencia africana, AMR = hispanos estadounidenses, EAS = asiáticos orientales, EUR = caucásicos, SAS = asiáticos del sur. Se pueden observar pocos valores atípicos de la raza en los datos del Proyecto 1000 del Genoma más allá de los atribuibles a la mezcla. ( B) Diagrama de dispersión de PC1 frente a PC2 calculado por EIGENSTRAT a partir de los datos de la matriz del exoma de Illumina. La forma de los grupos se parece más o menos a la del Proyecto 1000 Genoma. En lugar de utilizar una raza autoinformada, podemos determinar la raza dibujando cuadros alrededor de grupos. Las muestras en los bordes o fuera del borde de las cajas son ambiguas, ya que podrían ser resultado de transfusiones de sangre o autoinformes o errores de entrada de datos. El recuadro E (amarillo) indica un grupo de probables sujetos de raza mixta de primera generación entre ancestros africanos y caucásicos. Dicha información detallada de la ascendencia por lo general no se captura por autoinforme de la raza. Esto apoya lo racional de que durante el análisis de asociación, las PC deben usarse como sustitutos de la raza autoinformada. Una versión en color de esta figura está disponible en BIB en línea:https://academic.oup.com/bib .
Equilibrio de Hardy-Weinberg El principio del equilibrio de Hardy-Weinberg (HWE) establece que las frecuencias alélicas en una población se mantienen constantes de una generación a otra sin influencias evolutivas. La desviación de este equilibrio se ha sugerido como un indicador de posibles errores de genotipificación, estratificación de la población o incluso asociación real con el rasgo en estudio [ 33 , 34 ]. Los GWAS grandes a menudo prueban la desviación de HWE para detectar errores de genotipado en individuos no relacionados [ 35 , 36 ]. PLINK admite pruebas HWE con el comando '–hardy', que genera un valor P para denotar el significado de la desviación de HWE. Sin embargo, simplemente seleccionando un corte P-valor para filtrar SNPs no es ideal. Muchos escenarios prácticos pueden causar valores de P significativos en las pruebas de HWE, como selección, mutación, estratificación de la población, inmigración, etc. El valor de P de una prueba de HWE tiende a contener muchos resultados significativos por el umbral de valor de P estándar P <0.05 . Diferentes estudios han adoptado diferentes estándares de valores de HWE P , desde P <0,001 hasta P <10 - 7 [ 8 , 37 , 38 ]. Estas normas suelen ser arbitrarias. En nuestra opinión, solo los SNPs con extrema HWE PLos valores deben eliminarse, y la revisión manual de los SNP con valores bajos de P de HWE evitará la exclusión de buenos SNP.
La definición de HWE lo restringe a una población; por lo tanto, las pruebas HWE deben aplicarse a muestras estratificadas por raza. GenomeStudio ofrece la funcionalidad para probar HWE. Sin embargo, GenomeStudio no puede realizar pruebas HWE estratificadas por raza. Por lo tanto, si el conjunto de datos de genotipado contiene muestras de varias razas, PLINK es la mejor herramienta para examinar HWE. Además, si el conjunto de datos de genotipificación es de un estudio de casos y controles, la prueba de HWE se debe realizar solo con las muestras de control, ya que algunas enfermedades pueden causar una desviación de la HWE en los loci asociados con la enfermedad [ 39 ]. Un ejemplo de la distribución de los valores de P para la prueba HWE se muestra en la Figura 9A .
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f9p.jpg Figura 9 ( A ) Un ejemplo de la distribución de valores HWE P calculados por PLINK a partir de un conjunto de datos de genotipado de caucásicos obtenidos de la matriz Illumina MEGA EX . Solo los SNP con valores P extremos (derecha) deben ser candidatos para la eliminación. ( B ) Un ejemplo de la distribución para heterocigosidad calculada por PLINK a partir de un conjunto de datos de genotipado de caucásicos obtenidos de la matriz Illumina MEGA EX . La mayoría de las muestras tienen valores de heterocigosidad entre 0,35 y 0,45. Solo las muestras con valores de heterocigosidad extrema son candidatas para la eliminación. Tenga en cuenta que el valor de heterocigosidad esperado puede diferir según la raza [ 40 ].
Heterocigosidad El cálculo de la tasa de heterocigosidad para un conjunto de datos de genotipado con un gran número de SNP y una población de muestra homogénea puede ayudar a identificar SNP problemáticos, ya que una mayor heterocigosidad puede indicar una contaminación de la muestra y una baja heterocigosidad puede indicar endogamia. La prueba de heterocigosidad se puede lograr en PLINK usando el comando '–het'. Un ejemplo de la distribución de la relación de heterocigosidad se proporciona en la Figura 9B .
Paridad Los proyectos de genotipado a gran escala pueden contener hasta decenas de miles de sujetos. Algunos de estos temas pueden estar relacionados genéticamente sin registro para indicar esto. En el análisis de asociación estándar, la independencia de los sujetos siempre se asume. Por lo tanto, es importante probar si alguno de los sujetos está relacionado al calcular la identidad por distancia de estado entre todas las posibles muestras por pares a través de la estimación de la identidad por pares por descenso (IBD). PLINK calcula la proporción IBD a través del comando '–genoma'. La proporción de EII es un valor numérico que va de 0 a 1, donde 0 indica que no hay relación genética,> 0.125 indica parientes de tercer grado (primos, etc.),> 0.25 indica parientes de segundo grado (medio hermanos, tío, tía, etc.), > 0.5 indica parientes de primer grado (hermanos completos, padres-descendientes) y los valores cercanos a 1 indican muestras duplicadas o gemelos monocigóticos. Además, la verificación de la relación puede ayudar a identificar muestras potencialmente contaminadas entre sí cuando el ADN de una muestra se mezcla con otras múltiples muestras. Las muestras contaminadas de forma cruzada pueden detectarse como una a muchas proporciones más altas que las normales de IBD.
Consistencia del genotipado Un buen diseño de estudio de genotipado siempre incluye muestras de control externo de HapMap [ 17 ], muestras de control del Proyecto 1000 Genomas (1000G) [ 41]] o muestras duplicadas internas. Las consistencias de genotipado se pueden calcular entre los datos de genotipo publicados públicamente, los datos de genotipo internos para muestras de control externo y entre los datos de genotipo de muestras repetidas. La consistencia del genotipo se puede calcular como una consistencia global o como una consistencia heterocigótica. La consistencia general del genotipo se define como el número de SNP consistentes dividido por el número de SNP superpuestos. La consistencia del genotipo heterocigoto se define como el número de SNPs heterocigotos consistentes dividido por el número de SNPs heterocigotos dentro de la región superpuesta. La consistencia general tiende a inflarse porque la mayoría del genoma humano es homocigoto de referencia. La consistencia del genotipo heterocigoto es una medida más conservadora. Para un estudio de genotipado realizado con éxito, se espera que la tasa de consistencia del genotipo heterocigoto sea> 97% y que la tasa de consistencia general sea> 99%. Además, en todos los arreglos de genotipado de Illumina, hay SNP duplicados. La tasa de coherencia se puede calcular entre los SNP duplicados en todas las muestras. La identificación de los SNP duplicados no solo requiere la identificación de los SNP que apuntan a las mismas posiciones genómicas, sino también la confirmación de que intentan capturar los mismos alelos. El cambio de hebra puede ser necesario para determinar SNP verdaderamente duplicados. La tasa de consistencia esperada para los SNP duplicados es> 99%. La tasa de coherencia se puede calcular entre los SNP duplicados en todas las muestras. La identificación de los SNP duplicados no solo requiere la identificación de los SNP que apuntan a las mismas posiciones genómicas, sino también la confirmación de que intentan capturar los mismos alelos. El cambio de hebra puede ser necesario para determinar SNP verdaderamente duplicados. La tasa de consistencia esperada para los SNP duplicados es> 99%. La tasa de coherencia se puede calcular entre los SNP duplicados en todas las muestras. La identificación de los SNP duplicados no solo requiere la identificación de los SNP que apuntan a las mismas posiciones genómicas, sino también la confirmación de que intentan capturar los mismos alelos. El cambio de hebra puede ser necesario para determinar SNP verdaderamente duplicados. La tasa de consistencia esperada para los SNP duplicados es> 99%.
Frecuencia alélica Otra buena medida de control de calidad es comparar la frecuencia alélica del conjunto de datos genotipado localmente con un conjunto de datos de genotipado disponibles públicamente, como el 1000G. Como la frecuencia de los alelos es muy sensible a la raza, la comparación debe ser estratificada por raza. En la Figura 10 se muestra un ejemplo de comparación de frecuencias de alelos utilizando datos de la matriz MEGA EX versus datos 1000G . Esperamos ver que la mayoría de los SNP tengan una frecuencia alélica similar en comparación con los datos de 1000G. La diferencia absoluta de las frecuencias alélicas se puede calcular y clasificar para identificar los valores extremos de alelos extremos, lo que puede indicar SNP problemáticos. En la Figura 11 se dan dos ejemplos de valores atípicos.. Los SNP con una diferencia de frecuencia alélica extrema en comparación con los datos de 1000G deben eliminarse. Sin embargo, si una gran cantidad de SNP no supera esta comparación, esto indica que se ha elegido un conjunto de referencia 1000G incorrecto que no coincide con la composición racial y étnica de su estudio.
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f10p.jpg Figura 10 ( A ) Un ejemplo del diagrama de dispersión de las frecuencias alélicas del Proyecto 1000 del Genoma frente a las frecuencias alélicas de un conjunto de datos de genotipificación MEGA EX de Illumina . Todos los sujetos son caucásicos. La mayoría (> 99%) de los SNP tienen frecuencias alélicas similares. Hay algunos valores atípicos visibles desde la trama. ( B ) La distribución de las diferencias de frecuencias alélicas. Para identificar los valores atípicos obvios por frecuencia de alelos, podemos calcular la diferencia absoluta en las frecuencias de alelos y clasificarlas de alta a baja.
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f11p.jpg Figura 11 ( A ) El primer ejemplo es para SNP rs144249066 en la matriz MEGA EX . Primero, todos los sujetos fueron llamados heterocigotos [A / T], lo que viola fuertemente la suposición de HWE. La prueba HWE tuvo P <10 −8 para este SNP en los caucásicos, lo que significa que este SNP podría ser potencialmente filtrado por la prueba HWE. En los datos de 1000G, este SNP se infirió como homocigoto [A / A] para todos los caucásicos. Las posibles explicaciones son (1) las secuencias de la sonda se diseñaron incorrectamente o (2) se mapearon en regiones altamente homólogas. ( B ) El segundo ejemplo es para SNP rs113094557 en el MEGA EXformación. Este SNP no viola HWE, y la llamada de tipo de genotipo es [G / G] para todos los caucásicos; sin embargo, el llamado genotipo para todos los caucásicos en 1000G es [A / A]. El SNP tiene dos sondas diseñadas para capturar los alelos A y G. Como los dos alelos no son complementarios inversos, esto no podría ser causado por un problema de hebra. La única explicación plausible es que los dos alelos fueron intercambiados o mal etiquetados por Illumina durante el diseño.
Efecto de lote Los efectos de lote son variaciones sistemáticas en los datos causadas por el procesamiento de datos en lotes. Los efectos de lotes severos pueden producir resultados de análisis engañosos, especialmente para grandes conjuntos de datos. Para un gran proyecto de genotipado, las muestras se preparan generalmente en una placa de 96 pocillos. Luego, de diez a cientos de placas se genotipan en una sola vez, lo que se considera un lote. La principal diferencia observable que contribuye al efecto del lote es la intensidad de la señal debido a la diferencia de calibración del láser entre los lotes. Sin embargo, tales variaciones en la potencia del láser por lo general no son lo suficientemente graves como para influir en una llamada de genotipo a otra. Por lo tanto, no afecta la calidad del genotipado. Sin embargo, esta variación de intensidad puede tener un efecto adverso en el análisis de variación del número de copias (CNV), ya que el número de copias es una medida continua que se deduce de la intensidad de la señal. Por lo tanto, el número de copias debe inferirse por lotes, y el análisis de CNV que involucra múltiples lotes debe ajustarse por lotes. Para probar completamente si existen otros efectos de lotes importantes, podemos calcular las consistencias de frecuencia de alelos entre lotes estratificados por raza. La correlación de las frecuencias alélicas entre lotes debe ser> 0.9. Los SNP problemáticos se pueden identificar calculando el valor absoluto de la diferencia de frecuencia alélica entre lotes y clasifíquelos de grande a pequeño. Un ejemplo de una gráfica de consistencia de frecuencia de alelos entre múltiples lotes se da en La correlación de las frecuencias alélicas entre lotes debe ser> 0.9. Los SNP problemáticos se pueden identificar calculando el valor absoluto de la diferencia de frecuencia alélica entre lotes y clasifíquelos de grande a pequeño. Un ejemplo de una gráfica de consistencia de frecuencia de alelos entre múltiples lotes se da en La correlación de las frecuencias alélicas entre lotes debe ser> 0.9. Los SNP problemáticos se pueden identificar calculando el valor absoluto de la diferencia de frecuencia alélica entre lotes y clasifíquelos de grande a pequeño. Un ejemplo de una gráfica de consistencia de frecuencia de alelos entre múltiples lotes se da enFigura 12 .
Un archivo externo que contiene una imagen, una ilustración, etc. El nombre del objeto es bbx012f12p.jpg Abrir en una ventana separada Figura 12 Un ejemplo de comparaciones de frecuencia de alelos entre múltiples lotes. La alta correlación de la frecuencia de alelos entre lotes indica que no hay efecto de lote.
Tiempo de computación y requisitos de memoria. El procesamiento de un gran conjunto de datos de genotipado en GenomeStudio requiere una computadora potente con amplia memoria. Para procesar un conjunto de datos de genotipificación de 7350 sujetos de la matriz MEGA EX (2 millones de SNP), utilizamos una computadora con las siguientes especificaciones: CPU Intel Xeon E5-2699 v4 (22 cores) a 2.20 GHz, 396 GB de memoria, 64 bits Windows Server 2012. La cantidad de memoria computacional juega un papel importante en la velocidad de procesamiento de datos y en la velocidad de reagrupación manual.
Cuando se procesa un gran conjunto de datos de genotipificación de Illumina de datos sin procesar a un conjunto de datos de genotipado PLINK de calidad controlada, la mayor parte del tiempo se pasará en GenomeStudio revisando manualmente los SNP con agrupaciones de muestras problemáticas y agrupándolas nuevamente. El número de SNP que se pueden revisar manualmente es completamente arbitrario. La regla de la revisión manual es simple: cuantos más SNP se revisan manualmente, mejor es la calidad de todo el conjunto de datos. Dado que la mayoría de los SNP están agrupados correctamente por el algoritmo GenTrain (95–98%), aproximadamente solo el 2–5% de los SNP podrían mejorarse mediante la revisión manual. La densidad de matriz actual permite varios millones de SNP por chip, lo que da como resultado una gran cantidad de SNP que se pueden revisar manualmente. Suponiendo que se necesitan 30 segundos para revisar y volver a agrupar un SNP manualmente, revisar manualmente el MEGA EXLa matriz tomará alrededor de 333–833 horas hombre. Además, como el reagrupamiento manual ocurre en GenomeStudio, el procesamiento paralelo no se puede aplicar para ahorrar tiempo. Por lo tanto, es importante seguir las recomendaciones para identificar los SNP de problemas más probables y revisarlos manualmente. Si el tiempo es muy limitado, podemos enfocar la revisión manual en SNPs con alta prioridad. La prioridad de los SNP es arbitraria. Por ejemplo, podemos enfocarnos primero en los SNP personalizados en la matriz, ya que estos pueden ser de especial interés para el investigador, o podemos enfocarnos en todos los SNP que se encuentran en el catálogo de GWAS.
Ir: Discusión Los arreglos de genotipado de Illumina seguirán siendo una fuerza impulsora en los GWAS a gran escala durante los próximos años. Hemos descrito una serie de técnicas y estrategias de control de calidad para procesar matrices de genotipado de Illumina desde datos sin procesar a un archivo de formato PLINK listo para análisis. El procesamiento de arrays de genotipado de Illumina se puede dividir en dos secciones principales: (1) dentro de GenomeStudio y (2) en formato PLINK. La sección GenomeStudio trata principalmente con la agrupación inicial de SNP y la reorganización manual. Los pasos de control de calidad en PLINK garantizan principalmente la integridad de los datos a través de múltiples pruebas rigurosas basadas en supuestos genéticos. Actualmente hay dos grandes compañías de genotipificación: Illumina y Affymetrix. El procesamiento inicial de los datos de los arreglos de genotipado de Affymetrix es diferente del de Illumina. Las estrategias que hemos descrito en GenomeStudio no funcionarán para las matrices de genotipado de Affymetrix. Sin embargo, una vez que las matrices de genotipado de Affymetrix se convierten al formato PLINK, se pueden aplicar todas las estrategias descritas para los datos de PLINK. Además, los datos de SNP generados a partir de HTS, aunque más densos, también son datos de genotipado. Por lo tanto, algunas de las pruebas como HWE, heterocigosidad, etc. también pueden usarse como medidas de control de calidad. Por otro lado, algunas métricas de control de calidad que se han propuesto para el control de calidad de los datos HTS SNP, como la relación de transición frente a transversal [ También se puede utilizar como medidas de control de calidad. Por otro lado, algunas métricas de control de calidad que se han propuesto para el control de calidad de los datos HTS SNP, como la relación de transición frente a transversal [ También se puede utilizar como medidas de control de calidad. Por otro lado, algunas métricas de control de calidad que se han propuesto para el control de calidad de los datos HTS SNP, como la relación de transición frente a transversal [40 ] también se puede aplicar potencialmente a los datos generados a partir de matrices de genotipado.