banner
Hogar / Noticias / Análisis de correspondencia para reducción de dimensiones, integración de lotes y visualización de un solo
Noticias

Análisis de correspondencia para reducción de dimensiones, integración de lotes y visualización de un solo

May 16, 2023May 16, 2023

Scientific Reports volumen 13, Número de artículo: 1197 (2023) Citar este artículo

3634 Accesos

1 Citas

20 Altmetric

Detalles de métricas

La reducción efectiva de la dimensión es esencial para el análisis de RNA-seq de una sola célula (scRNAseq). El análisis de componentes principales (PCA) se usa ampliamente, pero requiere datos continuos distribuidos normalmente; por lo tanto, a menudo se combina con la transformación de registros en las aplicaciones de scRNAseq, lo que puede distorsionar los datos y oscurecer la variación significativa. Describimos el análisis de correspondencia (CA), una alternativa basada en conteo a PCA. CA se basa en la descomposición de una matriz residual chi-cuadrado, evitando la transformación logarítmica distorsionada. Para abordar la sobredispersión y la alta escasez en los datos de scRNAseq, proponemos cinco adaptaciones de CA, que son rápidas, escalables y superan a CA estándar y glmPCA, para calcular incrustaciones de células con una precisión de agrupamiento comparable o de mayor rendimiento en 8 de 9 conjuntos de datos. En particular, encontramos que CA con residuos de Freeman-Tukey funciona especialmente bien en diversos conjuntos de datos. Otras ventajas del marco CA incluyen la visualización de asociaciones entre genes y poblaciones celulares en un "biplot CA" y la extensión al análisis de tablas múltiples; introducimos corralm para la reducción integradora de dimensiones de tablas múltiples de datos scRNAseq. Implementamos CA para datos de scRNAseq en corral, un paquete R/Bioconductor que interactúa directamente con clases de células individuales en Bioconductor. El cambio de PCA a CA se logra a través de una simple sustitución de tubería y mejora la reducción de la dimensión de los conjuntos de datos scRNAseq.

La secuenciación de ARNm de una sola célula (scRNAseq) mide simultáneamente los niveles de transcripción de genes en miles de células individuales, proporcionando una ventana a la diversidad transcripcional y funcional de las células en un tejido o experimento. Estos conjuntos de datos complejos son órdenes de magnitud más grandes que los que se encuentran al analizar datos de RNAseq "a granel" de muestras de tejido. Si bien estos datos de resolución fina tienen el potencial de revelar nuevos hallazgos biológicos, los datos de scRNAseq muestran escasez, ruido y artefactos técnicos más allá de los observados en las muestras de ARN a granel1,2, lo que requiere un preprocesamiento y una normalización específicos de scRNAseq3,4. Por lo general, el análisis scRNAseq incluye el uso de la reducción de la dimensión para atenuar el ruido y garantizar la manejabilidad computacional, pero la elección del método influye considerablemente en los análisis posteriores, los resultados y las conclusiones3,5.

Es importante seleccionar un método de reducción de dimensiones apropiado; un método efectivo encuentra una representación de los datos que minimiza el ruido y la redundancia, mientras descubre señales significativas que revelan estructuras y patrones latentes dentro de los datos6,7. Cuando se definen a partir de datos de scRNAseq, las representaciones de incrustación de dimensión reducida son más útiles cuando conservan una variación significativa y biológicamente relevante; son robustos, lo que significa que la descomposición de observaciones nuevas pero similares produce consistentemente un espacio de incrustación similar; y generalizar y transferir a nuevos datos, permitiendo que nuevas observaciones que surjan de procesos biológicos similares se proyecten en el mismo espacio latente.

Los recuentos de ScRNAseq generalmente se modelan como una distribución multinomial y, a menudo, se aproximan como binomial negativo o Poisson2, lo que refleja el hecho de que los datos no son continuos ni aproximadamente gaussianos. Como tal, el uso del análisis de componentes principales (PCA) requiere que los datos de recuento de scRNAseq discretos y escasos se transformen antes de la reducción de la dimensión con este método6. PCA es un método de reducción de dimensión lineal que obtiene una representación de datos de baja dimensión a lo largo de ejes lineales ortogonales de modo que la proporción de varianza contabilizada en cada eje se maximiza en el espacio euclidiano4,8,9,10,11. Debido a que PCA es más adecuado para datos continuos que tienen una distribución aproximadamente normal, puede mostrar artefactos cuando se aplica a datos con gradientes o datos no continuos (como conteos); uno de esos artefactos, denominado efecto "arco" o "herradura", se produce cuando se aplica PCA a los datos scRNAseq sin transformación logarítmica4,6,12. Por lo tanto, en la práctica, y a pesar de los problemas conocidos al aplicar la transformación logarítmica a los datos de conteo scRNAseq2,13,14, la mayoría de los flujos de trabajo de una sola celda comienzan con una transformación logarítmica (x + 1) de la matriz de conteo y luego usan PCA para descomponer el resultado. datos de "recuentos de registros"3. El uso de logcounts tiene una justificación teórica deficiente y, en algunos casos, puede oscurecer una variación significativa2,14, pero las incrustaciones de dimensión reducida resultantes de los datos de PCA se utilizan, sin embargo, en el agrupamiento de scRNAseq, el análisis de trayectoria y la clasificación de tipos de células3. Se han propuesto varios enfoques de reducción de dimensiones adaptados para recuentos de scRNAseq, incluidos métodos como ZINB-WaVE, el primer método apropiado para usar con recuentos que se basa en un modelo binomial negativo inflado con ceros para la descomposición de recuentos y análisis factorial inflado con ceros ( ZIFA)2,15,16,17. Aún así, PCA sigue siendo el método más utilizado en gran parte debido a su simplicidad, velocidad y eficiencia computacional. En una comparación de 18 métodos de reducción de dimensiones, PCA ocupó un lugar destacado cuando se consideraron la precisión y el rendimiento en el análisis posterior con la escalabilidad computacional18.

Los métodos clásicos de factorización de matrices, incluido PCA, son instancias del enfoque de diagrama de dualidad general propuesto por Benzécri y la escuela francesa de estadística multivariante en la década de 19708,19,20,21,22,23, que gira el enfoque desde la matriz como columnas de variables fijas a la matriz como operador entre espacios de productos internos, unificando métodos multivariados clásicos como PCA con métodos kernel modernos en el mismo marco8,21. Otro método de factorización de matriz que surge en el marco del diagrama de dualidad es el análisis de correspondencia (CA), un método de reducción de dimensión rápida apropiado para datos no negativos basados ​​en conteos y puede identificar relaciones entre tipos de datos categóricos que es popular entre los ecologistas para analizar especies. matrices de conteo de abundancia por sitio8,24. En la práctica, el PCA a menudo se calcula mediante la descomposición de valores singulares (SVD) de datos normalizados centrados en columnas o con puntuación Z (Fig. 1A)4,25 y el CA se calcula mediante SVD de los residuos de Pearson para revelar las asociaciones fila-columna que desviarse de las expectativas26. Los componentes principales en CA dividen la codependencia entre las filas y las columnas, de modo que un peso más alto indica una dependencia o asociación más fuerte entre la fila y la columna; para los datos de scRNAseq, los componentes principales de CA pueden identificar la codependencia entre los recuentos de expresión génica y células particulares. Desde esta perspectiva, la principal diferencia es el espacio en el que se transforman los datos y luego se descomponen. Mientras que PCA divide la varianza en el espacio euclidiano, CA divide la tabla de chi-cuadrado de contingencia total a lo largo de componentes aditivos lineales27. CA tiene una larga tradición en diversos entornos y disciplinas, incluida la lingüística, la investigación comercial y de marketing y la arqueología26,28, donde se aplica y se optimiza aún más para datos de conteo grandes y dispersos. CA también se ha aplicado en bioinformática para realizar análisis de uso de codones29,30; para analizar datos transcriptómicos de micromatrices31; para integrar etiquetas GO con datos de micromatrices32; y para analizar datos metagenómicos y del microbioma33. En made4, Culhane et al. implementó CA para microarrays y datos de RNA-seq a granel34,35,36. Ahora proponemos su aplicación al análisis scRNAseq.

El análisis de correspondencia (CA) es una alternativa a PCA para datos de conteo que es robusto para usar con conteos sin procesar y logarítmicamente normalizados. (A) Resumen gráfico de los pasos para la reducción de dimensiones con factorización matricial, incluidos CA y PCA estándar. El CA y el PCA estándar se pueden calcular con la descomposición en valores singulares (SVD) de los residuos de Pearson o Z-score, respectivamente. (B) Los gráficos muestran los dos primeros componentes generados a partir de PCA (en recuentos logarítmicos; izquierda) y de CA (corral en recuentos; derecha) aplicados a una mezcla sintética de ARNm de evaluación comparativa con 8 grupos (datos distribuidos en el paquete CellBench R; adaptado de3) . Las "celdas" están coloreadas por grupo. CA resuelve los grupos en clústeres, mientras que el PCA estándar está impulsado por un gradiente en el segundo componente y no puede resolver los grupos. (C) Los gráficos muestran los dos primeros componentes generados por CA (corral; fila superior) y PCA (fila inferior) en ambos recuentos (columna izquierda) y recuentos logarítmicos (columna derecha) del conjunto de datos Zhengmix4eq, que comprende aproximadamente 4000 PBMC purificadas en aproximadamente mezclas iguales. Las celdas están coloreadas por tipo. CA es robusto para usar con conteos o conteos logarítmicos, mientras que PCA en conteos da como resultado un efecto de herradura (arco). (D) CA (verde) y PCA (púrpura) se aplicaron a recuentos (columna izquierda) y recuentos logarítmicos (columna derecha) de seis conjuntos de datos de evaluación comparativa (SCMixology; Zhengmix). Las incrustaciones de todos los enfoques se utilizaron como entrada para la agrupación en clústeres de NNGraph, y el rendimiento en la recuperación de clústeres publicados se evaluó mediante el índice Rand ajustado (ARI). CA cumple o supera constantemente el rendimiento de PCA. Los círculos naranjas marcan el ARI más alto logrado en cada conjunto de datos.

Centrándose en los problemas de los recuentos de scRNAseq de transformación logarítmica al aplicar PCA, Townes et al.2, Hafemeister y Satija13, y Lause et al.14 presentaron enfoques para el análisis de scRNAseq basados ​​en la normalización residual de Pearson como una alternativa a la transformación logarítmica distorsionada. Townes et al.2 propusieron glmPCA, una generalización de PCA que minimiza la desviación en lugar del error cuadrático medio (MSE) y acomoda funciones de enlace no canónicas, y que se puede aproximar con PCA de Pearson o residuos de desviación2. Lausa et al. propuso la normalización residual analítica de Pearson14, ampliando el trabajo de Hafemeister y Satija, quienes utilizaron un enfoque basado en la regresión para calcular los residuos de Pearson13. Lausa et al. citó nuestros talleres de bioconductores de código abierto que describen CA; las relaciones entre CA, PCA y SVD; y su aplicación en datos de scRNAseq como soporte de que glmPCA de Townes et al.,2, SCTransform de Hafemeister y Satija13 y su enfoque son CA o se aproximan mucho a CA14,37. Sin embargo, CA, que se puede calcular mediante SVD sobre los residuos estandarizados de Pearson, puede no ser el enfoque más apropiado cuando existe una dispersión excesiva en la tabla de contingencia38.

Proponemos y evaluamos cinco adaptaciones de CA para abordar la sobredispersión en los recuentos de scRNAseq. Evaluamos el rendimiento de cada uno de estos en comparación con CA estándar y con glmPCA2, un método popular en el campo. En particular, encontramos que CA con residuos de Freeman-Tukey, una estadística alternativa de chi-cuadrado, tiene un rendimiento especial en una variedad de casos de prueba. Debido a que la agrupación y caracterización de células es una parte clave de la mayoría de los flujos de trabajo de scRNAseq, establecemos como objetivo de la tarea de evaluación comparativa encontrar representaciones integradas que faciliten la identificación y la anotación de poblaciones de células complejas. Mostramos que el biplot CA proporciona una interpretación geométrica de características y objetos en el mismo espacio, lo que a su vez facilita el análisis de datos exploratorios eficientes y la interpretación de grupos. Implementamos CA estándar y adaptado para scRNAseq en corral, un paquete R/Bioconductor que interactúa directamente con las clases de Bioconductor (incluido SingleCellExperiment). Diseñado para escalabilidad computacional, corral es rápido y eficaz en comparación con PCA y otros métodos de reducción de dimensiones, incluido glmPCA. El cambio de PCA a CA con corral se logra a través de una simple sustitución de tubería y mejora la reducción de la dimensión de los conjuntos de datos scRNAseq.

El análisis de correspondencia estándar (CA) arroja recuentos de lectura de scRNAseq en un marco de análisis de tabla de contingencia y, en su forma canónica, se puede conceptualizar como un procedimiento de dos pasos (se describe gráficamente en la Fig. 1A; se detalla en "Métodos"). La matriz de conteo primero se transforma en residuos de chi-cuadrado de Pearson, y la matriz residual resultante luego se factoriza con descomposición de valores singulares (SVD).

El análisis de CA de scRNAseq no requiere, pero es compatible con, recuentos de lectura transformados en registros (logcounts). PCA, que se ha utilizado ampliamente, requiere transformación de datos y, por lo tanto, generalmente se aplica a datos de recuentos de registros, aunque la transformación de registros de recuentos de scRNAseq distorsiona la representación del espacio latente, de modo que la primera dimensión está impulsada por la escasez de células individuales o el número de características. con recuentos observados cero ("fracción cero")2. Dado que proponemos CA como una alternativa más adecuada a PCA para encontrar incrustaciones de celdas, comparamos CA con el ampliamente utilizado PCA4 basado en correlación.

Aplicamos CA y PCA a un conjunto de datos de evaluación comparativa de scRNAseq de verdad en tierra (tanto en recuentos como en recuentos logarítmicos) obtenidos mediante la secuenciación CEL-seq2 de mezclas de pseudocélulas que comprenden ARNm de ocho grupos distintos39. La figura 1B muestra los dos primeros componentes principales tanto para PCA como para CA. El primer componente de PCA separó claramente las células de tres de los ocho grupos, pero PC2 solo captura un gradiente dentro de los grupos. En contraste, CA claramente agrupó y separó todos los grupos dentro de dos componentes. De manera similar, los resultados en PBMC purificados (conjunto de datos de evaluación comparativa de Zhengmix4eq) demostraron que CA se puede aplicar directamente a recuentos o logcounts y aun así lograr una buena agrupación y separación, mientras que PCA en recuentos produce un efecto de "arco" o "herradura", que surge de la presencia de un orden secuencial o gradiente latente12,25. PCA en recuentos de registros se realizó de manera similar a CA en recuentos o recuentos de registros.

CA es sólido cuando se aplica a datos de conteos o de conteos de registros, lo que elimina la necesidad de la transformación de registros y evita los problemas asociados. Comparamos el rendimiento de las cuatro configuraciones de tubería presentadas en la Fig. 1C (CA y PCA en recuentos y recuentos logarítmicos) en seis conjuntos de datos de referencia: tres conjuntos de datos de scRNAseq de SCMixology (mezcla de células conocidas de tres líneas de cáncer secuenciadas con tres tecnologías)39 y tres Conjuntos de datos de PBMC de Zhengmix40,41. (Conjuntos de datos enumerados en la sección Evaluación comparativa de "Métodos"). La recuperación de grupos basada en los tipos de células anotados en el estudio se evaluó mediante el índice Rand ajustado (ARI), que evalúa la similitud entre dos conjuntos de particiones de datos (Fig. 1D). En todas las comparaciones, CA supera o iguala el rendimiento de PCA (el círculo naranja indica el ARI más alto por conjunto de datos).

CA puede verse influenciado por "objetos raros" o valores atípicos38. Debido a la alta heterogeneidad subyacente de la expresión génica dentro y entre varios tipos de células, los datos de scRNAseq a menudo incluyen valores atípicos biológicamente "reales" en lugar de artefactos debido a datos ruidosos. Por ejemplo, las células secretoras profesionales tienen un perfil biológico distinto, a menudo impulsado por una producción extraordinariamente alta de una o dos proteínas, como la insulina en las células de los islotes pancreáticos o la inmunoglobina en las células inmunitarias. De manera similar, las células senescentes o inactivas difieren en el perfil de expresión génica en comparación con las células que se dividen rápidamente o las células tumorales de alto grado.

Proponemos y evaluamos cinco adaptaciones únicas de CA para abordar la sobredispersión en los recuentos de scRNAseq. En total, se aplicaron seis métodos CA (CA estándar y las cinco adaptaciones) a nueve conjuntos de datos, incluidos los tres conjuntos de datos de evaluación comparativa de PBMC humanos de Zhengmix, así como células de páncreas humano, cerebro humano y cola de Xenopus (Tabla 1). El rendimiento de la recuperación de grupos en las representaciones de incrustación de células generadas a partir de cada método específico se comparó y se comparó con referencia a glmPCA2, en función de la similitud de partición de los nuevos grupos con las poblaciones de células anotadas originales de cada conjunto de datos (medido con ARI; detallado en "Métodos": evaluación comparativa).

Las cinco adaptaciones de CA se dividen en tres enfoques generales (Fig. 2A). La primera clase de enfoques consistía en aplicar explícitamente una transformación estabilizadora de la varianza a la matriz de conteo antes de calcular los residuos de Pearson. Lause et al.14 analizaron la transformación estabilizadora de la varianza en comparación con la normalización residual de Pearson, aunque en su estudio no combinaron la estabilización de la varianza y la normalización residual de Pearson antes de la descomposición de la matriz. Informaron que el grado de corrección de la transformación de estabilización de la varianza por sí sola era insuficiente para los datos de scRNAseq en su configuración de canalización y descubrieron que solo la normalización con residuos analíticos de Pearson era más eficaz que solo aplicar la estabilización de la varianza14. Dado que los recuentos de scRNA-seq a menudo se aproximan a la distribución de Poisson, consideramos tres transformaciones estabilizadoras de varianza que generalmente se aplican a los datos de conteo. Estas tres transformaciones basadas en raíces cuadradas se originan todas a partir de la observación de RA Fisher de que realizar una transformación de arcocoseno en la raíz cuadrada de probabilidades multinomiales produce ángulos aproximadamente distribuidos normalmente en una hiperesfera42. La primera fue la transformación de la raíz cuadrada de los datos de recuento (Fila 3 de la Fig. 2A), que se ha utilizado para corregir la sobredispersión en los recuentos de Poisson43. La segunda es la transformación de conteo estabilizadora de la varianza de Anscombe (fila 4 de la figura 2A), propuesta originalmente en 1948 para su uso con datos de Poisson, binomiales y binomiales negativos44. En tercer lugar, utilizamos la transformación de conteo estabilizadora de la varianza de Freeman-Tukey (fila 5 de la figura 2A), propuesta originalmente en 1950, también para Poisson y otros datos de conteo45.

Adaptaciones de CA para abordar la sobredispersión en los datos de conteo. (A) Tabla que resume el procedimiento CA estándar y cinco adaptaciones para abordar la sobredispersión. El primer conjunto (filas 1 y 2) incluye métodos que no involucran transformaciones aparte de calcular los residuos de chi-cuadrado. El segundo conjunto (filas 3 a 5) presenta transformaciones estabilizadoras de varianza realizadas en conteos anteriores al CA estándar. El tercer enfoque (fila 6) suaviza la matriz residual chi-cuadrado con una "desinflación de potencia" menor antes de la descomposición con SVD. (B) Tabla de rendimiento de recuperación de clústeres de NNGraph logrado por cada método (filas), en nueve conjuntos de datos (columnas), que informa el ARI máximo seleccionado en una variedad de PC (los resultados completos de ARI por PC se muestran en la Fig. 2C), con ARI de diez corridas de glmPCA se promediaron antes de seleccionar el máximo. El ARI más alto (con dos decimales) en cada conjunto de datos está encerrado en un círculo y los grupos de celdas en los conjuntos de datos originales se utilizan como agrupaciones de referencia. Los residuos de Freeman-Tukey exhiben el mejor rendimiento general, con el ARI más alto en 6 de los 9 conjuntos de datos. (C) Gráfico de ARI por número de componentes en cada uno de los nueve conjuntos de datos (igual que B), coloreado por método. Los resultados de glmPCA (gris) incluyen diez semillas.

Nuestros resultados indican que la estabilización de la varianza mejora el rendimiento de la CA estándar (clásica). La estabilización de la varianza de los conteos antes de calcular los residuos de Pearson proporcionó grandes ganancias en el agrupamiento aguas abajo con aumentos de ARI de 0,4 en dos estudios (Zhengmix4uneq, Aztekin Xenopus tail); la transformación de raíz cuadrada antes de CA aumenta el ARI en 7 conjuntos de datos, mientras que la transformación a recuentos de Anscombe o recuentos de Freeman-Tukey aumentó el ARI en cada conjunto de datos en comparación con CA estándar (sin estabilización de la varianza de los recuentos antes de calcular los residuos de Pearson). De hecho, la transformación de conteo estabilizadora de varianza de Anscombe logra el ARI más alto observado en 1 de 9 conjuntos de datos de prueba (páncreas: Lawlor) y la transformación de conteo estabilizadora de varianza de Freeman-Tukey tuvo el mejor rendimiento general en 3 de 9 conjuntos de datos (Zhengmix4uneq; páncreas: Muraro, Lawlor ). Aunque la transformación del recuento de raíces cuadradas no superó a las otras dos transformaciones en ninguna de las comparaciones, su ARI estuvo dentro de 0,05 de otras dos transformaciones en 7 de 9 conjuntos de datos. Además, en los conjuntos de datos del páncreas, la transformación del conteo que estabiliza la varianza junto con el CA estándar produjo el ARI más alto en general, superando al glmPCA.

La segunda variación que consideramos es la "desinflación de potencia" como método de suavizado de datos. La deflación de potencia maneja valores atípicos extremos en la matriz residual de chi-cuadrado elevando todos los valores residuales transformados a una potencia, α, antes de realizar SVD, mientras conserva el signo (Fila inferior de la Fig. 2A). Conceptualmente, este procedimiento es similar a la transformación de escalera de Tukey46 y tiene un efecto de suavizado en la matriz de distancias chi-cuadrado, lo que reduce el impacto de los valores atípicos y preserva el orden de los valores. Para lograr un efecto de suavizado "suave", consideramos \(\mathrm{\alpha }\in \left[0.9, 0.98\right]\) (datos no mostrados) y presentamos resultados para \(\mathrm{\alpha }= 0.9\) en la Fig. 2. Este enfoque también es similar a la transformación clásica de estabilización de varianza de raíz cuadrada para recuentos de Poisson, con el caso especial donde \(\mathrm{\alpha }= 0.5\), pero difiere en que la transformación se aplica a la matriz residual chi-cuadrado en lugar de a la matriz de conteo. En los nueve conjuntos de datos, este enfoque de suavizado de deflación de potencia se desempeñó de manera comparable o mejor que la CA estándar, aunque su impacto en el rendimiento de la CA fue menor que la transformación de conteo que estabiliza la varianza.

En tercer lugar, consideramos una estadística de chi-cuadrado alternativa que es más adecuada para contar datos con altos niveles de dispersión y sobredispersión. CA con residuos de Freeman-Tukey (CA-FT) se aplicó a datos de sitios arqueológicos, donde exhibió un efecto estabilizador de varianza y superó el CA estándar (SVD de los residuos de Pearson), en el análisis de datos de artefactos dispersos y dispersos (recuentos de artefactos arqueológicos por sitio)45,47,48. Tanto los residuos de Pearson como los residuos de Freeman-Tukey son miembros de la familia Cressie-Read de estadísticas de divergencia de potencia para probar la bondad de ajuste en datos de conteo distribuidos multinomialmente, y cuando se elevan al cuadrado, ambos residuos son variables aleatorias distribuidas en chi-cuadrado47,49. Descubrimos que CA-FT es adecuado para los recuentos de scRNAseq (Fila 2 de la Fig. 2A), superando a CA estándar en los nueve conjuntos de datos y su rendimiento fue comparable a (ARI dentro de 0.02) o superior a glmPCA en 8 de 9 evaluaciones comparativas conjuntos de datos En la mayoría de los conjuntos de datos, CA-FT también tenía una precisión de agrupamiento (ARI) superior o comparable a la CA estándar con transformación estabilizadora de varianza. CA-FT logró el ARI más alto en general en 6 de 9 conjuntos de datos. A diferencia de CA estándar, observamos pocos beneficios al combinar CA-FT con la transformación de estabilización de varianza (raíz cuadrada, Anscombe o Freeman-Tukey) (Fig. S1); mientras que el rendimiento de CA estándar mejora drásticamente con la transformación de estabilización de varianza, CA-FT se ajusta y es apropiado para usarse con datos sobredispersos.

La selección de componentes puede influir en gran medida en el análisis de agrupamiento de células aguas abajo, por lo que consideramos el rendimiento del agrupamiento en función de la cantidad de componentes seleccionados (Figs. 2C, S2). La capacidad de recuperar grupos "conocidos" (medidos con ARI entre el resultado del agrupamiento y los tipos de células publicados) fue mayor para las mezclas más simples de tipos de células purificadas conocidas (conjuntos de datos de Zhengmix). Para los tejidos complejos examinados (cerebro, páncreas, cola de Xenopus), el número "verdadero" de tipos de células se estima experimentalmente a partir de los datos de scRNAseq. Hubo heterogeneidad en el número de tipos de células descritos en el mismo tejido entre diferentes estudios, posiblemente porque las anotaciones de células se pueden asignar a baja resolución (p. ej., células T) o a alta resolución (p. ej., células T CD4, células CD8 agotadas). células T, etc.), dependiendo de la pregunta de estudio en particular. Por ejemplo, los conjuntos de datos de páncreas Lawlor, Muraro y Baron describieron ocho, once y catorce tipos de células en sus respectivos análisis (Tabla 1). Observamos una asociación entre el número de componentes y la complejidad de la tarea de agrupación. Más componentes pueden capturar más variación total en los datos y, por lo tanto, pueden aumentar el rendimiento al realizar anotaciones de mayor resolución. La Figura 2C muestra que más componentes generalmente aumentaron el ARI en tejidos más complejos. Sin embargo, para conjuntos de datos donde las anotaciones de tipo de celda de referencia tienen una resolución más baja (menos tipos de celda), incluir más componentes podría reducir el ARI ya que sus resultados serán de mayor resolución (más tipos de celda) y, por lo tanto, técnicamente menos concordantes con la referencia original. Esto revela una limitación de los enfoques actuales de evaluación comparativa. Un nuevo método podría encontrar grupos biológicamente significativos, pero funcionar mal si se califica con ARI en conjuntos de datos de evaluación comparativa de baja resolución. Observamos en nuestros resultados que los conjuntos de datos de Lawlor y Darmanis, ambos anotados en una resolución más baja, mostraron la disminución más pronunciada en el rendimiento de la agrupación en clústeres ARI cuando se incluyeron más PC.

Por el contrario, hubo poca ganancia y, para algunos, una reducción en ARI con más componentes en los conjuntos de datos de Zhengmix, que comprenden combinaciones de distintos tipos de células PBMC clasificados y purificados antes de la secuenciación. En conjuntos de datos simples, la inclusión de componentes adicionales más allá de los que capturan suficientemente la varianza biológica puede agregar ruido estocástico, técnico o sistemático en el sistema. La evaluación comparativa de cada uno de los métodos con clasificación por ARI máximo fue robusta para el número de componentes; CA-FT fue consistentemente de mayor rendimiento, ya sea que los primeros treinta o cincuenta (Figs. S2, 2B) componentes se incluyeron en el agrupamiento posterior.

CA, CA-FT y otras variaciones generan un resultado casi determinista que se reproduce de forma estable. Por el contrario, glmPCA no es determinista y, por lo tanto, los resultados pueden variar sustancialmente cuando el método se vuelve a ejecutar en el mismo conjunto de datos (Figs. 2C y S3). Para la reproducibilidad, probamos diez iniciaciones de semillas aleatorias de glmPCA (Fig. 2C), lo que reveló que los resultados de glmPCA son consistentes para conjuntos de datos más simples, pero en otros conjuntos de datos, como el conjunto de datos de cola de Xenopus, el rendimiento varía drásticamente entre las iteraciones. En el conjunto de datos del páncreas de Lawlor, una iteración falló, lo que sugiere que los resultados dependían en cierta medida de encontrar una "semilla de la suerte". En conjuntos de datos más simples, como Zhengmix, todos los métodos generaron puntajes altos de ARI y los resultados de glmPCA tuvieron consistencia entre ejecuciones individuales (Fig. 2C). Sin embargo, hubo una mayor variación en el rendimiento de glmPCA con el aumento de la complejidad de los datos. Para cada conjunto de datos, presentamos el promedio del ARI máximo logrado en cada una de las 10 ejecuciones de glmPCA.

Las variaciones de CA adaptadas para la sobredispersión superan al estándar CA o glmPCA en el agrupamiento posterior (Fig. 2B). De los enfoques que consideramos, CA-FT fue el de mayor rendimiento, superando al CA estándar con la transformación estabilizadora de varianza y el enfoque de deflación de potencia.

El biplot CA proporciona un marco natural para la interpretación de grupos, destacando las relaciones biológicamente significativas entre los patrones de expresión génica y las poblaciones celulares, y puede ampliarse para guiar la selección de características. Cada conteo transformado (residual) en una matriz CA tiene una interpretación intuitiva, ya que es la estadística de prueba de chi-cuadrado para la fuerza de asociación entre una fila particular (expresión de un gen) y una columna (celda). La matriz CA captura las asociaciones más fuertes entre la expresión génica y las células, destacando los contrastes funcionales por células individuales y por subpoblaciones de células. Los biplots visualizan asociaciones entre características y objetos, o en este caso, genes y células. En lugar de examinar las incrustaciones de características y objetos individualmente, el biplot coloca ambos conjuntos de incrustaciones en los mismos ejes, revelando las asociaciones que pueden existir entre filas o columnas por separado, y también entre filas y columnas particulares6,50. La distancia desde el origen indica la magnitud de la asociación; la distancia de rotación angular (similitud del coseno) refleja la similitud de las células (o genes) entre sí, o la asociación entre células y genes.

Realizamos CA estándar en el conjunto de datos de evaluación comparativa Zhengmix8 PBMC, trazando las dos primeras dimensiones de las incrustaciones de genes y células resultantes (Fig. 3). Los 20 genes con mayor peso por norma L2 en las dos primeras dimensiones están coloreados en azul, con una etiqueta de gen correspondiente. Las poblaciones de células están coloreadas por tipo de célula. El biplot destaca los genes que tienen fuertes asociaciones y pueden discriminar entre poblaciones de células particulares. Por ejemplo, las células asesinas naturales (NK) expresan constitutivamente granulisina, codificada por el gen GNLY, y aunque no son productores exclusivos de granulisina, la expresión de GNLY en otras células, como las poblaciones de células T citotóxicas, está impulsada por la activación inmunitaria51. El biplot CA muestra que GNLY tiene un alto peso en PC2 (lejos del origen) y tiene una rotación angular similar a la población de células NK (alta similitud de coseno). En consecuencia, los diagramas de cresta insertados en la Fig. 3 que muestran histogramas de expresión logarítmica en poblaciones celulares confirman que se expresa altamente específicamente en la población de células NK.

Interpretación geométrica del análisis de correspondencia: ilustrando asociaciones entre genes y poblaciones celulares. Biplot de las dos primeras dimensiones de CA en el conjunto de datos Zhengmix8. Las ocho poblaciones de células están coloreadas por tipo, mientras que los genes están etiquetados y coloreados en azul. Se muestran los veinte genes principales por peso (los más alejados del origen en los dos primeros componentes). Se destacan seis genes biológicamente significativos y los diagramas de cresta ilustran su expresión logarítmica: GNLY se expresa mucho en las células NK, mientras que TYROBP se expresa mucho en los monocitos NK y CD14. LYZ y S100A8 son genes específicos de monocitos altamente expresados. Tanto CD74 como HLA-DRA se expresan en gran medida en las células B y se expresan moderadamente en los monocitos, como se muestra en los diagramas de cresta respectivos.

Las proteínas de unión al calcio S100A8 y S100A9 (MRP8 y MRP14 respectivamente) se expresan constitutivamente en monocitos y neutrófilos52,53. En consecuencia, en el biplot de CA en la Fig. 3, la expresión de ambos genes está fuertemente asociada con la población de monocitos (misma dirección, gran magnitud), de acuerdo con la expresión logarítmica relativa de S100A8 entre las poblaciones de células (gráfico insertado). De manera similar, LYZ codifica para lisozima, una molécula altamente secretada por monocitos54. Reflejando la expresión diferencial elevada del gen entre la población de monocitos que se muestra en el recuadro, el gen está lejos del origen mientras que también se acerca en ángulo a la población celular.

Los biplots también informan sobre genes expresados ​​de manera alta y diferencial en múltiples poblaciones celulares: TYROBP codifica para una proteína adaptadora de señalización (KARAP/DAP12), que inicialmente se identificó como un componente de cableado en la función antiviral y antitumoral de NK55. TREM-1, una proteína de superficie asociada a KARAP/DAP12, amplifica la activación de monocitos, macrófagos y granulocitos por citocinas y quimiocinas después de la estimulación con LPS55. Si bien otras células linfoides y mieloides pueden expresar TYROBP, se ha observado predominantemente en NK, monocitos/macrófagos y células dendríticas, de acuerdo con los niveles de expresión enriquecidos en los tipos de células esperados: NK y monocitos. El gen se proyecta entre estas poblaciones celulares; Los diagramas de crestas de expresión confirman que exhibe una expresión elevada específicamente en poblaciones de células NK y monocitos.

CD74 es parte del complejo MHC de clase II, en consonancia con su posicionamiento biplot y su gráfico de expresión: angularmente, se encuentra más cerca de la población de células B, pero también gira ligeramente hacia la población de monocitos56. En consecuencia, la expresión de CD74 se observa en células de todos los tipos, pero es más elevada en las células B y en algunos monocitos. De manera similar, HLA-DRA codifica la cadena alfa de la proteína HLA-DR, que es un receptor de superficie celular en el complejo MHC de clase II57. Tanto las células B como los monocitos son células presentadoras de antígenos profesionales que requieren toda la maquinaria del complejo MHC de clase II, por lo que estos genes son importantes para la función de ambos tipos de células, y ambos genes en el biplot están angulados entre los tipos de células más relevantes, proporcionando un resumen biológicamente significativo de asociaciones entre genes y subpoblaciones celulares.

El biplot de CA facilita el análisis unificado de incrustaciones de genes y células, lo que puede informar la interpretación de grupos y servir como base para integrar (y ampliar) otros métodos, como el análisis de enriquecimiento de conjuntos de genes y la proyección de datos complementarios en un espacio latente compartido.

La necesidad de integrar células de múltiples lotes motiva el perfeccionamiento y desarrollo continuos de CA10,35,58. Nuestra adaptación de tablas múltiples de CA, implementada como corralm en el paquete corral R/Bioconductor, opera utilizando residuales indexados o de Freeman-Tukey, y encuentra una incrustación conjunta de tablas múltiples. Es adecuado para tareas de integración de ligeras a moderadas (p. ej., diferentes ejecuciones de secuenciación de un experimento). Para tareas de integración complejas con efectos sustanciales por lotes, es posible que corralm no integre completamente los datos porque es una extensión de varias tablas de la reducción de dimensiones de CA, y no está optimizado para la integración por lotes y no contiene un paso de integración explícito. Dado que las incrustaciones de CA se pueden sustituir fácilmente por PCA en una canalización, investigamos si la inclusión de corralm en la integración por lotes mejoraba el rendimiento de los métodos de integración populares que incluyen un paso de PCA. Por ejemplo, los métodos de corrección por lotes ampliamente utilizados, FastMNN y Harmony, incluyen un paso PCA. Comparamos el rendimiento de corralm con métodos de integración por lotes ampliamente utilizados (Fig. 4), incluidos LIGER59, MNNCorrect, Harmony y Seurat (canalización sugerida que incluye la normalización SCTransform y la integración CCA), todos los cuales se desempeñaron bien en estudios comparativos recientes59,60,61, 62,63. Para evaluar corralm como sustituto de la canalización de PCA, incluimos en las comparaciones corralm junto con Harmony y MNN.

La adaptación de tablas múltiples de corralm de CA integra matrices de conteo en lotes al encontrar un espacio latente compartido de baja dimensión. (A) Comparación de nueve flujos de trabajo de integración en el conjunto de datos de evaluación comparativa de SCMixology (que comprende mezclas de tres líneas celulares: H2228, H1975 y HCC827, cada una de las cuales se usó con tres protocolos de preparación de bibliotecas: Dropseq, Celseq2 y 10X, seguidos de secuenciación de Illumina) la primera columna muestra los resultados de los conteos y la segunda columna muestra los conteos de registros (cuando corresponda). corralm es rápido y eficaz y se puede combinar con métodos como Harmony (la tercera fila) para mejorar aún más el rendimiento. (B) Varianza escalada (SV) de los lotes que representan las tres plataformas de preparación de la biblioteca SCMixology, calculada en los tres primeros componentes de recuentos y recuentos logarítmicos presentados en la Fig. 4A, coloreados por lote. SV cercano a 1 indica que las incrustaciones exhiben una distribución similar entre lotes. corralm, Harmony con corralm y SCTransform exhiben una buena alineación por lotes, mientras que Harmony con PCA muestra valores lejos de 1, lo que sugiere que las incrustaciones no se integraron correctamente entre lotes (incluye todos los métodos con componentes clasificados). (C) Integración por lotes de datos de páncreas. Para cada uno de los conjuntos de métodos seleccionados, la columna de la izquierda muestra los UMAP coloreados por conjunto de datos (lote), mientras que la columna de la derecha muestra los UMAP coloreados por tipo de celda. (D) El tipo ASWcell evalúa la incrustación en función de la preservación del contexto biológico, mientras que 1: ASWbatch evalúa la integración y se encuentra en los ejes x e y respectivamente. Para todos los métodos, esto se calcula en 8 PC.

En primer lugar, para comparar el rendimiento en un escenario claro y simple de verdad en el terreno, cada método se aplicó a la integración por lotes del conjunto de datos de evaluación comparativa de SCMixology que comprende perfiles de scRNAseq de una mezcla de tres líneas celulares (H2228; H1975; HCC827), obtenidos en tres lotes utilizando diferentes plataformas de preparación de bibliotecas (Dropseq; Celseq2; 10X)39. En segundo lugar, para comparar el rendimiento en un ejemplo más complejo y biológicamente realista, los métodos se aplicaron a la integración de tres conjuntos de datos de páncreas humano, obtenidos en diferentes plataformas en estudios separados: Baron, Lawlor y Muraro (detallado en "Métodos"—Evaluación comparativa a continuación) .

En el conjunto de datos de SCMixology, la "verdad básica" no es ambigua, y esperamos que la representación de baja dimensión alinee los datos entre lotes e identifique distintos grupos de líneas celulares. La Figura 4A muestra los primeros dos componentes de la representación de dimensión reducida de los resultados de corralm, Harmony con incrustaciones de corralm, SCTransform con CCA y MNNCorrect con PCA integran lotes con éxito mientras conservan los grupos de líneas celulares (Fig. 4A, filas 1,3,4, 6). Por el contrario, Harmony (que usa incrustaciones de PCA, tal como se publicó) falla tanto en la integración de datos como en la detección de grupos en estos mismos datos (Fig. 4A, fila 2). LIGER tiene éxito en la separación de grupos pero falla en la integración, como se visualiza en el UMAP (Fig. 4A, fila 5). Cualitativamente, SCTransform con CCA exhibe la mejor alineación por lote y los clústeres más ajustados por tipo de celda, pero su tiempo de ejecución es un orden de magnitud más lento que Corralm y Harmony con Corralm. SCTransform con CCA se ejecuta en 45 s, mientras que corralm y Harmony con corralm se ejecutan en 7 s para la tarea equivalente, asignado un núcleo de una computadora portátil ("Métodos": evaluación comparativa). LIGER y MNNCorrect son significativamente más lentos, se ejecutan en aproximadamente 6 min y 1,25 min, respectivamente. Aunque el conjunto de datos de SCMixology es relativamente pequeño (1401 celdas), a escala, esta diferencia en el tiempo de ejecución afectaría significativamente la velocidad general de una tubería, lo que demuestra una ventaja de corralm y Harmony con corralm.

Las medidas de evaluación de conglomerados como ARI evalúan si los conglomerados se pueden volver a identificar, pero no cuantifican directamente qué tan bien se integran los conjuntos de datos en sus representaciones de incorporación de baja dimensión. Proponemos una nueva métrica, varianza escalada (SV), para evaluar la integración por lotes de conjuntos de datos que comprenden poblaciones de células similares en lotes (Fig. 4B; detallado en Métodos). Para cada dimensión de cada incrustación, calculamos la varianza del subconjunto de observaciones de cada lote y escalamos por la varianza general en esa dimensión como una medida de dispersión insuficiente o excesiva de las incrustaciones del subconjunto en esa dimensión. Por ejemplo, en el conjunto de datos de evaluación comparativa de SCMixology, se analizaron muestras biológicamente idénticas utilizando tres métodos de preparación de bibliotecas (Dropseq; Celseq2; 10X), y se esperaba que cada lote tuviera la misma distribución de células. Los valores de SV más cercanos a uno indican una mejor integración (más similitud en la dispersión) en una dimensión dada por lote. De acuerdo con la Fig. 4A, las gráficas SV (Fig. 4B) mostraron que SCTransform tenía la mejor integración, con todos los puntos SV muy cerca de uno. Del mismo modo, corralm y Harmony con corralm también mostraron una buena integración por lotes, y ambos superan a Harmony con PCA, que tenía valores de SV lejos de uno.

En la tarea de integración de scRNAseq de páncreas más compleja y realista, el rendimiento de los métodos de integración de datos se evaluó cualitativamente comparando UMAP (Fig. 4C y S5) y cuantitativamente con métricas de grupo ASW64 (Fig. 4D), como en un estudio comparativo anterior62. Suponiendo que las etiquetas de tipo de celda dadas de cada conjunto de datos son reales, en una incrustación donde los tipos de celda forman grupos compactos y perfectamente separados, el tipo de celda ASW debe estar cerca de 1. La integración de lotes se midió por 1 - ASWbatch, donde los valores cerca de 1 (ASWbatch cerca de 0) indican integración y menos agrupamiento por lote. Corralm es una reducción de dimensión conjunta simple que no incluye optimización para lotes ni pasos explícitos de integración de lotes y, por lo tanto, no se espera que supere a los métodos optimizados para la corrección de lotes. Sin embargo, vemos que corralm supera al PCA multilote (Fig. 4D). Además, corralm se combina bien con canalizaciones de integración: emparejar la corrección de Harmony o MNN con incrustaciones de corralm mejora la incrustación en comparación con corralm solo y con las canalizaciones originales con PCA. En la Fig. 4D, informamos que corralm (con residuos de Freeman-Tukey) junto con Harmony exhibe un rendimiento comparable al de la rutina de Seurat en términos de integración y separación de grupos biológicos. Cualitativamente, estos UMAP son similares (Fig. 4C). Por el contrario, otros métodos que se muestran en la Fig. 4C tuvieron menos éxito en la integración de los lotes, aunque parecían conservar al menos parte de la estructura biológica.

La implementación de corral de CA aprovecha SVD rápido, aproximado y parcial del paquete irlba R65; incluso cuando se asigna un núcleo en una computadora portátil ("Métodos": evaluación comparativa), Corral se ejecuta en menos de un minuto para obtener un conjunto de datos de 1500 características y más de 20 000 celdas (50 componentes). La figura 5A muestra que para la tarea análoga, glmPCA tarda más de una hora y que, en una variedad de tamaños de conjuntos de datos (1500 características), el tiempo de ejecución de glmPCA aumenta rápidamente con la cantidad de celdas, mientras que CA (corral) escala mucho más favorablemente. A medida que mejoran las implementaciones de SVD, el tiempo de ejecución y/o el uso de la memoria pueden reducirse aún más al incorporarlos de manera modular en la canalización del corral. La CA estándar y las variaciones que consideramos no son implementaciones escasas; el rendimiento computacional puede mejorarse aún más con adaptaciones para la escasez. Dado que CA tiene requisitos computacionales similares a PCA, reemplazar PCA con CA es una simple sustitución de tubería.

Rendimiento computacional de CA y sus adaptaciones. (A) Trazar la comparación del tiempo de ejecución para CA estándar y glmPCA en diez conjuntos de datos, seleccionando hasta 1500 características en cada uno. CA estándar se ejecuta constantemente en menos de un minuto, incluso para conjuntos de datos con más de 20 000 celdas, mientras que glmPCA se escala menos favorablemente y requiere más de una hora para la matriz de entrada equivalente (1500 funciones x ~ 22 000 celdas). (B) Gráfico que compara el tiempo de ejecución con un número creciente de características en el conjunto de datos de cola de Aztekin Xenopus, a través de los métodos de adaptación de CA. Dado que utilizan rutinas similares, sus tiempos de ejecución son bastante similares. (C) Gráfico que compara el tiempo de ejecución con un número creciente de características en el conjunto de datos Zhengmix8, a través de los métodos de adaptación de CA. Tanto en (B) como en (C), es notable que incluso con un orden de magnitud más características, CA y sus adaptaciones se ejecutan en una fracción del tiempo que tarda glmPCA.

El análisis de correspondencias (AC) es una técnica estadística con una rica base teórica que fue propuesta y caracterizada matemáticamente por primera vez hace casi un siglo66 y que ha seguido desarrollándose y ampliándose. CA ha sido periódicamente "redescubierta" y adaptada en una variedad de disciplinas20,28,67,68,69 y más recientemente en el campo del análisis scRNAseq: varios grupos han sugerido la normalización basada en residuos de Pearson antes de la descomposición de la matriz con PCA2,13, 14, una rutina que es conceptualmente similar a la CA estándar; además de las diferencias en cómo se calculan los residuales, una distinción adicional en esta rutina es el paso adicional de normalización del puntaje Z de PCA4 después de calcular los residuales de Pearson, en lugar de descomponer directamente la matriz residual con SVD .

El análisis de correspondencia con residuos de chi-cuadrado de Freeman-Tukey (CA-FT) es una adaptación simple y efectiva de CA para la reducción de la dimensión de los recuentos de scRNAseq. Comparamos el rendimiento de CA y cinco variaciones de CA que abordan la sobredispersión de scRNAseq, comparándolos con glmPCA2, un método popular en el campo. CA-FT fue el más eficaz en general en una tarea de recuperación de clúster scRNAseq. Nuestros análisis también mostraron que, en combinación con CA estándar (residuos de Pearson), la incorporación de transformaciones estabilizadoras de varianza y el suavizado de "desinflación de potencia" mejoran el rendimiento en las tareas de agrupamiento posteriores, en comparación con CA estándar solo. Por lo tanto, para la reducción de la dimensión de los datos de scRNAseq, recomendamos usar CA-FT o, cuando se usa CA estándar, incorporar estabilización de varianza o suavizado.

La normalización de datos y la reducción de dimensiones tienen un impacto significativo en los análisis posteriores de scRNAseq. El rendimiento de los enfoques de reducción de dimensiones depende de la estructura de varianza, el ruido y otras características de un conjunto de datos; encontramos, como se ha informado en otro lugar18, el rendimiento de los métodos varía según las características de los conjuntos de datos individuales. Los estudios de evaluación comparativa están limitados por la falta de conjuntos de datos de referencia sólidos que reflejen la profundidad de la complejidad y los matices de la investigación biológica real; la mayoría de los conjuntos de datos de evaluación comparativa de "verdad en el terreno" de alta calidad se derivan de mezclas simples de "pseudo" células o de grupos de distintos tipos de células. Ni reflejan la verdadera diversidad de tipos de células en los tejidos, ni las propiedades de los datos de investigación del mundo real. Por lo general, los parámetros como el número de grupos "verdaderos" se desconocen a priori y dependen de la pregunta de investigación y el contexto específicos. Un enfoque complementario es considerar conjuntos de datos de evaluación comparativa obtenidos mediante la secuenciación de muestras de tejidos complejos, aunque estos conjuntos de datos también tienen sus propias desventajas; A las celdas en tales estudios se les asignan identidades basadas en un método analítico (y para un conjunto particular de objetivos de estudio) sin una forma de validar las asignaciones de manera independiente. Por lo tanto, estas anotaciones de contexto único establecen un estándar demasiado estrecho para futuros estudios de evaluación comparativa de otros métodos, que nunca pueden superar el método utilizado para la asignación inicial. Con los avances en los marcos sistemáticos de evaluación comparativa para conjuntos de datos complejos en diferentes contextos, estaremos mejor equipados para probar los méritos de cada enfoque e identificar enfoques óptimos en función de las características de los datos.

Como tal, los análisis que presentamos aquí están algo limitados por las anotaciones específicas del contexto de nuestros conjuntos de datos de evaluación comparativa, ya que usamos como etiquetas de verdad de campo las anotaciones originales publicadas con estos conjuntos de datos. A excepción de SCMixology y Zhengmix (ambos comprenden grupos de células bien definidos y tienen un diseño más simple que los datos de tejidos complejos), los conjuntos de datos que analizamos no tenían anotaciones de tipos de células validadas de forma independiente, por lo que el rendimiento está limitado por las asignaciones de tipos de células originales. Incluso si un método determinado distingue mejor subpoblaciones importantes o tipos de células raros del agrupamiento, es posible que estas ventajas no se reflejen en el ARI, y el método en realidad recibiría una pequeña penalización por las diferencias con respecto a la "referencia". Dada la complejidad y la subjetividad inherentes a la anotación de grupos de células, los investigadores pueden llamar a diferentes poblaciones o grupos de células del mismo conjunto de datos, según los objetivos de la investigación. La diversidad de preguntas de investigación y desafíos de datos en biología unicelular requieren la amplitud de enfoques estadísticos y computacionales. El sólido marco conceptual para CA y sus ventajas de rendimiento empírico sobre PCA argumentan a favor de su aplicación en análisis scRNAseq.

Implementamos CA, CA-FT y otras variaciones que se ajustan a la sobredispersión de los datos de scRNAseq en el corral del paquete R/Bioconductor (incluida la documentación, los tutoriales y las viñetas), lo que permite su integración en las canalizaciones analíticas de uso común3,37. Concluimos con ideas para el desarrollo futuro: CA, especialmente cuando se sitúa dentro del marco más amplio del diagrama de dualidad, puede servir como plataforma y fuente rica para el desarrollo de métodos adicionales. Al visualizar simultáneamente las incrustaciones de células y genes, el biplot CA enfatiza la dualidad fila-columna inherente a estos datos, lo que facilita el análisis conjunto de genes y células. El enfoque unificado para el análisis de incrustaciones de genes y células proporciona un marco natural para ampliar y/o integrar con otros enfoques, incluido el análisis de enriquecimiento de conjuntos de genes, la descomposición supervisada y la proyección de datos complementarios en un espacio latente compartido, por ejemplo, con un enfoque similar. como se usó anteriormente en mogsa y omicade410,34,36. Las incrustaciones se pueden utilizar como operadores matriciales para proyectar datos complementarios en un espacio latente compartido, lo que permite la integración multimodal y de varios lotes, así como métodos de aproximación rápida. La proyección de matriz a través de la multiplicación es rápida y escalable, incluso para conjuntos de datos muy grandes, y en extensiones futuras, puede servir como base para enfoques de reducción de dimensión aproximada y rápida basados ​​en la descomposición de un subconjunto representativo de los datos y luego proyectar en el espacio la matriz completa. . A medida que los avances en los métodos de preparación de bibliotecas permiten la secuenciación de cantidades cada vez mayores de células individuales, las consideraciones computacionales son fundamentales para seleccionar métodos analíticos y diseñar canalizaciones de scRNAseq.

Al igual que muchos otros métodos de factorización de matrices, el análisis de correspondencias consta de dos pasos principales: una rutina de transformación de datos (consulte también la Fig. 1A) y una operación de descomposición de matrices (como SVD o análisis propio). Al aplicar CA "estándar" a los datos de recuento de scRNAseq, usamos SVD para descomponer los residuos de Pearson de la matriz de recuento de expresión gen por célula, donde el residuo cuantifica la diferencia entre los datos observados y esperados. En este caso, el valor esperado es el producto del peso de fila y columna de la matriz de conteo original. Un residuo positivo, que indica que el valor observado (recuento) para esa característica/gen y par de células es más alto de lo esperado, sugiere una asociación o codependencia; correspondientemente, un residual negativo muestra un valor inferior al esperado, lo que sugiere que indica una asociación negativa entre la expresión de un gen y una subpoblación celular. Cuando se elevan al cuadrado, los residuos son variables aleatorias distribuidas en chi-cuadrado, y su suma de cuadrados comprende un estadístico de prueba de bondad de ajuste chi-cuadrado con (n-1)(m-1) grados de libertad47,70.

El análisis de correspondencia es una escala dual a lo largo de las filas y las columnas de cada matriz de conteo.

La CA aplicada a los datos de conteo de scRNAseq procede a través de los siguientes dos pasos discretos:

Transformación de conteos a residuales estandarizados. Supongamos que \(\mathbf{X}\) es una matriz \(m\times n\) con \(n\) celdas (indexadas en \(j\)) en las columnas y características \(m\) (indexadas en \(i\)) en las filas, que comprenden observaciones \({x}_{ij}\). La abundancia \({p}_{ij}\), el peso de la \(i\)-ésima fila \({p}_{i.}\), y el peso de la \(j\)-ésima columna \({p}_{.j}\) para una observación dada \({x}_{ij}\) son:

La abundancia esperada para la observación \({x}_{ij}\) es \({p}_{i.}\hspace{0.25em}{p}_{.j}\) y es lo que esperaríamos ver en una celda asumiendo que no hay relación entre una fila y una columna. Los residuos estandarizados (Pearson) \({r}_{p;ij}\) son la diferencia entre lo observado y lo esperado, y se pueden calcular:

Esta transformación es equivalente al cálculo aplicado en el análisis de tablas de contingencia de datos categóricos que miden la fuerza de asociación entre elementos en una fila y una columna. Produce una matriz \({\mathbf{M}}_{\mathbf{S}}\) donde la suma de las distancias de los puntos a su centroide ("inercia total") es el estadístico chi-cuadrado de la matriz26 ,28. Como resultado de esta transformación, \({\mathbf{M}}_{\mathbf{S}}\) está centrada y debería aparecer más gaussiana y, por lo tanto, es una entrada adecuada para SVD.

Descomposición de matrices. \({\mathbf{M}}_{\mathbf{S}}\) se descompone usando la descomposición de valores singulares (SVD) para encontrar la matriz singular izquierda \(\mathbf{U}\), matriz diagonal de valores singulares \( \mathbf{D}\), y matriz singular derecha \(\mathbf{V}\) tal que:

y

La matriz \(\mathbf{U}\) resultante se puede usar directamente como una incrustación, donde cada columna representa una dimensión en el nuevo espacio latente, o se pueden calcular las puntuaciones de las coordenadas. Los puntajes de coordenadas estándar se obtienen dividiendo las matrices \(\mathbf{U}\) y \(\mathbf{V}\) entre los vectores de pesos de fila y pesos de columna, respectivamente. Las puntuaciones de las coordenadas principales se obtienen multiplicando las puntuaciones de las coordenadas estándar por el vector de valores diagonales de la matriz \(\mathbf{D}\). Los puntajes de las coordenadas principales difieren de los puntajes de las coordenadas estándar por un escalar en cada dimensión, y ambos reflejan los puntajes de ordenación de las características y las celdas38. A diferencia de PCA, donde las diferencias en las incrustaciones se aproximan a las distancias euclidianas, el análisis de correspondencia descompone la estadística general de chi-cuadrado. El valor de la estadística chi-cuadrado subyacente es alto cuando existe una asociación entre un par de filas y columnas de la tabla.

Consideramos cinco variaciones de CA para abordar la sobredispersión en los recuentos de scRNAseq (también resumidos gráficamente en la Fig. 2A).

CA con residuos de chi-cuadrado de Freeman-Tukey En lugar de calcular los residuos de Pearson descritos anteriormente, los residuos se calculan:

La matriz de estos valores residuales luego se descompone con SVD como se describe en el Paso 2 anterior.

CA con transformación estabilizadora de varianza: Raíz cuadrada La raíz cuadrada de la matriz de recuentos \(\mathbf{X}\) se calcula antes de realizar la transformación residual.

CA con transformada estabilizadora de varianza: Anscombe Cada elemento \({x}_{ij}\) de la matriz de conteos \(\mathbf{X}\) se transforma en \({x}_{ij}^{* }=2\sqrt{{x}_{ij}+\frac{3}{8}}\). La transformación residual se calcula en la matriz de conteos estabilizados por varianza \({\mathbf{X}}^{*}\).

CA con transformada estabilizadora de varianza: Freeman–Tukey Cada elemento \({x}_{ij}\) de la matriz de cuentas \(\mathbf{X}\) se transforma en \({x}_{ij}^ {*}=\sqrt{{x}_{ij}}+\sqrt{{x}_{ij}+1}\). La transformación residual se calcula en la matriz de conteos estabilizados por varianza \({\mathbf{X}}^{*}\).

CA con deflación de potencia Después de realizar la transformación residual de Pearson, cada valor en la matriz de residuos se transforma a una potencia de \(\alpha \in \left(0,1\right)\), conservando el signo. Cada elemento \({r}_{ij}\) en la matriz residual se transforma en \({r}_{ij}^{*}={\text{sgn}}\left({\text{r} }_{\text{ij}}\right) {\left|{r}_{ij}\right|}^{\mathrm{\alpha }}\). Recomendamos seleccionar \(\alpha \in [0.9,0.99]\) para un efecto de suavizado "suave", presentando resultados para \(\alpha =0.9\).

La adaptación del análisis de correspondencias para la integración de tablas múltiples es similar al método para tablas individuales con operaciones adicionales de concatenación de matrices. Al integrar conjuntos de datos, empleamos residuos indexados, dividiendo los residuos estandarizados por la raíz cuadrada de la proporción esperada para reducir la influencia de la columna con masas más grandes (profundidad de la biblioteca), que es una fuente conocida de efecto por lotes en los estudios de scRNAseq. Los residuos indexados tienen una interpretación sencilla, por ejemplo, un valor de 0,5 indica que el valor observado es un 50 % más alto que el valor esperado. Un valor de -0,5 indicó que el valor observado es un 50 % menos probable de lo esperado de tener una asociación gen-célula de lo esperado.

Haga coincidir tablas y seleccione características. Identifique la intersección de características a través de las matrices \(k\) que se van a integrar, y cree subconjuntos en las tablas solo para esas características \({m}^{*}\). Si bien en estos análisis nos enfocamos en la integración por lotes y, por lo tanto, hacemos coincidir las características, las tablas pueden coincidir por características, para la integración entre lotes, o por celdas, para la integración multimodal entre tipos ómicos.

Transformación de conteos a residuales indexados. Dada cada tabla con \(n\) celdas y \({m}^{*}\) características, el peso de la fila \({p}_{i.}\), el peso de la columna \({p}_{. j}\), y la abundancia \({p}_{ij}\) para cada observación se calculan como se describe anteriormente para el CA estándar. Los residuos indexados \({r}_{ij}\) se pueden calcular:

Cada tabla se escala por separado, para preservar la estructura interna de cada conjunto de datos.

Concatenar matrices. Las matrices transformadas de residuos indexados luego se concatenan a lo largo de las características coincidentes para formar una nueva matriz \({\mathbf{M}}_{\mathbf{C}}\) que tiene \({m}^{*}\) características y el número total de celdas en las matrices \(k\) (es decir, la suma de \(n\) a través de \(k\)).

Descomposición de matrices. La descomposición en valores singulares (SVD) se aplica a la matriz concatenada de residuos indexados \({\mathbf{M}}_{\mathbf{C}}\) para encontrar la matriz singular izquierda \(\mathbf{U}\), diagonal matriz de valores singulares \(\mathbf{D}\), y matriz singular derecha \(\mathbf{V}\) tal que:

y

Las columnas de la matriz \(\mathbf{U}\) sirven como incrustaciones generadas por este procedimiento, y las celdas corresponden a sus índices en la matriz concatenada \({\mathbf{M}}_{\mathbf{C }}\).

Dependiendo del análisis posterior, puede ser importante seleccionar una cantidad adecuada de PC. Similar a PCA, la cantidad de componentes se puede seleccionar utilizando el método del codo con el gráfico de pantalla, por ejemplo, como se implementa en el paquete findPC R (como en la Fig. 4C para corralm con Harmony)71.

Al integrar representaciones de incrustación en lotes, las medidas para la evaluación de grupos son efectivas para evaluar la compacidad del grupo y la recuperación de las poblaciones celulares a través de la agrupación. Sin embargo, no evalúan directamente qué tan bien se integran las incrustaciones de conjuntos de datos en los lotes. Para centrarnos específicamente en la integración de lotes, desarrollamos y aplicamos una métrica de varianza escalada heurística, que captura la dispersión relativa de cada lote con respecto a todo el conjunto de datos. La varianza escalada de la dimensión del componente \({d}^{*}\) para el subconjunto de observaciones en el lote \({b}^{*}\), \(S{V}_{{b}^{* },d}\), se calcula con:

donde \(\mathbf{E}\) es la matriz de incorporaciones, y \(b\) indexa las filas (observaciones por lote) mientras que \(d\) indexa las columnas para indicar qué dimensión de componente evaluar. Cuando los conjuntos de datos están bien integrados, los valores de SV para cada lote están cerca de 1, lo que indica que cada lote tiene una dispersión similar en comparación con la incrustación completa. Esta métrica es apropiada cuando se espera que los tipos de celdas representados en diferentes conjuntos de datos sean similares, pero no puede dar cuenta de situaciones en las que la distribución esperada de tipos de celdas (y, por lo tanto, incrustaciones) es fundamentalmente diferente entre lotes.

Consideramos los diez conjuntos de datos de evaluación comparativa de scRNA-seq que se muestran en la Tabla 1. Las incrustaciones de dimensión reducida de cada método se agruparon utilizando la agrupación de gráficos de vecinos más cercanos de walktrap, como se implementó en el conjunto de parámetros NNGraph predeterminado del paquete bluster72,73. El rendimiento en la tarea de agrupamiento se evaluó con el índice Rand ajustado (ARI)74, utilizando como "verdad básica" las etiquetas de tipo de celda de los conjuntos de datos originales. Walktrap se seleccionó como el principal método de agrupamiento en función del rendimiento; observamos, al igual que otros, que el algoritmo walktrap conserva mejor la estructura jerárquica que el agrupamiento de Louvain y, en general, logra un ARI75 más alto. Los resultados que comparan el agrupamiento de Louvain y el agrupamiento de walktrap se incluyen en la Fig. S4. Notamos que, si bien se observó cierta variabilidad en los grupos y ARI entre ejecuciones, CA-FT se clasificó constantemente como el método de mayor rendimiento en toda la gama de conjuntos de datos. Los resultados que se muestran en la Fig. 2C provienen de la agrupación utilizando diferentes números de PC. Los resultados que se muestran en la Fig. 2B se calculan tomando el máximo de todas las PC probadas de la Fig. 2C, y para glmPCA, el valor que se muestra es el promedio de los máximos alcanzados por cada semilla (diez semillas probadas en total). Los conjuntos de datos (detallados a continuación) se adquirieron de tres paquetes de datos de R/Bioconductor: CellBench, DuoClustering2018 y scRNAseq. Los enlaces a cada uno de estos se incluyen a continuación en la sección Disponibilidad de datos.

En la integración de SCMixology (Fig. 4A, B), cada uno de los métodos evaluados se ejecuta con la configuración predeterminada como se sugiere en sus respectivos documentos/viñetas. mnnCorrect del paquete batchelor R/Bioconductor se ejecuta en las matrices de recuentos logarítmicos y luego se descompone con PCA60. El resultado de LIGER se muestra como visualización de UMAP porque, dado que es un método basado en NMF, descubrimos que la visualización de las incrustaciones de UMAP directamente era un desafío, ya que las dimensiones de la incrustación no se clasifican según el rendimiento y también están restringidas a solo valores positivos59 . De manera similar, LIGER no se muestra en el gráfico de varianza a escala por la misma razón, y no recomendaríamos usar el enfoque de gráfico de varianza a escala con otros métodos que no generan componentes clasificados.

En la integración del páncreas (Fig. 4C, S5), todos los gráficos UMAP se generaron utilizando n_neighbors = 40 o n_neighbors = 50. Los métodos se implementaron de manera similar a los resultados de la integración de SCMixology. PCA (escalado por tabla) se implementó como se describe en nuestra minirevisión4. Se realizó PCA multibatch con la implementación batchelor (multibatchPCA), al igual que el método "+MNN" (reducedMNN). En el resultado de corralm + Harmony, se utilizó el método del codo (implementado en findPC; opción perpendicular71) para la selección de PC antes de ejecutar Harmony61. El ancho medio de la silueta (ASW) se implementó con el paquete cluster R, utilizando la distancia euclidiana64,76. Para permitir la evaluación conjunta, se armonizaron las etiquetas, de modo que a los tipos de celdas coincidentes se les asigna la misma etiqueta en todos los conjuntos de datos. En particular, el estrellado activado y el estrellado inactivo se fusionaron para formar estrellado; gamma/pp y pp se fusionaron con gamma; duct y ductal se fusionaron.

El código y la documentación están disponibles en el paquete corral R/Bioconductor: https://www.bioconductor.org/packages/corral. El código R para reproducir las figuras y el análisis de este manuscrito está disponible en Github en: https://github.com/laurenhsu1/corral_manuscript. Un tutorial que describe diferentes implementaciones de PCA y CA, incluido corral, está disponible en: https://aedin.github.io/PCAworkshop. Los conjuntos de datos utilizados en estos análisis se detallan en la Tabla 1, en la sección Evaluación comparativa de Métodos, incluidas las citas y donde se puede acceder a los datos directamente a través de paquetes de datos R. Para facilitar el acceso, a continuación se incluyen enlaces para cada paquete de datos de Bioconductor utilizado en este documento: CellBench: https://bioconductor.org/packages/release/bioc/html/CellBench.htmlDuoClustering2018: https://bioconductor.org/packages /release/data/experiment/html/DuoClustering2018.htmlscRNAseq: https://www.bioconductor.org/packages/release/data/experiment/html/scRNAseq.html.

Hicks, SC, Townes, FW, Teng, M. e Irizarry, RA Datos faltantes y variabilidad técnica en experimentos de secuenciación de ARN unicelular. Bioestadística 19, 562–578 (2018).

Artículo Google Académico

Townes, FW, Hicks, SC, Aryee, MJ & Irizarry, RA Selección de características y reducción de dimensiones para RNA-Seq de una sola célula basada en un modelo multinomial. Genoma Biol. 20, 295 (2019).

Artículo CAS Google Académico

Amezquita, RA et al. Orquestando el análisis unicelular con bioconductor. Nat. Métodos 17, 137–145 (2020).

Artículo CAS Google Académico

Hsu, LL & Culhane, AC Impacto del preprocesamiento de datos en la factorización de matriz integradora de datos de una sola celda. Frente. oncol. 10, 973 (2020).

Artículo Google Académico

Kiselev, VY, Andrews, TS y Hemberg, M. Desafíos en el agrupamiento no supervisado de datos de RNA-seq de una sola célula. Nat. Rev. Genet. 20, 273–282 (2019).

Artículo CAS Google Académico

Nguyen, LH & Holmes, S. Diez consejos rápidos para una reducción efectiva de la dimensionalidad. Cómputo PLOS. Biol. 15, e1006907 (2019).

Artículo ADS CAS Google Académico

Stein-O'Brien, GL et al. Ingrese a Matrix: la factorización descubre el conocimiento de Omics. Tendencias Genet. 34, 790–805 (2018).

Holmes, S. Análisis de datos multivariados: el método francés. En Colecciones del Instituto de Estadística Matemática 219–233 (Instituto de Estadística Matemática, 2008). doi: https://doi.org/10.1214/193940307000000455.

Hotelling, H. Relaciones entre dos conjuntos de variables. Biometrika 28, 321 (1936).

Artículo MATEMÁTICAS Google Académico

Meng, C. et al. Técnicas de reducción de dimensiones para el análisis integrador de datos multiómicos. Breve. Bioinformar. 17, 628–641 (2016).

Artículo CAS Google Académico

Pearson, K. Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio. largo Edinb. Filosofía de Dublín. revista J. Ciencia. 2, 559–572 (1901).

Artículo MATEMÁTICAS Google Académico

Diaconis, P., Goel, S. & Holmes, S. Horseshoes en escalado multidimensional y métodos de núcleo local. Ana. aplicación Estadística 2, 777–807 (2008).

Artículo MATEMÁTICAS Google Académico

Hafemeister, C. & Satija, R. Normalización y estabilización de varianza de datos de RNA-seq de una sola célula mediante regresión binomial negativa regularizada. Genoma Biol. 20, 296 (2019).

Artículo CAS Google Académico

Lause , J. , Berens , P. & Kobak , D. Residuos analíticos de Pearson para la normalización de datos UMI de RNA-seq de una sola célula . Genoma Biol. Rev. 22, 258 (2021).

Artículo CAS Google Académico

Durif, G., Modolo, L., Mould, JE, Lambert-Lacroix, S. & Picard, F. Factorización de matriz de recuento probabilístico para el análisis de datos de expresión de una sola célula. Bioinformática 35, 4011–4019 (2019).

Artículo CAS Google Académico

Pierson, E. & Yau, C. ZIFA: Reducción de la dimensionalidad para el análisis de la expresión génica de una sola célula con inflación cero. Genoma Biol. 16, 241 (2015).

Artículo Google Académico

Risso, D., Perraudeau, F., Gribkova, S., Dudoit, S. & Vert, J.-P. Un método general y flexible para la extracción de señales a partir de datos de RNA-seq de una sola célula. Nat. común 9, 284 (2018).

Artículo ANUNCIOS Google Académico

Sun, S. Precisión, robustez y escalabilidad de los métodos de reducción de dimensionalidad para el análisis de secuencias de ARN unicelulares. Genoma Biol.20, 269 (2019).

Artículo Google Académico

Benzcrire, J.-P. Problemas estadísticos y métodos geométricos. ca. Anal. Datos 3, 131–146 (1978).

Google Académico

Benzcri, J.-P. y otros. Análisis de los datos. Vuelo. 2 (Dunod París, 1973).

De la Cruz, O. & Holmes, S. El diagrama de dualidad en el análisis de datos: Ejemplos de aplicaciones modernas. Ana. aplicación Estadística 5, 2266–2277 (2011).

Artículo MATEMÁTICAS Google Académico

Escoufier, Y. El diagrama de dualidad: Un medio de mejores aplicaciones prácticas. En Desarrollos en Ecología Numérica (eds. Legendre, P. & Legendre, L.) (Springer, 1987).

Escoufier, Y. Operador relacionado con una matriz de datos: una encuesta. En Compstat 2006 - Proceedings in Computational Statistics (eds. Rizzi, A. & Vichi, M.) 285–297 (Physica HD, 2006). doi:https://doi.org/10.1007/978-3-7908-1709-6_22.

Legendre, P. & Legendre, L. Ecología numérica. (Elsevier, 2012).

Holmes, S. & Huber, W. Estadísticas modernas para biología moderna. (Prensa de la Universidad de Cambridge, 2019).

Google Académico

Greenacre, MJ Análisis de correspondencia: Análisis de correspondencia. Wiley Interdiscip. Cómputo Rev. Estadística 2, 613–619 (2010).

Artículo Google Académico

Digby, PGN & Kempton, RA Análisis multivariado de comunidades ecológicas (Springer, 1987).

Libro Google Académico

Greenacre, MJ Teoría y aplicaciones del análisis de correspondencias. (Prensa Académica, 1984).

Grantham, R., Gautier, C., Gouy, M., Mercier, R. & Pavé, A. Uso del catálogo de codones y la hipótesis del genoma. Ácidos Nucleicos Res. 8, 197–197 (1980).

Artículo Google Académico

Perriere, G. Uso y mal uso del análisis de correspondencia en estudios de uso de codones. Ácidos Nucleicos Res. 30, 4548–4555 (2002).

Artículo CAS Google Académico

Fellenberg, K. et al. Análisis de correspondencia aplicado a datos de microarreglos. proc. nacional Academia ciencia Rev. 98, 10781–10786 (2001).

Artículo ADS CAS Google Académico

Busold, CH et al. Integración de anotaciones GO en el análisis de correspondencias: facilitando la interpretación de datos de micromatrices. Bioinformática 21, 2424–2429 (2005).

Artículo CAS Google Académico

McMurdie, PJ & Holmes, S. phyloseq: Un paquete R para análisis y gráficos interactivos reproducibles de datos de censos de microbiomas. PLoS ONE 8, 11 (2013).

Artículo Google Académico

Culhane, AC, Perriere, G., Considine, EC, Cotter, TG & Higgins, DG Análisis entre grupos de datos de micromatrices. Bioinformática 18, 1600–1608 (2002).

Artículo CAS Google Académico

Culhane, AC, Perrière, G. & Higgins, DG Comparación multiplataforma y visualización de datos de expresión génica mediante análisis de coinercia. BMC Bioinformática 15 (2003).

Meng, C. et al. MOGSA: análisis integrador de conjunto de genes de muestra única de múltiples datos ómicos. mol. Celúla. Proteómica 18, S153–S168 (2019).

Artículo CAS Google Académico

Culhane, AC & Hsu, LL Reducción de dimensiones para principiantes: Guía del autoestopista para la factorización de matrices y PCA. (2019) https://github.com/aedin/PCAworkshop.

Greenacre, M. Las contribuciones de los objetos raros en el análisis de correspondencias. Ecología. 94(1), 241–249 (2013).

Artículo Google Académico

Tian, ​​L. et al. Evaluación comparativa de canalizaciones de análisis de secuenciación de ARN de células individuales mediante experimentos de control de mezclas. Nat. Métodos 16, 479–487 (2019).

Artículo CAS Google Académico

Zheng, GXY y col. Perfil transcripcional digital masivamente paralelo de células individuales. Nat. común 8, 14049 (2017).

Artículo ADS CAS Google Académico

Duò, A., Robinson, MD y Soneson, C. Una evaluación sistemática del rendimiento de los métodos de agrupamiento para datos de RNA-seq de una sola célula. F1000Research 7, 1141 (2020).

Mosteller, F. & Tukey, JW Los usos y la utilidad del papel de probabilidad binomial. Mermelada. Estadística Asoc. 44, 174–212 (1949).

Artículo CAS MATH Google Académico

Bartlett, MS El uso de transformaciones. Biometría 3, 39 (1947).

Artículo CAS Google Académico

Anscombe, FJ La transformación de datos de Poisson, binomiales y binomiales negativas. Biometrika 35, 246–254 (1948).

Artículo MATEMÁTICAS Google Académico

Freeman, MF & Tukey, JW Transformaciones relacionadas con la angular y la raíz cuadrada. Ana. Matemáticas. Estadística 21, 607–611 (1950).

Artículo MATEMÁTICAS Google Académico

Tukey, JW Análisis de datos exploratorios. (Addison-Wesley, 1977).

Beh, EJ, Lombardo, R. & Alberti, G. Análisis de correspondencia y la estadística de Freeman-Tukey: un estudio de datos arqueológicos. computar Estadística Análisis de datos. 128, 73–86 (2018).

Artículo MATEMÁTICAS Google Académico

Plackett, RL, Bishop, YMM, Fienberg, SE & Holland, PW Análisis multivariante discreto: teoría y práctica. Estado JR. Soc. Ser. Génesis 139, 402 (1976).

Artículo Google Académico

Cressie, N. & Read, Pruebas de bondad de ajuste multinomial TRC. Estado JR. Soc. Ser. Método B. 46, 440–464 (1984).

Greenacre, M. Contribución biplots. J. Cómputo. Grafico. Estadística 22, 107–122 (2013).

Artículo Google Académico

Krensky, AM & Clayberger, C. Biología y relevancia clínica de la granulisina. Antígenos tisulares 73, 193–198 (2009).

Artículo CAS Google Académico

Gonzalez, LL, Garrie, K. & Turner, MD Papel de las proteínas S100 en la salud y la enfermedad. bioquimica Biografía. Acta BBA Mol. Resolución celular 1867, 118677 (2020).

Wang, S. et al. S100A8/A9 en Inflamación. Frente. inmunol. 9, 1298 (2018).

Artículo Google Académico

Gordon, S., Plüddemann, A. & Martinez Estrada, F. Heterogeneidad de macrófagos en tejidos: diversidad fenotípica y funciones. inmunol. Rev. 262, 36–55 (2014).

Tomasello, E. & Vivier, E. KARAP/DAP12/TYROBP: Tres nombres y una multiplicidad de funciones biológicas. EUR. J. Immunol. 35, 1670-1677 (2005).

Artículo CAS Google Académico

Su, H., Na, N., Zhang, X. & Zhao, Y. La función biológica y la importancia de CD74 en enfermedades inmunitarias. inflamacion Res. 66, 209–216 (2017).

Artículo CAS Google Académico

Matern, BM, Olieslagers, TI, Voorter, CEM, Groeneweg, M. & Tilanus, MGJ Información sobre el polimorfismo en HLA-DRA y su relación evolutiva con los haplotipos HLA. HLA 95, 117–127 (2020).

Artículo CAS Google Académico

Doledec, S. & Chessel, D. Análisis de coinercia: un método alternativo para estudiar las relaciones entre especies y medio ambiente. fresco Biol. 31, 277–294 (1994).

Artículo Google Académico

Welch, JD et al. La integración multiómica de una sola célula compara y contrasta las características de la identidad de las células cerebrales. Celda 177, 1873-1887.e17 (2019).

Artículo CAS Google Académico

Haghverdi, L., Lun, ATL, Morgan, MD y Marioni, JC Los efectos por lotes en los datos de secuenciación de ARN de una sola célula se corrigen haciendo coincidir los vecinos mutuos más cercanos. Nat. Biotecnología. 36, 421–427 (2018).

Artículo CAS Google Académico

Korsunsky, I. Integración rápida, sensible y precisa de datos de una sola celda con Harmony. Nat. Métodos 16, 16 (2019).

Artículo Google Académico

Tran, HTN et al. Un punto de referencia de los métodos de corrección de efecto por lotes para datos de secuenciación de ARN de una sola célula. Genoma Biol. 21, 12 (2020).

Artículo CAS Google Académico

Luecken, MD y col. Evaluación comparativa de la integración de datos a nivel de atlas en genómica unicelular. Nat. Métodos 19, 41–50 (2022).

Artículo CAS Google Académico

Rousseeuw, PJ Silhouettes: una ayuda gráfica para la interpretación y validación del análisis de conglomerados. J. Cómputo. aplicación Matemáticas. 20, 53–65 (1987).

Artículo MATEMÁTICAS Google Académico

Baglama, J. & Reichel, L. Métodos de bidiagonalización de Lanczos aumentados implícitamente reiniciados. SIAM J. Ciencia. computar 27, 19–42 (2005).

Artículo MATEMÁTICAS Google Académico

Hirschfeld, HO Una conexión entre correlación y contingencia. Matemáticas. proc. Camb. Filosofía Soc. 31, 520–524 (1935).

Artículo ADS MATH Google Scholar

Abdi, H. & Valentin, D. Análisis de correspondencias múltiples. Encic. medida Estadística (2007).

Beh, EJ & Lombardo, R. Una genealogía del análisis de correspondencias: Una genealogía del análisis de correspondencias. agosto NZJ Stat. 54, 137–168 (2012).

Artículo MATEMÁTICAS Google Académico

Hill, MO Análisis de correspondencia: Un método multivariante descuidado. aplicación Estadística 23, 340 (1974).

Artículo Google Académico

Pearson, K. Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema de variables correlacionadas es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio. largo Edinb. Filosofía de Dublín. revista J. Ciencia. 50, 157–175 (1900).

Zhuang, H., Wang, H. & Ji, Z. findPC: un paquete R para seleccionar automáticamente la cantidad de componentes principales en el análisis de una sola celda. Bioinformática 38, 2949–2951 (2022).

Artículo CAS Google Académico

Lun A. bluster: Algoritmos de agrupamiento para bioconductores. Paquete R versión 1.8.0. (2022). https://bioconductor.org/packages/bluster.

Pons, P. & Latapy, M. Computing Communities in Large Networks Using Random Walks. en Informática y Ciencias de la Información - ISCIS 2005 (eds. Yolum, pInar, Güngör, T., Gürgen, F. & Özturan, C.) vol. 3733 284–293 (Springer Berlín Heidelberg, 2005).

Hubert, L. & Arabia, P. Comparación de puntajes. J. Clasificación. 2, 193–218 (1985).

Artículo MATEMÁTICAS Google Académico

Barkas, N. et al. Análisis conjunto de colecciones heterogéneas de conjuntos de datos de RNA-seq de una sola célula. Nat. Métodos 16, 695–698 (2019).

Artículo CAS Google Académico

Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M. & Hornik, K. cluster: Conceptos básicos y extensiones del análisis de cluster. Paquete R versión 2.1.4 (2022). https://cran.r-project.org/web/packages/cluster

Barón, M. et al. Un mapa transcriptómico unicelular del páncreas humano y de ratón revela la estructura de la población intercelular e intracelular. Sistema celular 3, 346-360.e4 (2016).

Artículo CAS Google Académico

Muraro, MJ et al. Un transcriptoma unicelular Atlas del páncreas humano. Sistema celular 3, 385-394.e3 (2016).

Artículo CAS Google Académico

Lawlor, N. et al. Los transcriptomas de una sola célula identifican las firmas de las células de los islotes humanos y revelan cambios de expresión específicos del tipo de célula en la diabetes tipo 2. Genoma Res. 27, 208–222 (2017).

Artículo CAS Google Académico

Chen, R., Wu, X., Jiang, L. y Zhang, Y. El RNA-seq de una sola célula revela diversidad de células hipotalámicas. Representante celular 18, 3227–3241 (2017).

Artículo CAS Google Académico

Darmanis, S. et al. Una encuesta sobre la diversidad del transcriptoma del cerebro humano a nivel de una sola célula. proc. nacional Academia ciencia 112, 7285–7290 (2015).

Artículo ADS CAS Google Académico

Aztekin, C. et al. Identificación de una célula organizadora de la regeneración en la cola de Xenopus. Ciencia 364, 653–658 (2019).

Artículo ADS CAS Google Académico

Descargar referencias

Agradecemos las conversaciones útiles con el Prof. John Quackenbush y su laboratorio en la Escuela de Salud Pública TH Chan de Harvard, el laboratorio del Prof. Aedín Culhane en la Universidad de Limerick y con colegas de Bioconductor financiados por el programa de red de semillas de la Iniciativa Chan Zuckerberg. También estamos agradecidos por el apoyo de la profesora Judith Agudo y su laboratorio en el Dana-Farber Cancer Institute.

Este proyecto ha sido posible en parte gracias a la subvención número CZF2019-002443 (PI principal: Martin Morgan) de Chan Zuckerberg Initiative DAF, un fondo asesorado de Silicon Valley Community Foundation, del cual ACC es beneficiario. LH está financiado en parte por el NIH NIGMS Biostatistics Training Grant Program in Statistical Genetics/Genomics & Computational Biology (beca de formación predoctoral T32GM135117).

Departamento de Bioestadística, Harvard TH Chan School of Public Health, Boston, MA, EE. UU.

lauren l hsu

Departamento de Inmunología y Virología del Cáncer, Instituto del Cáncer Dana-Farber, Boston, MA, EE. UU.

lauren l hsu

Limerick Digital Cancer Research Centre, Health Research Institute, School of Medicine, University of Limerick, Limerick, Irlanda

Edin C. Culhane

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

LH y ACC escribieron el manuscrito y conceptualizaron los métodos presentados. ACC escribió la viñeta del taller de bioconductores en CALH, desarrolló el corral del paquete R/Bioconductor, escribió código para realizar análisis y creó figuras.

Correspondencia a Aedín C. Culhane.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Hsu, LL, Culhane, AC Análisis de correspondencia para la reducción de dimensiones, integración por lotes y visualización de datos de RNA-seq de una sola célula. Informe científico 13, 1197 (2023). https://doi.org/10.1038/s41598-022-26434-1

Descargar cita

Recibido: 02 Septiembre 2022

Aceptado: 14 de diciembre de 2022

Publicado: 21 enero 2023

DOI: https://doi.org/10.1038/s41598-022-26434-1

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.