update

catg-umag · Sep 30, 2024 · 4cf08b1 · 4cf08b1
1 parent 833646e
commit 4cf08b1
Show file tree

Hide file tree

Showing 9 changed files with 160 additions and 0 deletions.
diff --git a/document/fonts/lato/Lato-Bold.ttf b/document/fonts/lato/Lato-Bold.ttf
diff --git a/document/fonts/lato/Lato-BoldItalic.ttf b/document/fonts/lato/Lato-BoldItalic.ttf
diff --git a/document/fonts/lato/Lato-Italic.ttf b/document/fonts/lato/Lato-Italic.ttf
diff --git a/document/fonts/lato/Lato-Light.ttf b/document/fonts/lato/Lato-Light.ttf
diff --git a/document/fonts/lato/Lato-LightItalic.ttf b/document/fonts/lato/Lato-LightItalic.ttf
diff --git a/document/fonts/lato/Lato-Regular.ttf b/document/fonts/lato/Lato-Regular.ttf
diff --git a/document/main.typ b/document/main.typ
@@ -22,4 +22,8 @@
 )
 
 #include "sections/1_basecalling.typ"
+#include "sections/3_taxonomic_assign.typ"
+#include "sections/3_diversity.typ"
+
+
 
diff --git a/document/sections/3_diversity.typ b/document/sections/3_diversity.typ
@@ -0,0 +1,82 @@
+#import "@preview/gentle-clues:0.9.0": *
+
+#import "../catgconf.typ": github-pill
+https://carpentries-lab.github.io/metagenomics-analysis/08-Diversity-tackled-with-R/index.html
+
+
+
+avgdist --> no todas las muestras tienen la misma cantidad de seqs --> sampling
+= Curvas de rarefacción 
+en verdd las podemos ver desde el pipeline
+
+
+
+= Índices de diversidad alfa
+//https://scienceparkstudygroup.github.io/microbiome-lesson/04-alpha-diversity/index.html
+Las métricas de diversidad alfa se utilizan para medir la diversidad dentro de una muestra o ecosistema, es decir, qué hay y cuánto hay en términos de especies.
+
+Las métricas mas comunes de diversidad alfa son:
+- Riqueza: Número de especies observadas en una muestra.
+- Chao1: Estima la riqueza total (número de especies no observadas en una muestra).
+- Shannon: Mide la diversidad de especies en una muestra, considerando la abundancia de las especies.
+// - Simpson: Mide la probabilidad de que dos individuos seleccionados al azar pertenezcan a la misma especie.
+
+Para esto, utilizaremos el paquete vegan en R. 
+Calcularemos la ríqueza, equidad, índice de Shannon y Chao1.
+```R
+data_richness <- estimateR(data_otu)
+data_evenness <- diversity(data_otu) / log(specnumber(data_otu))                
+data_shannon <- diversity(data_otu, index = "shannon")                
+
+
+```
+// Alpha-diversity is calculated on the raw data, here data_otu or data_phylo if you are using phyloseq.
+// It is important to not use filtered data because many richness estimates are modeled on singletons and doubletons in the occurrence table. So, you need to leave them in the dataset if you want a meaningful estimate.
+// Moreover, we usually not using normalized data because we want to assess the diversity on the raw data and we are not comparing samples to each other but only assessing diversity within each sample.
+// 
+Podemos utilizar diferentes test estádisticos para comprobar si existen diferencias significativas entre los grupos: pruebas no paramétricas como el test de Kruskal-Wallis o el test de Mann-Whitney o pruebas parámetricas como t-test y ANOVA. Antes de utilizar pruebas parámetricas se debe comprobar la normalidad y hococedasticidad de los datos.
+
+= Índices de diversidad beta
+// tutorial: https://scienceparkstudygroup.github.io/microbiome-lesson/06-beta-diversity/index.html
+La diversidad beta nos permite representar las diferencias  de diversidad entre muestras o ecosistemas, es decir, que tan similares o diferentes son las comunidades microbianas.
+// se uiliza para medir la diversidad entre muestras o ecosistemas.
+
+ Estas métricas de distancia varían entre cero y uno. Las más usadas son las siguientes:// Bray-Curtis, Jaccard, Unifrac, entre otros.
+- Bray-Curtis: Mide la disimilitud entre muestras. Se basa en la abundancia de los taxones en las muestras.
+- Jaccard: Mide disimilitud. Se basa en la presencia/ausencia de los taxones en las muestras, sin incluir información de la abundancia.
+- Unifrac: Mide la distancia filogenética entre comunidades, considerando la presencia/ausencia, abundancias y evolución filogenética.  Unweighted UniFrac considera solo la presencia o ausencia de otus (sin considerar abundancia), Weighted UniFrac considera las abundancias  //Se basa en la presencia/ausencia de las especies en las muestras, incluyendo información de la abundancia.
+
+
+// https://scienceparkstudygroup.github.io/microbiome-lesson/06-beta-diversity/index.html
+
+
+Para calcular la diversidad beta necesitamos el archivo de abundancias generado en el paso anterior y un archivo de metadata.
+```csv
+sample	sex	    Area	latitude	long	    deep
+1M	    Male	  48.2	60° 25,0	46° 41.8	 60-80
+4H	    Female	48.2	60° 33,1	46° 02.3	120-150
+5H	    Female	48.2	60° 30,0	46° 36.4	 30-30
+6H	    Female	48.2	60° 30,1	46° 42.7	 30-33
+6M	    Male	  48.2	60° 30,1	46° 42.7	 30-33
+7H	    Female	48.1	62° 37,0	55° 26.7	 30-29
+7M	    Male	  48.1	62° 37,0	55° 26.7	 30-29
+```
+
+Para calcular la diversidad beta utilizaremos las matrices de disimilitud de Bray-curtis y Jaccard y las proyectaremos en un espacio bidimensional mediante una PCoA.
+
+Una PCoA ((Principal Coordinate Analysis) es una técnica de ordenación que permite reducir la dimensionalidad de los datos y visualizar la diversidad beta en un espacio de menor dimensión.
+
+Algunas funciones utiles a utilizar son:
+- vegdist:  Permite calcular la matri una matriz de disimilitud entre muestras. Se pueden utilizar diferentes métricas de distancia, como  `Bray-curtis`, `Jacard`, `Euclideana`, entre otras. 
+- cmdscale: Realiza un análisis de coordenadas principales (PCoA) a partir de una matriz de disimilitud. 
+```R
+bray_dist <- vegdist(data_otu, method = "bray")
+pcoa_res <- cmdscale(bray_dist, eig = TRUE)
+```
+HACER ANALISIS ESTADISTICOS
+
+
+
+// hacer una lista 
+// distancia euclideana vs otras distiancias por que las otras son mejores
+// Microbiota data are sparse and specific distances, such as Bray-Curtis, Jaccard or weight/unweight Unifrac distances, better deal with the problem of the presence of many double zeros in data sets.
diff --git a/document/sections/3_taxonomic_assign.typ b/document/sections/3_taxonomic_assign.typ
@@ -0,0 +1,74 @@
+#import "@preview/gentle-clues:0.9.0": *
+
+#import "../catgconf.typ": github-pill
+
+= Asignación taxonómica
+
+== NanoCLUST
+== EMU
+== wf-16S
+#github-pill("epi2me-labs/wf-16s")
+=== Mediante aplicación de escritorio
+
+=== Mediante línea de comando
+
+Pipeline bioinformático desarrollado por EPI2ME-Labs. Cuenta con dos enfoques para la asignación taxonómica: Alineamiento de secuencias mediante
+Minimap2, o asignación taxonómica basada en `k-mers` mediante Kraken2. Permite utilizar tanto la base de datos de SILVA (versión 138) como la base de datos de Genbank de 16S y 18S.
+
+En caso de utilizar Kraken2 se utiliza Bracken2 para la estimación de las abundancias.
+
+El resultado es un archivo en formato tabular (TSV) que contiene la información de la asignación taxonómica por cada muestra, detallando la cantidad de lecturas asignadas a cada categoría taxonómica. 
+Adicionalmente, genera un reporte en formato HTML que integra la información de asignación taxonómica, calidad de la secuenciación y métricas de diversidad por muestra.
+
+
+Filtra las lecturas por tamaño (entre 800pb y 2000pb) pero por defecto no realiza filtros por calidad.
+Para considerar una asignación taxonómica exige un porcentaje de identidad de 95 % y una cobertura de 90%.
+
+Por defecto el pipeline realiza la asignación taxonómica con la herramienta Minimap2 y la base de datos de 16S de Genbank. Para cambiar la herramienta de clasificación, utiliza el parámetro `--classifier`, eligiendo entre `kraken2` y `minimap2`. Para seleccionar una base de datos diferente, usa el parámetro `--database_set`, con alguna de las siguientes opciones: `ncbi_16s_18s`, `ncbi_16s_18s_28s_ITS` y `SILVA_138_1`.
+
+
+
+=== Ejemplo de uso
+
+```sh
+ nextflow run epi2me-labs/wf-16s \
+     --classifier kraken2 --database_set SILVA_138_1 \
+     --sample_sheet samples.csv \
+     --taxonomic_rank G --fastq data  \
+     --out_dir wf-16s_minimap_ncbi \
+     -profile singularity, slurm -resume
+```
+El pipeline requiere un archivo de muestras en formato CSV que contenga la información de las muestras y los barcodes asociados.
+
+==== Estructura del directorio
+```
+barcode,sample_id,alias
+barcode01,1M,1M
+barcode06,4H,4H
+barcode08,5H,5H
+barcode10,6H,6H
+barcode11,6M,6M
+barcode12,7H,7H
+barcode13,7M,7M
+```
+==== Estructura del archivo de muestras
+Este pipeline esta pensando para ser ejecutado luego de la etapa de basecalling, por lo que se espera que los archivos FASTQ estén en la carpeta correspondiente de cada barcode. Cada carpeta de los barcodes a analizar debe encontrarse dentro de la carpeta que se indicara con el parámetro `--fastq`. La estructura del directorio debe ser la siguiente:
+
+ ```
+─── input_directory
+        ├── barcode01
+        │   └── reads0.fastq
+        ├── barcode02
+        │   └── reads0.fastq
+        └── barcode03
+            └── reads0.fastq
+ ```
+
+
+
+
+== Eliminación de especies poco abundantes
+
+
+== Normalización por muestra
+https://scienceparkstudygroup.github.io/microbiome-lesson/05-data-filtering-and-normalisation/index.html