Protocolo de envío de datos al CIBERER Spanish Variant Server

Protocolo de envío de datos al
CIBERER Spanish Variant Server
¿Que es el CSVS?
El CIBERER Spanish Variant Server (CSVS) es un repositorio de frecuencias de variantes en la
población española para su uso como fuente de controles para filtrar variantes en estudios que
busquen genes o nuevas variantes relacionadas con causa o riesgo aumentado de sufrir
patologías. El CSVS solo contiene frecuencias que se van actualizando con los envíos de
nuevas secuencias, pero no contiene las secuencias a partir de las que se obtuvieron dichas
frecuencias. EL CSVS obtiene las frecuencias a partir de individuos españoles no
emparentados, para ello debe conservar los exomas (o genomas) enviados, pero estos no
están en el repositorio ni se usan con otro propósito que no sea el de la comprobación de que
los nuevos envíos no son familiares de individuos ya contabilizados (para no inflar
artificialmente las frecuencias de las variantes familiares) y no pertenezcan a otros grupos
étnicos. En otras palabras, los exomas enviados no están disponibles de ninguna manera a
través de CSVS, solo su contribución a la frecuencia poblacional de cada variante. El CSVS es
una iniciativa del BiER, apoyada por el CIBERER.
Organización del CSVS
El CSVS está organizado por distintas categorías que permiten a su usuario seleccionar el
conjunto adecuado de individuos a tomar como controles. Estas categorías son: enfermedad,
proyecto, tecnología de secuenciación y caso o control. Dado que en la mayoría de los casos
los individuos de una enfermedad pueden ser considerados como controles (pseudocontroles)
para otras, el uso adecuado de estas categorías permite tener números poblacionales altos
para la comparación.
Datos requeridos para el envío
Los datos requeridos son:
1. las secuencias de los individuos, que pueden mandarse en formato FASTQ, SAM/BAM
o VCF “all sites”. Cada secuencia tendrá un identificador.
2. Se proporcionará la siguiente información adicional sobre cada una de las secuencias:
enfermedad, tecnología usada y si es sano o enfermo. Si son más de 5 muestras se
puede dar un nombre de proyecto. Si son menos de 5 muestras o no se desea
individualizar el proyecto, se acumulan en un proyecto anónimo
3. Si se envía un VCF, se requiere además el dato del coverage medio. Importante: el VCF
debe mandarse en formato “all sites” para poder distinguir las posiciones
correspondientes al alelo de referencia de aquellas que no han sido leídas.
1
Versión 1.1
04/03/2015
Procedimiento
Contactar con [email protected] para acordar la forma de envío. Normalmente a través de un
disco. Ocasionalmente se puede hacer por FTP si se trata de VCFs.
El disco se envía de vuelta. El único dato que se almacena (al margen del repositorio) son los
VCFs para comprobar la etnia y el parentesco de futuros envíos. De las secuencias
emparentadas entre ellas solo se usará una para calcular frecuencias. Las secuencias
emparentadas con otras que ya estén en la base de datos no se usarán. Si se envían FASTQ o
SAM/BAM, se aplicará el protocolo de alineamiento y calling de variables del BiER y se
obtendrán los correspondientes VCFs. El resto de información intermedia se descartará.
2
Versión 1.1
04/03/2015