Protocolo de envío de datos al CIBERER Spanish Variant Server ¿Que es el CSVS? El CIBERER Spanish Variant Server (CSVS) es un repositorio de frecuencias de variantes en la población española para su uso como fuente de controles para filtrar variantes en estudios que busquen genes o nuevas variantes relacionadas con causa o riesgo aumentado de sufrir patologías. El CSVS solo contiene frecuencias que se van actualizando con los envíos de nuevas secuencias, pero no contiene las secuencias a partir de las que se obtuvieron dichas frecuencias. EL CSVS obtiene las frecuencias a partir de individuos españoles no emparentados, para ello debe conservar los exomas (o genomas) enviados, pero estos no están en el repositorio ni se usan con otro propósito que no sea el de la comprobación de que los nuevos envíos no son familiares de individuos ya contabilizados (para no inflar artificialmente las frecuencias de las variantes familiares) y no pertenezcan a otros grupos étnicos. En otras palabras, los exomas enviados no están disponibles de ninguna manera a través de CSVS, solo su contribución a la frecuencia poblacional de cada variante. El CSVS es una iniciativa del BiER, apoyada por el CIBERER. Organización del CSVS El CSVS está organizado por distintas categorías que permiten a su usuario seleccionar el conjunto adecuado de individuos a tomar como controles. Estas categorías son: enfermedad, proyecto, tecnología de secuenciación y caso o control. Dado que en la mayoría de los casos los individuos de una enfermedad pueden ser considerados como controles (pseudocontroles) para otras, el uso adecuado de estas categorías permite tener números poblacionales altos para la comparación. Datos requeridos para el envío Los datos requeridos son: 1. las secuencias de los individuos, que pueden mandarse en formato FASTQ, SAM/BAM o VCF “all sites”. Cada secuencia tendrá un identificador. 2. Se proporcionará la siguiente información adicional sobre cada una de las secuencias: enfermedad, tecnología usada y si es sano o enfermo. Si son más de 5 muestras se puede dar un nombre de proyecto. Si son menos de 5 muestras o no se desea individualizar el proyecto, se acumulan en un proyecto anónimo 3. Si se envía un VCF, se requiere además el dato del coverage medio. Importante: el VCF debe mandarse en formato “all sites” para poder distinguir las posiciones correspondientes al alelo de referencia de aquellas que no han sido leídas. 1 Versión 1.1 04/03/2015 Procedimiento Contactar con [email protected] para acordar la forma de envío. Normalmente a través de un disco. Ocasionalmente se puede hacer por FTP si se trata de VCFs. El disco se envía de vuelta. El único dato que se almacena (al margen del repositorio) son los VCFs para comprobar la etnia y el parentesco de futuros envíos. De las secuencias emparentadas entre ellas solo se usará una para calcular frecuencias. Las secuencias emparentadas con otras que ya estén en la base de datos no se usarán. Si se envían FASTQ o SAM/BAM, se aplicará el protocolo de alineamiento y calling de variables del BiER y se obtendrán los correspondientes VCFs. El resto de información intermedia se descartará. 2 Versión 1.1 04/03/2015
© Copyright 2024