Mapeo de fragmentos de restricción de resumen múltiple completo: generación de mapas listos para secuenciación de ADN a gran escala

resultados

los procedimientos experimentales detrás del mapeo MCD se muestran en la Fig. 1, y una descripción conceptual de este proceso se muestra en la Fig. 2. Los protocolos estándar de biología molecular se emplean en todas partes. Sin embargo, se han hecho varias adaptaciones para producir datos de calidad adecuada para el mapeo de MCD., Las imágenes de gel de muy alta calidad son esenciales porque la precisión de las mediciones del tamaño del fragmento determina el contenido de información de los datos de las huellas dactilares y, por lo tanto, la frecuencia con la que se confunden diferentes fragmentos de tamaño similar entre sí. Además, el mapeo a gran escala solo es práctico cuando las imágenes de gel se pueden analizar automáticamente con pocos errores. Este objetivo solo se puede alcanzar con imágenes consistentes y de alta calidad.

iv xmlns: xhtml=»http://www.w3.org/1999/xhtml»> Figura 1

Diagrama de flujo de procedimientos de banco húmedo para YAC → cosmid y BAC → cosmid MCD mapping., La principal diferencia es que, mientras que el ADN BAC se puede purificar fácilmente a partir del ADN cromosómico bacteriano, no hay un buen método preparativo para separar el ADN YAC del ADN cromosómico de levadura. En el caso de YAC, el poco por ciento de los cósmidos que se derivan de la YAC se identifican mediante un protocolo de detección de colonias basado en la hibridación. Con los cósmidos derivados de BAC, este paso es innecesario porque el software de mapeo puede eliminar fácilmente el pequeño número de cósmidos que no se originan en el BAC.

Figura 2

representación Esquemática de MCD en el proceso de asignación., a) imagen en Gel. (B) List of fragment sizes for each enzyme domain in each clone. Los carriles Etiquetados con un número identifican el clon como c01 o c02. Los carriles Etiquetados con la letra M identifican los marcadores de tamaño. (C) se construyen de forma independiente tres mapas de una sola enzima (derecha). La sincronización entre dominios enzimáticos da como resultado un mapa compuesto (izquierda). Las marcas de verificación largas indican los límites entre grupos ordenados de fragmentos; las marcas de verificación cortas demarcan fragmentos desordenados dentro de un grupo, dibujados arbitrariamente en orden decreciente.,

la implementación exitosa del mapeo MCD ha requerido una co-evolución del proceso experimental y del software de análisis de datos. Un ejemplo de esta interacción es el diseño del vector cósmido. Para la secuenciación de escopeta, el vector debe ser lo más pequeño posible para minimizar la sobrecarga asociada con la secuenciación repetida del vector. Para el mapeo MCD, el vector no debe contener sitios para las enzimas de mapeo y no debe permitir la creación de un sitio artificial en la Unión vector-inserción (p. ej.,, cuando un fragmento de compendio parcial de MboI se liga a un sitio de clonación de BamHI, existe la posibilidad de que se cree un sitio de BamHI artificial en la Unión). Cuando el vector s-Cos-DBI se utiliza para clonar fragmentos de digestión parcial de MboI, se produce un solo fragmento que contiene un vector de tamaño mínimo conocido (3205 bp) en cada uno de nuestros tres dominios enzimáticos. Debido a que este fragmento que contiene vectores no es representativo de ningún fragmento de digestión completa en el genoma subyacente, se identifica mediante hibridación por transferencia de gel y se elimina de la lista de fragmentos utilizados para el ensamblaje de mapas.,

se logró una mejora importante en la calidad de la imagen al cambiar al tinte intercalante SYBR–green I. a la longitud de onda de excitación de 488 nm utilizada por nuestro escáner de gel, encontramos que SYBR–green I es cinco veces más sensible que el tiazol naranja, que a su vez es tres veces más sensible que el bromuro de etidio. Normalmente cargamos solo 15 ng de ADN cosmídico por carril de gel cuando usamos SYBR-green I para teñir geles de dimensiones ordinarias. La distorsión de banda debido a la sobrecarga local nunca es un problema porque las bandas más grandes contienen solo 5-10 ng de ADN., Además, cuando se emplea ADN de pureza moderada, como hacemos nosotros, la limpieza de los digeridos de restricción está inversamente relacionada con el volumen de cultivo bacteriano del que se extrae el ADN. SYBR-green I ha reducido en gran medida el número de carriles de gel que son inutilizables debido a digestiones pobres o fallidas. La única complicación grave es que, por razones desconocidas, SYBR-green I muestra un rango estrecho y variable sobre el cual la fluorescencia integrada aumenta linealmente con la cantidad de ADN en la banda.,

la determinación automática, robusta y precisa del tamaño de los fragmentos requiere marcadores de tamaño de ADN cuidadosamente diseñados. Idealmente, las bandas marcadoras deben estar uniformemente espaciadas a lo largo de la longitud del arco de la curva de movilidad de tamaño. Debe haber un número creciente de bandas marcadoras a medida que el tamaño del fragmento se acerca al umbral en el que las movilidades se vuelven independientes del tamaño. La atención a la estabilidad de ajuste de curva en esta región permite una excelente precisión de dimensionamiento de fragmentos de hasta 15 kbp (SD ± 1%) y una precisión adecuada de dimensionamiento de fragmentos de hasta 40 kbp (SD ± 5%)., Un segundo requisito es que debe haber tres bandas que sean fácilmente reconocidas como máximas de intensidad local. El reconocimiento de estas bandas conspicuas nuclea el procedimiento automático de coincidencia de patrones mediante el cual el software de análisis de imágenes identifica las bandas marcadoras. En nuestro formato estándar de gel (Fig. 3), conjuntos de seis carriles de digestión están flanqueados por dos carriles de señalización. Todos los cinco carriles de marcador en el gel se utilizan en el algoritmo de interpolación bidimensional que asigna tamaños a las bandas de digestión.

Figura 3

imagen de escala de grises de un gel de mapeo típico poststained con SYBR-green I., Hay cinco carriles de señalización, en las posiciones 1, 8, 15, 22 y 29. Dos clones, cada uno digerido independientemente con EcoRI, HindIII y NsiI (y cargado en ese orden) se colocan entre cada par de carriles marcadores.

el problema de análisis de imagen asociado con un patrón de resumen de restricción es bastante diferente del problema de «llamada base» asociado con una escalera de secuenciación. El software de llamadas Base solo necesita identificar la banda dominante en cada posición de la escalera., En contraste, el software diseñado para analizar patrones de restricción debe determinar el número de fragmentos en cada banda, ya que cualquier número de fragmentos de tamaño similar puede comigrar en cualquier posición en un carril. Bajo condiciones electroforéticas normales, las multiplicidades de banda de dos o tres son comunes. Las multiplicidades de banda deben ser calculadas a pesar de la disminución de las relaciones señal-ruido en pequeños tamaños de fragmento y no linealidades en la relación entre la intensidad de fluorescencia integrada y la cantidad de ADN por banda. Estas características de imagen pueden variar de un carril a otro incluso en el mismo gel., Un software eficaz de análisis de imágenes debe tener en cuenta todas estas realidades experimentales. El análisis de un carril de gel típico se muestra Fig. 4. Ahora hemos analizado con éxito más de 1.000 geles con nuestro software y, en general, es casi tan bueno como un intérprete experto. Comete algunos errores que un experto humano no cometería, pero también analiza correctamente muchas bandas que un experto contaría mal.

Figura 4

procesamiento de imágenes de gel de agarosa. (a) imagen en falso color de digest del carril 11 del gel que se muestra en la Fig. 3., Se muestra la imagen de carril completo (izquierda), y se muestra una imagen de escala de intensidad de la región demarcada por «zoom» (derecha). Las barras blancas apuntan a bandas que son identificadas automáticamente por el software de análisis de imágenes. Se indican los tamaños de fragmentos en pares de bases, y cualquier multiplicidad de bandas mayor que una se indica entre paréntesis. (b) representación unidimensional del carril completo (superior) y la región de zoom (inferior). El colapso a una dimensión se realiza con un esquema de promediación sesgado por la mediana. Cada fila se analiza por separado., Los píxeles se ordenan primero por intensidad, y se elimina un número fijo de los píxeles de menor intensidad para tener en cuenta la brecha entre los carriles de gel. A partir del resto, se calcula un promedio del cuartil medio. (c) cuenta de fragmentos para el carril, que contiene ocho singletes, tres dobletes y un triplete. Las estimaciones del recuento de fragmentos se basan en la tendencia en la intensidad de la banda integrada frente al tamaño del fragmento. Esta tendencia es variable de gel a gel y es altamente no lineal., Cada carril de Compendio en el gel que no ha sido rechazado debido a datos incorrectos se analiza simultáneamente para construir una línea de tendencia compuesta para la relación entre la intensidad integrada y la cantidad de ADN.

Una característica clave del sistema es el rechazo automático de la baja calidad de los datos. No se intenta identificar la fuente del problema. El software tiene un modelo interno de cómo debe ser un buen carril de datos, y rechaza cualquier carril que no satisfaga este modelo., Una lista parcial de los tipos de problemas que se detectan incluye Clones eliminados, Clones mixtos, digestiones parciales, digestiones fallidas, escisión en sitios secundarios, carriles sobrecargados, carriles sobrecargados y suciedad en el gel. En la práctica actual, el 80-90% de los carriles de gel son utilizables. Sin embargo, incluso los buenos carriles pueden ser malinterpretados. Una herramienta poderosa para detectar interpretaciones erróneas es la prueba de consistencia de la suma de fragmentos de enzimas cruzadas., A excepción de las contribuciones de unos pocos fragmentos pequeños faltantes de tamaño inferior a 500 PB, que en promedio se espera que sean menos del 1% de la longitud total del cosmido, la suma de fragmentos debe ser consistente en todos los dominios enzimáticos. Puede variar entre 40 y 50 kbp de clon a clon, pero de enzima a enzima en un clon dado las desviaciones Totales de más de 1 o 2 kbp son una indicación casi segura de que algo está mal con el análisis de la imagen., Al usar esta prueba para detectar carriles mal analizados y corregir manualmente los recuentos de fragmentos, esencialmente hemos eliminado los recuentos erróneos de fragmentos en todas las bandas mayores de 2 kbp.

la fase automática del ensamblaje del mapa MCD procede como una serie de pasos durante los cuales el orden del clon termina y los fragmentos de restricción se refinan progresivamente (16, 17). Los valores atípicos de tamaño de fragmentos son manejados por el concepto de «zona gris». Un emparejamiento de fragmentos que sea más preciso que el umbral de zona gris inferior se acepta automáticamente a menos que viole una restricción topológica del mapa., Dentro de la zona gris, los emparejamientos de fragmentos solo se hacen si se requieren para la consistencia topológica; de lo contrario, se posponen. Los emparejamientos que son menos precisos que el umbral de la zona gris superior se rechazan de plano. Actualmente establecemos los umbrales de la zona gris en 2.0 y 4.0% sobre la mayor parte del rango de tamaño utilizable. Estos umbrales se incrementan tanto para fragmentos grandes (debido a la severa pérdida de resolución electroforética) como para fragmentos pequeños (debido a la moderada pérdida de resolución electroforética y el aumento del ensanchamiento de la banda)., Los valores atípicos estadísticos generalmente caen por debajo de la zona gris. Los emparejamientos válidos terminan en la zona gris principalmente como resultado de una banda múltiple que no se descompone correctamente por el software de análisis de imágenes en sus fragmentos componentes.

en última instancia, la clave para obtener mapas precisos radica en una estrategia de «arréglalo a medida que creces». La premisa básica es que los errores son raros, debido a la alta calidad de los datos de entrada., Cuando ocurren errores, e independientemente de si se deben a aberraciones de clonación, errores de análisis de imágenes o errores de ensamblaje de mapas, el problema generalmente se limita a uno de los tres dominios enzimáticos. A menudo, el problema se limita a un solo clon. La eliminación del clon sospechoso permite que el mapa crezca. Una vez que el mapa se extiende más allá del final del clon sospechoso, generalmente es bastante fácil determinar por qué ese clon interfirió originalmente con el crecimiento del mapa., Si el problema es un error obvio en el análisis de la imagen o la identificación de la banda vectorial, arreglamos el conjunto de datos y colocamos el clon de nuevo en el mapa. A nuestras altas profundidades de muestreo, estas restricciones en la construcción del mapa son lo suficientemente fuertes en todas partes, pero en los extremos, para permitir que casi todos los errores se detecten y corrijan. Cualquier error no detectado se encuentra dentro de una longitud de clonación del final del mapa o en una región de cobertura excepcionalmente baja.

La Tabla 1 es un resumen de los mapas yac → cosmid que hemos construido en el cromosoma 7 humano., No todos los fragmentos están ordenados, y los fragmentos localmente desordenados se colocan en «grupos de fragmentos».»En la mayoría de los casos, hay un promedio de 1.2–1.3 fragmentos desordenados por grupo de fragmentos, lo que significa que nos acercamos estrechamente al objetivo de ordenar todos los fragmentos de restricción. Un mapa MCD típico, que combina los resultados de cuatro mapas YAC → cosmid construidos independientemente, se muestra en la Fig. 5. Las altas profundidades de muestreo permiten la selección de una trayectoria de mosaico verdaderamente mínima, con solapamientos de solo unos pocos pares de kilobases., La fidelidad de YAC se valida comparando las regiones superpuestas entre estos mapas construidos independientemente. Hasta la fecha, no se han encontrado discrepancias. Como una prueba aún más rigurosa de la fidelidad de YAC, tomamos las huellas digitales de una pequeña colección de cósmidos de una biblioteca que fue subclonada directamente de la misma línea celular híbrida utilizada para construir los YAC (E. D. Green, resultados inéditos). No se encontraron discrepancias entre estos cósmidos y los que se derivaron de clones de YAC. Las percepciones populares sobre la inestabilidad de YAC se basan en gran medida en la experiencia con un número relativamente pequeño de bibliotecas., Lo que estos resultados establecen es que se pueden construir bibliotecas YAC estables, y que los YAC pueden usarse como clones de inicio para la secuenciación sistemática.

la Vista de esta tabla:

  • Ver en línea
  • Ver popup
la Tabla 1

Resumen de YAC → cósmido MCD mapas para las porciones del cromosoma 7 humano

Figura 5

Representante MCD mapa del cromosoma 7. Cuatro YAC derivados de líneas celulares híbridas se subclonaron en cósmidos para mapear esta región de 400 kbp., Además, una biblioteca especial de cosmid derivada directamente de la línea celular híbrida (es decir, no derivada de un clon de YAC) también se colocó en este mapa, sin inconsistencias. El mapa está representado justo debajo de la barra de escala superior. Los dominios enzimáticos EcoRI, HindIII y NsiI se representan, de arriba a abajo, en rojo, verde y azul. Los grupos ordenados de fragmentos están separados por marcas altas y los fragmentos desordenados dentro de un grupo están separados por marcas cortas. Los clones minimal-tiling-path se muestran en púrpura justo debajo del mapa., Debajo de los clones de ruta de mosaico, se muestra un conjunto más grande de clones: este conjunto incluye todos los clones excepto aquellos cuyo contenido de fragmento es idéntico o un subconjunto del de un clon mostrado. El siguiente es una serie de cinco histogramas. De arriba a abajo, reflejan la cobertura cosmid derivada de las siguientes fuentes: la biblioteca cosmid preparada directamente a partir de ADN de líneas celulares híbridas, yWSS1613, yWSS771, ywss1572 y yWSS1434. Debajo de los histogramas hay un mapa de evaluación de la calidad basado en atlas (E. Thayer, trabajo inédito).,

ahora Hemos secuenciado los cósmidos de casi 1 Mbp del ADN cuya asignación se resume en la Tabla 1. Los datos de secuenciación de escopeta se analizaron con el sistema de secuencia-ensamblaje Phred/Phrap (P. Green, resultados no publicados). No se detectaron errores de mapeo cuando se compararon los mapas derivados de la secuencia con los mapas MCD. No solo se ordenaron correctamente los fragmentos, sino que la precisión de los espaciamientos entre sitios fue inferior al 1%, aunque con un error sistemático de algo más del 1% para los fragmentos más grandes., Los mapas involucrados en esta prueba contenían más de 700 fragmentos de restricción diferentes. En un proyecto independiente de mapeo de MCD / secuenciación de escopeta de tamaño comparable en la región HLA clase I en el cromosoma 6 humano, se obtuvieron resultados similares (D. E. Geraghty, T. Guillaudeux y M. Janer, resultados no publicados). En el proyecto HLA, se detectó un único error de mapeo al final de un mapa, que se rastreó al mal recuento de una banda multipletada de 600 bp en un solo cosmid. Se pueden encontrar mapas, secuencias y documentación de software actualizada en nuestro sitio web en http://www.genome.washington.edu.

Leave a Comment