Mapeamento de fragmentos de restrição Multiple-complete-digest restriction: Generating sequence-ready maps for large-scale DNA sequencing

RESULTS

The experimental procedures behind MCD mapping are shown in Fig. 1, e uma visão conceitual deste processo é mostrado na Fig. 2. Os protocolos de biologia molecular padrão são usados por todo o lado. No entanto, foram feitas algumas adaptações para produzir dados de qualidade adequada para o mapeamento MCD., Imagens gel de alta qualidade são essenciais porque a precisão das medições do tamanho dos fragmentos determina o conteúdo informativo dos dados dactiloscópicos e, portanto, a frequência com que diferentes fragmentos de tamanho semelhante são confundidos uns com os outros. Além disso, o mapeamento em larga escala só é prático quando as imagens do gel podem ser analisadas automaticamente com poucos erros. Este objetivo só é alcançável com imagens consistentes e de alta qualidade.

iv xmlns: xhtml = ” http://www.w3.org/1999/xhtml”> Figure 1

Flow chart of wet bench procedures for YAC → cosmid and BAC → cosmid MCD mapping., A principal diferença é que, embora o ADN BAC possa ser facilmente purificado a partir do ADN cromossómico bacteriano, não existe um bom método preparatório para separar o ADN YAC do ADN cromossómico da levedura. No caso YAC, os poucos por cento dos cosmídeos que são derivados do YAC são identificados por um protocolo de hibridização baseado em colonização. Com cosmídeos derivados de BAC, este passo é desnecessário porque o software de mapeamento pode facilmente eliminar o pequeno número de cosmídeos que não se originam do BAC.

Figura 2

representação esquemática do processo de mapeamento MCD., (A) Gel image. b) Lista de tamanhos de fragmentos para cada domínio enzimático em cada clone. Faixas marcadas com um número identificam o clone como c01 ou c02. Faixas marcadas com a letra M identificam marcadores de tamanho. c) sejam construídos de forma independente três mapas de enzimas únicas (à direita). A sincronização entre domínios enzimáticos resulta em um mapa composto (à esquerda). As marcas longas indicam limites entre grupos ordenados de fragmentos; as marcas curtas demarcam fragmentos não ordenados dentro de um grupo, arbitrariamente desenhados por ordem decrescente de tamanho.,

a implementação bem sucedida do mapeamento MCD exigiu uma co-evolução do processo experimental e do software de análise de dados. Um exemplo desta interação é o design do vetor cosmídeo. Para sequenciamento de caçadeira, o vetor deve ser tão pequeno quanto possível para minimizar a sobrecarga associada com sequenciamento repetido do vetor. Para o mapeamento MCD, o vetor não deve conter locais para as enzimas de mapeamento e não deve permitir a criação de um local artificial na junção vetor-inserção (por exemplo:,, quando um fragmento Mboi parcial digest é ligado em um local de clonagem BamHI, há uma chance de que um site bamhi artificial será criado na junção). Quando o vetor s-Cos-DBI é usado para clonar fragmentos do MboI partial-digest, um fragmento contendo um único vetor de tamanho mínimo conhecido (3205 bp) é produzido em cada um dos nossos três domínios enzimáticos. Como este fragmento contendo vetores não é representativo de qualquer fragmento completo digestivo no genoma subjacente, ele é identificado por hibridização de transferência de gel e eliminado da lista de fragmentos usados para montagem de mapas.,

Uma grande melhoria na qualidade da imagem foi conseguida pela mudança para o intercalating corante SYBR–green I. No comprimento de onda de excitação de 488 nm usado por nosso gel de scanner, descobrimos que SYBR–green I é cinco vezes mais sensível do que thiazole laranja, que é três vezes mais sensível do que o brometo de etídio. Normalmente carregamos apenas 15 ng de DNA cosmídeo por pista de gel quando usamos SYBR-green I para manchar géis de dimensões comuns. Distorção de banda devido a sobrecarga local nunca é um problema porque as maiores bandas contêm apenas 5-10 ng de DNA., Além disso, ao empregar DNA de pureza apenas moderada, como fazemos, a limpeza da restrição digestão está inversamente relacionada com o volume de cultura bacteriana a partir do qual o DNA é extraído. SYBR-green I reduziu significativamente o número de faixas de gel que são inutilizáveis por causa de digestões pobres ou fracassadas. A única complicação grave é que, por razões desconhecidas, o SYBR-green I apresenta uma gama estreita e variável sobre a qual a fluorescência integrada aumenta linearmente com a quantidade de ADN na banda.,a determinação automática, robusta e precisa de tamanhos de fragmentos requer marcadores de tamanho de ADN cuidadosamente desenhados. Idealmente, as bandas de marcação devem ser uniformemente espaçadas ao longo do comprimento do arco da curva de mobilidade do tamanho. Deve haver um número crescente de bandas de marcadores à medida que o tamanho do fragmento se aproxima do limiar em que as mobilidades se tornam independentes do tamanho. Atenção à estabilidade de ajuste de curvas nesta região permite uma excelente precisão de dimensionamento de fragmentos até 15 kbp (SD ± 1%) e uma precisão de dimensionamento de fragmentos adequada até 40 kbp (SD ± 5%)., Um segundo requisito é que deve haver três faixas que são facilmente reconhecidas como máximos de intensidade local. O reconhecimento dessas bandas conspícuas nucleia o procedimento automático de correspondência de padrões pelo qual o software de análise de imagens identifica as bandas marcadoras. Em nosso formato de gel padrão (Fig. 3), conjuntos de seis faixas de digestão são flanqueadas por duas faixas de marcação. Todas as cinco faixas de marcação no gel são usadas no algoritmo de interpolação bidimensional que atribui tamanhos para as bandas de digestão.

Figura 3

imagem em escala cinzenta de um gel de mapeamento típico, postado com SYBR-green I., Há cinco faixas de marcação, nas posições 1, 8, 15, 22 e 29. Dois clones, cada um digerido independentemente com EcoRI, HindIII e NsiI (e carregado nessa ordem) são colocados entre cada par de faixas de marcação.

o problema de análise de imagem associado a um padrão de digestão de restrições é bastante diferente do problema de “chamada de base” associado a uma escada de sequenciação. O software de chamada de Base só precisa identificar a banda dominante em cada posição de escada., Em contraste, software projetado para analisar padrões de restrição deve determinar o número de fragmentos em cada faixa, uma vez que qualquer número de fragmentos de tamanho semelhante pode comer em qualquer posição em uma faixa. Sob condições eletroforéticas normais, multiplicidades de banda de dois ou três são comuns. As multiplicidades de banda devem ser calculadas apesar da diminuição das razões sinal-ruído a pequenas dimensões de fragmentos e não lineares na relação entre a intensidade de fluorescência integrada e a quantidade de ADN por banda. Estas características da imagem podem variar de faixa para faixa mesmo no mesmo gel., Um software eficaz de análise de imagens deve ser responsável por todas essas realidades experimentais. A análise de uma pista de gel típica é mostrado Fig. 4. Já analisamos com sucesso mais de 1.000 géis com nosso software e, em termos globais, é quase tão bom quanto um intérprete especialista. Ele comete alguns erros que um especialista humano não cometeria, mas também analisa corretamente muitas bandas que um especialista iria contar mal.

Figura 4

processamento de imagens de gel de agarose. a) imagem de falsa cor do digest da faixa 11 do gel apresentado na Fig. 3., A imagem de faixa completa é mostrada (à esquerda), e uma imagem de intensidade redimensionada da região demarcada por “zoom” é mostrada (à direita). As barras brancas apontam para bandas que são identificadas automaticamente pelo software de análise de imagens. Tamanhos de fragmentos em pares de bases são indicados, e quaisquer multiplicidades de banda maiores que uma são dadas entre parênteses. B) representação unidimensional da faixa de rodagem completa (superior) e da região de ampliação (inferior). O colapso para uma dimensão é feito com um esquema de médias tendenciosas. Cada linha é analisada separadamente., Os Pixels são ordenados pela primeira vez por intensidade, e um número fixo dos pixels de menor intensidade são eliminados para explicar o intervalo entre as faixas de gel. A partir do restante, uma média do quartil médio é computada. c) contagens de fragmentos para a faixa, que contém oito singlets, três doblets, e um tripleto. As estimativas de contagem de fragmentos são baseadas na tendência de intensidade de banda integrada versus tamanho de fragmento. Esta tendência é variável de gel para gel e é altamente não-linear., Cada faixa de digestão no gel que não foi rejeitada por causa de dados ruins é analisada simultaneamente para construir uma linha de tendência composta para a relação entre intensidade integrada e quantidade de DNA.

Uma característica chave do sistema é a rejeição automática de dados de baixa qualidade. Nenhuma tentativa é feita para identificar a fonte do problema. O software tem um modelo interno de como uma boa faixa de dados deve se parecer, e rejeita qualquer faixa que não satisfaça este modelo., Uma lista parcial dos tipos de problemas que são detectados inclui clones apagados, Clones mistos, digestões parciais, digestões falhadas, clivagem em locais secundários, faixas sobrecarregadas, faixas sobrecarregadas e sujeira no gel. Na prática atual, 80-90% das faixas de gel são utilizáveis. No entanto, mesmo boas faixas podem ser mal interpretadas. Uma ferramenta poderosa para detectar interpretações errôneas é o teste de consistência de soma de fragmentos de enzimas cruzadas., Com exceção das contribuições de alguns pequenos fragmentos de tamanho inferior a 500 bp que, em média, devem ser inferiores a 1% do comprimento total do cosmídeo, a soma dos fragmentos deve ser consistente em todos os domínios enzimáticos. Pode variar entre 40 e 50 kbp de clone a clone, mas de enzima a enzima em um dado Clone desvios totais de mais de 1 ou 2 kbp são quase certas indicações de que algo está errado com a análise de imagem., Usando este teste para detectar faixas mal analisadas, e corrigindo manualmente as contagens dos fragmentos, nós essencialmente eliminamos erros de fragmentos em todas as bandas maiores que 2 kbp.

a fase automática da montagem MCD map prossegue como uma série de etapas durante as quais a ordem dos clones termina e fragmentos de restrição são progressivamente refinados (16, 17). Fragmentos de dimensionamento anómalos são tratados pelo conceito de” zona cinzenta”. Um emparelhamento de fragmentos que é mais preciso do que o limiar inferior da zona cinzenta é automaticamente aceito a menos que viole uma restrição topológica do mapa., Dentro da zona cinzenta, emparelhamentos de fragmentos só são feitos se forem necessários para consistência topológica; caso contrário, eles são adiados. Emparelhamentos que são menos precisos do que o limiar da zona cinzenta superior são totalmente rejeitados. Actualmente, estabelecemos os limiares de zona cinzenta em 2,0% e 4,0% sobre a maior parte da Gama de tamanhos utilizáveis. Estes limiares são aumentados tanto para grandes fragmentos (devido à grave perda de resolução eletroforética) quanto para pequenos fragmentos (devido à perda moderada de resolução eletroforética e o aumento da ampliação da banda)., Os valores anómalos estatísticos geralmente caem abaixo da zona cinzenta. Emparelhamentos válidos acabam na zona cinzenta principalmente como resultado de uma banda multiplet que não é devidamente decomposta pelo software de análise de imagem em seus fragmentos componentes.

em última análise, a chave para obter mapas precisos está em uma estratégia “fixá-lo à medida que você cresce”. A premissa básica é que os erros são raros, devido à alta qualidade dos dados de entrada., Quando ocorrem erros, e independentemente de serem devido a aberrações de clonagem, erros de análise de imagem ou erros de montagem de mapas, o problema é geralmente limitado a apenas um dos três domínios enzimáticos. Muitas vezes, o problema é limitado a um único clone. A remoção do clone suspeito permite que o mapa cresça. Uma vez que o mapa se estende além do fim do clone suspeito, é geralmente muito fácil determinar por que esse clone originalmente interferiu com o crescimento do mapa., Se o problema é um erro óbvio na análise de imagem ou identificação de banda vetorial, corrigimos o conjunto de dados e colocamos o clone de volta no mapa. Nas nossas profundezas de amostragem elevadas, estas restrições na construção do mapa são suficientemente fortes em toda a parte, mas nas extremidades para permitir que quase todos os erros sejam detectados e corrigidos. Quaisquer erros não detectados estão dentro de um comprimento clone do fim do mapa ou numa região de cobertura excepcionalmente baixa.

Tabela 1 é um resumo dos mapas cosmídicos YAC → que construímos sobre o cromossoma humano 7., Nem todos os fragmentos são ordenados, e fragmentos não ordenados localmente são colocados em “grupos de fragmentos”. Na maioria dos casos, há uma média de 1,2–1,3 fragmentos por grupo de fragmentos, o que significa que nos aproximamos do objetivo de ordenar todos os fragmentos de restrição. Um mapa MCD típico, que combina os resultados de quatro mapas YAC → cosmid construídos independentemente, é mostrado na figura. 5. As altas profundidades de amostragem permitem a seleção de um caminho de azulejo verdadeiramente mínimo, com sobreposições de apenas alguns pares de quilobase., A fidelidade YAC é validada comparando as regiões sobrepostas entre estes mapas construídos de forma independente. Até à data, não foram detectadas discrepâncias. Como um teste ainda mais rigoroso de fidelidade YAC, recolhemos as impressões digitais de uma pequena coleção de cosmídeos de uma biblioteca que foi diretamente subclonada da mesma linha de células híbridas usada para construir o YACs (E. D. Green, resultados não publicados). Não foram encontradas discrepâncias entre estes cosmídeos e aqueles que foram derivados de clones YAC. Percepções populares sobre a instabilidade do YAC são baseadas em grande parte na experiência com um número relativamente pequeno de bibliotecas., O que estes resultados estabelecem é que bibliotecas YAC estáveis podem ser construídas, e que YACs podem ser usados como clones iniciais para sequenciamento sistemático.

Ler esta tabela:

  • Ver inline
  • Exibir pop-up
Tabela 1

Resumo de YAC → cosmid MCD mapas para partes de humanos cromossomo 7

Figura 5

o Representante MCD mapa do cromossomo 7. Quatro YACs derivados de células híbridas foram subclonados em cosmids para mapear esta região de 400 kbp., Além disso, uma biblioteca cosmid especial derivada diretamente da linha de células híbridas (i.e., não derivada de um clone YAC) também foi colocada neste mapa, sem inconsistências. O mapa é representado logo abaixo da barra de escala superior. Domínios enzimáticos EcoRI, HindIII e NsiI são representados, de cima para baixo, em vermelho, verde e azul. Grupos de fragmentos ordenados são separados por marcas de carrapatos altas e fragmentos não ordenados dentro de um grupo são separados por marcas curtas. Os clones do trilho mínimo são exibidos em roxo logo abaixo do mapa., Abaixo dos clones do caminho de tiling, um conjunto maior de clones é mostrado: este conjunto inclui todos os clones, exceto aqueles cujo conteúdo de fragmento é idêntico ao, ou um subconjunto de, de um clone exibido. A seguir, uma série de cinco histogramas. De cima para baixo, eles refletem a cobertura cosmida derivada das seguintes fontes: a biblioteca cosmid preparada diretamente a partir de DNA de linha celular híbrida, yWSS1613, yWSS771, yWSS1572, e yWSS1434. Abaixo dos histogramas encontra-se uma avaliação da qualidade do mapa baseada no atlas (E. Thayer, trabalho não publicado).,

Os dados de sequenciamento da caçadeira foram analisados com o sistema de montagem de sequência Phred/Phrap (P. Green, resultados não publicados). Não foram detectados erros de mapeamento quando os mapas derivados da sequência foram comparados com os mapas MCD. Não só os fragmentos foram ordenados corretamente, mas a precisão dos espaçamentos intersite foi inferior a 1%, embora com um erro sistemático um pouco mais de 1% para os fragmentos maiores., Os mapas envolvidos neste ensaio continham mais de 700 fragmentos de restrição diferentes. Em um projeto independente de mapeamento MCD/sequenciamento de caçadeira de tamanho comparável na região HLA classe I do cromossomo humano 6, resultados similares foram obtidos (D. E. Geraghty, T. Guillaudeux e M. Janer, resultados não publicados). No projeto HLA, um único erro de mapeamento foi detectado no final de um mapa, que foi rastreado até o erro de contagem de uma banda multiplet de 600 bp em um único cosmid. Mapas, sequências e documentação de software atualizados podem ser encontrados em nosso site em http://www.genome.washington.edu.

Leave a Comment