Otimização de primers de PCR segmentação bacteriana 16S RNA ribossómico gene

Problema limitações

Como mencionado no parágrafo anterior, um ótimo primer-set-par deve, simultaneamente, maximizar a eficiência e a cobertura e minimizar a correspondência de viés. A seguir, descrevemos como codificamos quantitativamente essas restrições.

eficiência

os pares de iniciadores perfeitos devem satisfazer várias restrições, com o objetivo de melhorar a eficiência e especificidade da PCR ., No entanto, ao mesmo tempo, satisfazer todas as restrições é muitas vezes impraticável e a maioria dos iniciadores de última geração violam uma ou mais restrições . Assim, decidimos introduzir a eficiência como uma pontuação de otimização, codificando muitas das restrições como funções de pontuação fuzzy. Mais precisamente, definimos a nossa pontuação de eficiência como a soma de dez Termos de pontuação: sete Termos de pontuação difusa relacionados com restrições de eficiência de primera única, com uma média de todos os primers nos pares de primer-set, mais três termos de pontuação relacionados com a eficiência dos pares de primer-set como um todo., Uma vez que todos os termos são destinados a variar entre 0 e 1, a pontuação de otimização varia de 0 (eficiência mínima) a 10 (eficiência máxima).

em termos gerais, a nossa pontuação difusa conta 1 para cada restrição que é perfeitamente satisfeita, ou, alternativamente, um valor entre 0 e 1 dependendo de quão perto a Primera está do limite de restrição. Como exemplo, considere a temperatura de fusão do iniciador, Tm. Tm deve ser maior ou igual a 52 graus em um primer perfeito, mas 51 ainda é tolerável, embora não ideal., Neste caso, nossa função de pontuação difusa atribui 1 a temperaturas de 52 graus ou mais, 0 a temperaturas de 50 graus ou menos e considera uma função de aumento linear entre 50 e 52 graus. Cada termo é descrito precisamente no que se segue.

os 7 termos da pontuação de primer são:

  1. Temperatura de fusão: a temperatura de fusão Tm de um primer é calculada com a fórmula vizinha mais próxima . O termo da pontuação é 1 se Tm ≥ 52, 0 se Tm ≤ 50 e (Tm – 50)/2 se 50 < Tm < 52.,

  2. GC-content: GC-content is the fraction fGC of base pairs in the primer sequence equal to either G (guanine) or C (citosina). A pontuação termo é 1 se 0.5 ≤ fGC ≤ 0.7, 0 se fGC > 0,7 ou fGC < 0,4 e (0.5 – fGC)/0,1 se 0.4 ≤ fGC < 0.5.

  3. 3′-End stability – score term 1: two score terms are defined concerning 3′-end stability. O primeiro termo é 0 se as três últimas bases do primer consistirem inteiramente de As (adeninas) e Ts, (timines) e 1 de outra forma.,

  4. 3′-End stability-score term 2: The second score term is 0 if the last 5 bases contain more than 3 Cs or Gs, and 1 otherwise.homopolímeros: um homopolímero é uma sequência de nucleótidos idênticos. O termo da pontuação é 1 se não houver homopolímeros com mais de 4 nt, 0.5 se não houver homopolímeros com mais de 5 nt, e 0 se houver pelo menos um homopolímero com mais de 5 nt na sequência.

  5. Auto-dimers: a presença de regiões auto-complementares entre casais de iniciadores idênticos pode levar à geração de auto-dimers., Considerando o número máximo de partidas em um intervalo livre de alinhamento entre uma cartilha com o seu oposto complementar, maxM, a pontuação termo é 1 se maxM ≤ 8, 0 se maxM ≥ 11 e 11 – maxM)/3 se 8 < maxM < 11.

  6. Hairpins: um gancho de cabelo pode ser formado na presença de auto-complementaridade dentro da sequência de iniciação, especialmente na sua extremidade 3′., O termo de pontuação é 0 se, para pelo menos um alinhamento livre de gap entre a primer e o complemento reverso de seu 3′-end, tanto o último nucleótido e 3 ou mais dos 4 nucleótidos anteriores coincidem, e 1 de outra forma.

os 3 termos da pontuação dos conjuntos de iniciadores são definidos do seguinte modo:

  1. intervalo da temperatura de fusão: a gama da temperatura de fusão ΔTm de um par de iniciadores é calculada como o máximo menos o mínimo das temperaturas de fusão de todos os iniciadores do par definido., A pontuação termo é 1 se ΔTm ≤ 3, 0 se ΔTm ≥ 5 e (5 – ΔTm)/2 se 3 < ΔTm < 5.

  2. Dimers: consideramos o número máximo de correspondências maxM em todos os alinhamentos possíveis entre todas as combinações possíveis de iniciadores dianteiros e inversos de um par de iniciadores-conjuntos. A pontuação termo é 1 se maxM ≤ 8, 0 se maxM ≥ 11 e 11 – maxM)/3 se 8 < maxM < 11.,

  3. intervalo de comprimento da Amplicão: devido à redução conhecida da eficiência da PCR com o aumento do comprimento da amplicão , queremos que os comprimentos das amplicões geradas se situem numa faixa estreita. Nós queremos especialmente evitar amplicons muito mais curtos do que o comprimento do alvo, uma vez que eles seriam super-amplificados com relação aos outros. No entanto, queremos ser capazes de tolerar uma pequena fração dos valores anómalos, a fim de evitar penalizar potencialmente valiosos pares primer-set-par devido apenas a algumas sequências raras., Dado um conjunto representativo de bactérias sequências de 16S, chamado de “conjunto de referência” a partir de agora, vamos considerar a diferença Δamplen entre a mediana e o primeiro percentil de produto amplificado de comprimentos entre todos os possíveis amplicons, formada por correspondentes de todas as combinações de primers forward e reverse) a partir do conjunto de par com o conjunto de referência. A pontuação termo é 1 se Δamplen ≤ 50 nucleotídeos, 0 se Δamplen ≥ 100 e (100 – Δamplen)/50 se 50 < Δamplen < 100.,

a escolha dos critérios de pontuação e o limiar por omissão baseiam-se na literatura anterior . No entanto, tanto os limiares quanto os intervalos de tolerância difusa podem ser definidos pelo usuário de forma diferente do padrão e de acordo com suas necessidades experimentais, especificando os valores desejados como parâmetros de entrada ao chamar a ferramenta de linha de comando.

cobertura

a Pontuação da cobertura é definida como o número de 16 sequências correspondentes a pelo menos uma iniciadora., Dadas as sequências de um primer e de um bacterianas 16S, definimos semente últimos 5 nucleotídeos na extremidade de 3’do primer e consideramos uma sequência 16S como correspondência primer se uma região do 16S sequência existir que corresponda i) a semente da cartilha exatamente; e ii) o restante do primer com, no máximo, 2 incompatibilidades . Uma sequência 16S a partir de um conjunto de referência é considerada coberta por um par primer-set se pelo menos um primer forward e um primer reverso no primer-set-pair coincidirem com a sequência., Desde PCR eficiência diminui com o produto de amplificação de comprimento, podemos impor um condicionalismo: dado um primer-set-par e um conjunto de referência de sequências de 16S, estimamos que o alvo amplificado de comprimento como a mediana dos comprimentos de todos os amplicons obtidos por correspondência de todas as combinações de primers forward e reverse do primer-conjunto de par com o conjunto de referência. Então consideramos como não cobertas todas as sequências de referência 16S cujo comprimento de amplidão difere mais de 100 nucleótidos (mais ou menos) do comprimento alvo.,

Matching-bias

dado um conjunto de referência de sequências de 16S e um par primer-set, a terceira pontuação de otimização mede a variabilidade do número de combinações de iniciadores para a frente e para trás correspondentes a cada sequência de referência de 16S. A variabilidade da cobertura devido ao viés de correspondência deve ser minimizada, ou pelo menos contabilizada, quando o estudo se destina a quantificar a abundância relativa das diferentes espécies bacterianas, devido ao viés de amplificação em relação às espécies cobertas por mais combinações de iniciadores dianteiros e inversos., Como uma medida de emparelhamento-viés, exploramos o coeficiente de variação da cobertura através das sequências alvo, calculado como o desvio padrão sobre a média do número de combinações correspondentes a cada sequência.

reference set of 16S sequences, preparation and annotation

To optimize the three scores above, we rely on a representative set of bacterial 16S sequences extracted from a public 16S sequence database, GreenGenes ., O banco de dados sequenciais de GreenGenes 16S é organizado em unidades taxonômicas operacionais (OTUs), que são aglomerados aninhados de sequências no banco de dados, organizados em diferentes níveis de similaridade entre aglomerados. Para cada nível de similaridade, uma sequência de referência é associada a cada conjunto, maximalmente similar a todas as outras sequências no mesmo conjunto . O conjunto de sequências de referência pode, portanto, ser considerado um subconjunto representativo de toda a base de dados de sequências, tornando-se cada vez mais preciso para aumentar os níveis de semelhança entre os inter-clusters (e, portanto, o número de sequências de referência)., Nós escolhemos um nível de similaridade de 85% inter-clusters como uma boa troca entre representatividade e complexidade, correspondendo a um conjunto de 5088 sequências representativas a serem usadas para avaliar os critérios de otimização.embora muito sensível na anotação das bactérias e domínios Archaea, a taxonomia de GreenGenes não é projetada para distinguir sequências pertencentes a eucariotas ou vírus., Por esta razão, decidimos re-anotar 16S sequências bacterianas alavancando a taxonomia original NCBI para identificar com precisão, entre as sequências representativas, apenas as pertencentes ao Domínio das bactérias. Uma vez que a informação do domínio está faltando na anotação NCBI para cerca de 20% das sequências, nós projetamos um procedimento ad hoc para identificar sequências bacterianas entre estas. O procedimento é descrito em pormenor nos materiais suplementares (ver ficheiro adicional 1)., Optámos conservativamente por considerar apenas as sequências anotadas como bactérias tanto na nossa anotação curada, baseada em NCBI como na anotação original dos Greengenos. Isto resultou em um conjunto de 4573 sequências 16S representativas pertencentes ao Domínio das bactérias.,

algoritmo de Otimização

uma vez que o problema do ideal de primers escolha exige a otimização simultânea de diferentes concorrentes pontuações, ele pode ser moldado como um multi-objectivo problema de otimização, onde o espaço de busca é o conjunto de todos os possíveis primer-set-pares e de pontuação para a função ou o critério de otimização, podem ser definidos de forma a maximizar a eficiência e a cobertura e minimizar a correspondência de viés., Quando mais de um critério precisa ser otimizados simultaneamente, mas os objetivos a serem otimizados são conflitantes, geralmente não está interessado em uma solução única, mas, sim, no conjunto de soluções ótimas de Pareto, isto é, no conjunto de soluções para que nenhum dos objectivos a que pode ser melhorado, sem sacrificar pelo menos um outro objetivo ., O resultado da otimização multi-objetiva não é mais um único par de primer-set-pair ideal, como em otimização única-objetiva, mas sim uma coleção de pares primer-set-pair que não são piores do que qualquer outro par primer-set-pair e estritamente melhor de acordo com pelo menos um dos critérios. Mais precisamente, para o problema de otimização Tri-objetiva de maximizar as pontuações de otimização de eficiência (e) e cobertura (c) e minimizar a pontuação de emparelhamento-viés (M), como definido na seção anterior, os pares primer-set-pares candidatos são avaliados de acordo com um vetor de função objetiva f = (f E ; f C ; fM)., Dadas duas primer de conjunto de pares de p e p’, dizemos que p domina p’ (p ≺ p’) se, e somente se, f (p) ≠ f (p’), fE (p) ≥ fE (p’), fC (p) ≥ fC (p’) e fM (p) ≤ fM (p’). Se não existir p’ tal que p ‘ ≺ p, o par primer-set-P é chamado Pareto-optimal. Neste contexto, o objetivo da escolha de primers ótimos é determinar (ou aproximar) o conjunto de todos os pares de primeros ótimos de Pareto, cuja imagem no espaço Tri-objetivo é chamada de frente Pareto .

para procurar a melhor frente Pareto contamos com a melhor abordagem de melhoria local de duas fases proposta por Dubois-Lacoste et al., e efetivamente explorado em Sambo et al. and Borrotti et al. para o design ideal multi-objetivo de experimentos.

a pesquisa Local começa a partir de uma solução inicial e refina-a iterativamente, aplicando pequenas mudanças locais e avaliando cada vez que o seu efeito na qualidade da solução; ela pára quando nenhuma outra mudança local pode melhorar a solução. O processo é iterado a partir de vários pontos de partida diferentes e a melhor solução já encontrada é retornada, como uma aproximação do ideal desconhecido ., Uma extensão comum de busca local para o multi-objetivo é iniciar a partir de um conjunto inicial de soluções de Pareto, exemplo de uma solução de frente de otimizar com a pesquisa local aleatório scalarization do problema, isto é, uma combinação linear de otimização de resultados com pesos amostrados uniformemente ao acaso da unidade simplex, atualizar a frente de Pareto e iterar até que uma condição de término seja satisfeita .,

O procedimento MULTI-OBJETIVO-PESQUISAR, cujo pseudo-código é informado no que se segue, recebe como entradas o intervalo desejado do produto amplificado comprimentos (rangeamplen), um representante do conjunto de sequências de 16S (repset), um conjunto inicial de (possivelmente degenerado) pares de primers (init) e o número de reinicializações (nres). O procedimento começa por selecionar a partir do init todos os pares de iniciadores possíveis com o comprimento desejado de amplicão, comprimento de iniciação (entre 17 e 21 nucleótidos) e domínio-alvo (bactérias ou universais).,

os pares de iniciadores degenerados são convertidos para pares de iniciadores não degenerados e adicionados a um arquivo. O procedimento, em seguida, repete nrest vezes, a cada tempo de amostragem aleatória primer-set-par pstart do Pareto front e um vetor aleatório α de pesos relativos para a otimização de pontuação, com pesos amostrados uniformemente a partir da unidade simplex; o procedimento, então, resolve um scalarization do multi-objetivo do problema, isto é, um único objetivo problema no qual uma combinação linear dos três objectivos com pesos relativos α é maximizada, e adiciona o resultado para o arquivo morto., Para este propósito, as pontuações eficiência, cobertura e emparelhamento-viés são normalizadas ao máximo, de modo que cada pontuação normalizada varia entre 0 e 1, e emparelhamento-viés é redefinido como 1 – emparelhamento-viés, de modo que pode ser maximizado como as outras pontuações., o produto de amplificação de comprimento em rangeamplen

2 Adicionar a arquivo correspondente não-degenerada primer de conjunto de pares

3 para r = 1 para nrest

4 pf = PARETO FRONT(arquivo)

a Amostra 5 pstart da pf

6 Exemplo de α a partir de 3, com Σi ai = 1

7, p = LOCAL de PESQUISA(pstart , α , repset)

8 p para Adicionar arquivo

9 de retorno de arquivo

o Único objetivo de otimização é obtida utilizando o Melhor de Melhoria Local algoritmo de Pesquisa : a partir de um primeiro primer-set-par, o LOCAL algoritmo de BUSCA percorre os primers do conjunto de par e, para cada primer, verifica a sua vizinhança, eu.,E. O conjunto de todas as possíveis perturbações locais do primer. Perturbações locais consistem em todos os movimentos possíveis de um nucleótido (avaliando as três outras bases possíveis) e todas as possíveis adições e remoções de um nucleótido nas extremidades., A busca no espaço de solução é realizada com a melhor abordagem de busca local: depois de gerar toda a vizinhança, como explicado acima, o algoritmo seleciona a melhor perturbação vizinha, começa a partir dela para gerar o próximo bairro, e itera até chegar a uma solução para a qual nenhuma perturbação vizinha melhor pode ser encontrada. O procedimento termina quando nenhuma outra melhoria local pode ser aplicada a qualquer iniciador no par primer-set-pair., A função de pontuação ponderada calcula as três pontuações de otimização a partir de um conjunto de iniciadores e do conjunto representativo, multiplica as pontuações pelos pesos relativos α e retorna a soma dos resultados.

Nós desenvolvemos uma ferramenta de software que implementou a nossa abordagem e a liberou sob a Licença Pública Geral GNU como a ferramenta de software moco16s (Multi-Objective Primer Optimization for 16S experiments) em http://sysbiobig.dei.unipd.it/?q=Software#mopo16S., o moo16s é implementado como uma ferramenta de linha de comando c++ multithreading; a ferramenta de software depende dos algoritmos e estruturas de dados eficientes da biblioteca SeqAn e usa a biblioteca openMP para multithreading.,>

4 para i = 1 a |pcurr|

5 pri = i-ésimo primer de pcurr

6 para pnew = pcurr com todos os possíveis adições e remoções de base nas extremidades e substituições de uma base de pri

7 scorenew = PONDERADA da PONTUAÇÃO(pnew , α , repset)

8 se scorenew > scorebest

9 pbest = pnew

10 scorebest = scorenew

11 pcurr = pbest

12 voltar pcurr

Estado-de-o-arte pares de primers inicial de soluções

Selecionamos o banco de dados online probeBase como uma fonte de candidato primer-set-pares para ser usado como inicial de soluções de mopo16S., A base de dados contém mais de 500 pares de iniciadores (possivelmente degenerados) e reporta para cada iniciador a sua sequência, a cadeia e posição em que corresponde ao gene de referência 16S Escherichia coli, e o domínio-alvo para o qual foi concebido (sendo bactérias, Archaea ou Universal).,

Dada uma faixa desejada para o alvo amplificado de comprimento como de entrada de mopo16S, foram selecionados todos os pares de primers a partir do probeBase banco de dados satisfazendo as seguintes propriedades:

  • o produto de amplificação comprimento da faixa desejada;

  • Comprimento de ambos os primers maior ou igual a 17 nt e menor do que ou igual a 21, nt;

  • Bactérias ou Universal de domínio de destino dos dois primers.,

Desde a nossa abordagem é trabalhar com conjuntos de não-degenerada de primers, em caso de degeneracies na frente ou verso primer, nós substituímos a degenerar primer com um conjunto correspondente de não-degenerada primários, obtidos através da atribuição de todas as combinações possíveis de valores para a degenerar nucleotídeos na cartilha. O quadro 1 apresenta um exemplo deste procedimento.

calculamos as três pontuações para cada um dos pares primer-set e identificamos, entre estes, os pares primer-set-formando a frente Pareto inicial.

Leave a Comment