optimización de cebadores de PCR dirigidos al gen de ARN ribosomal bacteriano 16S

restricciones del problema

como se indica en el párrafo anterior, un par de cebadores óptimo debería maximizar simultáneamente la eficiencia y la cobertura y minimizar el sesgo de coincidencia. A continuación, describimos cómo codificamos cuantitativamente estas restricciones.

eficiencia

los pares de imprimación perfectos deben satisfacer varias restricciones, dirigidas a mejorar la eficiencia y la especificidad de la PCR ., Sin embargo, satisfacer simultáneamente todas las restricciones a menudo es poco práctico y la mayoría de los primers de última generación violan una o más restricciones . Por lo tanto, decidimos introducir la eficiencia como una puntuación de optimización, codificando muchas de las restricciones como funciones de puntuación difusa. Más precisamente, definimos nuestra puntuación de eficiencia como la suma de diez Términos de puntuación: siete términos de puntuación difusa relacionados con restricciones de eficiencia de imprimación simple, promediados en todos los imprimadores en los pares de conjunto de imprimación, más tres términos de puntuación relacionados con la eficiencia de los pares de conjunto de imprimación en su conjunto., Dado que todos los términos deben variar entre 0 y 1, la puntuación de optimización varía de 0 (eficiencia mínima) a 10 (eficiencia máxima).

en términos generales, nuestra puntuación difusa cuenta 1 para cada restricción que está perfectamente satisfecha, o, alternativamente, un valor entre 0 y 1 dependiendo de lo cerca que esté el primer del límite de restricción. Como ejemplo, considere la temperatura de fusión de la imprimación, Tm. Tm debe ser mayor o igual a 52 grados en una imprimación perfecta, pero 51 sigue siendo tolerable, aunque no ideal., En este caso, nuestra función de puntuación difusa asigna 1 a temperaturas de 52 grados o más, 0 a temperaturas de 50 grados o menos y considera una función de aumento lineal entre 50 y 52 grados. Cada término se describe con precisión en lo que sigue.

los 7 Términos de puntuación de imprimación simple son:

  1. temperatura de fusión: la temperatura de fusión Tm de una imprimación se calcula con la fórmula del vecino más cercano . El término de puntuación es 1 Si Tm ≥ 52, 0 si Tm ≤ 50 y (Tm – 50)/2 Si 50 < Tm < 52.,

  2. GC-content: GC-content es la fracción fGC de pares de bases en la secuencia de imprimación igual a G (guanina) o C (citosina). La puntuación término es 1 si 0.5 ≤ fGC ≤ 0.7, 0 si fGC > 0,7 o fGC < 0.4 y (0.5 – fGC)/0.1 si el 0,4 ≤ fGC < 0.5.

  3. 3 ‘- End stability-score término 1: se definen dos términos de puntuación relativos a la estabilidad 3’-end. El primer término es 0 si las tres últimas bases de la imprimación consisten enteramente en As (adeninas) y Ts, (thymines) y 1 de lo contrario.,

  4. 3 ‘ – término final de la puntuación de estabilidad 2: el segundo término de puntuación es 0 si las últimas 5 bases contienen más de 3 Cs o Gs, y 1 de lo contrario.

  5. Homopolímeros: un homopolímero es una secuencia de nucleótidos idénticos. El término de puntuación es 1 si no hay homopolímeros Más largos que 4 nt, 0.5 si no hay homopolímeros Más largos que 5 nt, y 0 si hay al menos un homopolímero más largo que 5 nt en la secuencia.

  6. Auto-dímeros: la presencia de regiones auto-complementarias entre parejas de cebadores idénticos puede conducir a la generación de auto-dímeros., Teniendo en cuenta el número máximo de coincidencias en una alineación libre de huecos entre una imprimación con su complemento inverso, maxM, el término de puntuación es 1 si maxM ≤ 8, 0 si maxM ≥ 11 y (11-maxM)/3 Si 8 < maxM < 11.

  7. horquillas: se puede formar una horquilla en presencia de auto-complementariedad dentro de la secuencia de imprimación, especialmente en su extremo 3′., El término de puntuación es 0 si, para al menos una alineación libre de huecos entre el cebador y el complemento inverso de su extremo 3′, tanto el último nucleótido como 3 o más de los 4 nucleótidos precedentes coinciden, y 1 de lo contrario.

los 3 términos de puntuación de primer-set-pairs se definen de la siguiente manera:

  1. rango de temperatura de fusión: el rango de temperatura de fusión ΔTm de un par de primer-set-pair se calcula como el máximo menos el mínimo de las temperaturas de fusión de todos los imprimadores en el par de conjunto., El término de puntuación es 1 Si ΔTm ≤ 3, 0 si ΔTm ≥ 5 y (5-ΔTm)/2 si 3 < ΔTm < 5.

  2. dímeros: consideramos el número máximo de coincidencias maxM en todas las alineaciones posibles entre todas las combinaciones posibles de cebadores hacia adelante y hacia atrás de un par conjunto de cebadores. El término de puntuación es 1 si maxM ≤ 8, 0 si maxM ≥ 11 y (11 – maxM)/3 Si 8 < maxM < 11.,

  3. rango de longitud del amplicón: debido a la conocida reducción de la eficiencia de PCR con el aumento de la longitud del amplicón , queremos que las longitudes de los amplicones generados se encuentren en un rango estrecho. Especialmente queremos evitar amplicones mucho más cortos que la longitud objetivo, ya que estarían sobre-amplificados con respecto a los demás. Sin embargo, queremos ser capaces de tolerar una pequeña fracción de valores atípicos, con el fin de evitar penalizar potencialmente valiosos pares de conjunto de imprimación debido solo a unas pocas secuencias raras., Dado un conjunto representativo de secuencias bacterianas de 16S, llamado «conjunto de referencia» a partir de ahora, consideramos la diferencia Δamplen entre la mediana y el primer percentil de longitudes de amplicón a través de todos los amplicones posibles, formada por emparejar todas las combinaciones de cebadores hacia adelante y hacia atrás del par conjunto con el conjunto de referencia. La puntuación término es 1 si Δamplen ≤ 50 nucleótidos, 0 si Δamplen ≥ 100 y (100 – Δamplen)/50 si 50 < Δamplen < 100.,

la elección de los criterios de puntuación y el umbral predeterminado se basan en la literatura previa . Sin embargo, tanto los umbrales como los intervalos de tolerancia difusos pueden ser establecidos por el usuario de manera diferente al predeterminado y de acuerdo con sus necesidades experimentales especificando los valores deseados como parámetros de entrada al llamar a la herramienta de línea de comandos.

Coverage

La puntuación de cobertura se define como el número de secuencias de 16S emparejadas por al menos un primer., Dadas las secuencias de un cebador y de un 16S bacteriano, definimos semilla los últimos 5 nucleótidos en el extremo 3’de un cebador y consideramos que una secuencia 16S coincide con el cebador si existe una región de la secuencia 16S que coincide con i) la semilla del cebador exactamente; y ii) el resto del cebador con un máximo de 2 desajustes . Una secuencia de 16S de un conjunto de referencia se considera cubierta por un par de imprimación si al menos una imprimación hacia adelante y una inversa en el par de imprimación coinciden con la secuencia., Dado que la eficiencia de la PCR disminuye con la longitud del amplicón, imponemos una restricción adicional: dado un par primer-set-y un conjunto de referencia de secuencias de 16S, estimamos la longitud del amplicón objetivo como la mediana de las longitudes de todos los amplicones obtenidos al emparejar todas las combinaciones de cebadores hacia adelante y hacia atrás del par primer-set-pair con el conjunto de referencia. Entonces consideramos como no cubiertas todas las secuencias de referencia 16S cuya longitud del amplicón difiere más de 100 nucleótidos (ya sea más largo o más corto) de la longitud objetivo.,

sesgo de coincidencia

dado un conjunto de referencia de secuencias de 16S y un par de conjunto de cebadores, la tercera puntuación de optimización mide la variabilidad del número de combinaciones de cebadores hacia adelante y hacia atrás que coinciden con cada secuencia de referencia de 16S. La variabilidad de la cobertura debido al sesgo de coincidencia debe minimizarse, o al menos tenerse en cuenta, cuando el estudio está destinado a cuantificar las abundancias relativas de las diferentes especies bacterianas, debido al sesgo de amplificación hacia las especies cubiertas por más combinaciones de cebadores hacia adelante y hacia atrás., Como medida del sesgo de coincidencia, explotamos el coeficiente de variación de la cobertura a través de las secuencias objetivo, calculado como la desviación estándar sobre la media del número de combinaciones que coinciden con cada secuencia.

conjunto de referencia de secuencias 16S, preparación y Anotación

para optimizar las tres puntuaciones anteriores, nos basamos en un conjunto representativo de secuencias bacterianas 16S extraídas de una base de Datos pública de secuencias 16S, GreenGenes ., La base de datos de secuencias GreenGenes 16S está organizada en unidades taxonómicas operativas (OTUs), que son grupos anidados de secuencias en la base de datos, organizados en diferentes niveles de similitud entre clústeres. Para cada nivel de similitud, se asocia una secuencia de referencia a cada clúster, lo más similar posible a todas las demás secuencias del mismo clúster . Por lo tanto, el conjunto de secuencias de referencia puede considerarse un subconjunto representativo de toda la base de datos de secuencias, volviéndose cada vez más preciso para aumentar los niveles de similitud entre clústeres (y, por lo tanto, el número de secuencias de referencia)., Elegimos un nivel de similitud entre clústeres del 85% como un buen equilibrio entre representatividad y complejidad, correspondiente a un conjunto de 5088 secuencias representativas que se utilizarán para evaluar los criterios de optimización.

aunque es muy sensible a la hora de anotar los dominios de bacterias y arqueas, la taxonomía de GreenGenes no está diseñada para distinguir secuencias pertenecientes a eucariotas o virus., Por esta razón, decidimos volver a anotar las secuencias bacterianas 16S aprovechando la taxonomía original de NCBI para identificar con precisión, entre las secuencias representativas, solo las pertenecientes al dominio bacteriano. Dado que la información del dominio falta en la anotación NCBI para alrededor del 20% de las secuencias, diseñamos un procedimiento ad hoc para identificar secuencias bacterianas entre ellas. El procedimiento se describe en detalle en los materiales complementarios (Ver archivo adicional 1)., De manera conservadora, elegimos considerar solo las secuencias anotadas como bacterias tanto en nuestra Anotación curada basada en NCBI como en la anotación original de GreenGenes. Esto resultó en un conjunto de 4573 secuencias representativas de 16S pertenecientes al dominio bacteriano.,

algoritmo de optimización

dado que el problema de la elección óptima de cebadores requiere la optimización simultánea de diferentes puntuaciones competidoras, se puede emitir como un problema de optimización multiobjetivo, donde el espacio de búsqueda es el conjunto de todos los posibles pares de cebadores y una función de puntuación, o criterio de optimización, se puede definir para maximizar la eficiencia y la cobertura y minimizar el sesgo de coincidencia., Cuando más de un criterio necesita ser optimizado al mismo tiempo, pero los objetivos a ser optimizados son contradictorios, uno no suele estar interesado en una sola solución, sino más bien en el conjunto de soluciones óptimas de Pareto, es decir, en el conjunto de soluciones para las que ninguno de los objetivos puede mejorarse sin sacrificar al menos otro objetivo ., El resultado de la optimización multiobjetivo ya no es un par de conjunto de imprimación óptimo único, como en la optimización de un solo objetivo, sino más bien una colección de pares de conjunto de imprimación que no son peores que cualquier otro par de conjunto de imprimación y estrictamente mejores de acuerdo con al menos uno de los criterios. Más precisamente, para el problema de optimización tri-objetivo de maximizar las puntuaciones de optimización de eficiencia (E) y cobertura (C) y minimizar la puntuación de sesgo de coincidencia (M), como se define en la sección anterior, los candidatos primer-set-pares se evalúan de acuerdo con un vector de función objetivo f = (f E ; f C ; fM)., Dadas dos-primer conjunto de pares de p y p’, decimos que p domina p’ (p ≺ p’) si y sólo si f (p) ≠ f (p’), fE (p) ≥ fE (p’), fC (p) ≥ fC (p’) y fM (p) ≤ fM (p’). Si no existe p ‘tal que p’ p p, el primer-set-par p se llama Pareto-óptimo. En este contexto, el objetivo de optima primers choice es determinar (o aproximar) el conjunto de todos los pares Pareto-optimal primer-set, cuya imagen en el espacio tri-objetivo se llama Pareto front .

para buscar el frente óptimo de Pareto, confiamos en el enfoque de búsqueda local de mejor mejora iterada de dos fases propuesto por Dubois-Lacoste et al., y efectivamente explotado en Sambo et al. and Borrotti et al. para el óptimo diseño multiobjetivo de experimentos.

la búsqueda Local comienza desde una solución inicial y la refina iterativamente aplicando pequeños cambios locales y evaluando cada vez su efecto en la calidad de la solución; se detiene cuando no hay más cambios locales que puedan mejorar la solución. El proceso se itera desde varios puntos de partida diferentes y se devuelve la mejor solución jamás encontrada, como una aproximación del óptimo desconocido ., Una extensión común de la búsqueda local al caso multiobjetivo es comenzar a partir de un conjunto de soluciones iniciales de Pareto, muestrear una solución desde el frente, optimizar con la búsqueda local una escalarización aleatoria del problema, es decir, una combinación lineal de las puntuaciones de optimización con Pesos muestreados uniformemente al azar desde la unidad simplex, actualizar el frente de Pareto e iterar hasta que se cumpla una condición de terminación .,

el procedimiento MULTI-OBJECTIVE-SEARCH, cuyo pseudo-código se informa en lo que sigue, recibe como entradas el rango deseado de longitudes de amplicón (rangeamplen), un conjunto representativo de secuencias de 16S (repset), un conjunto inicial de pares de cebadores (posiblemente degenerados) (init) y el número de reinicios (nres). El procedimiento comienza seleccionando de init todos los pares de imprimación posibles con la longitud de amplicón deseada, la longitud de imprimación (entre 17 y 21 nucleótidos) y el dominio objetivo (bacterias o Universal).,

Los pares de imprimación degenerados se convierten en pares de conjunto de imprimación no degenerados y se agregan a un archivo. El procedimiento itera entonces los tiempos de nrest, cada vez muestreando un primer-conjunto-par Aleatorio pstart desde el frente de Pareto y un vector Aleatorio α de pesos relativos para las puntuaciones de optimización, con Pesos muestreados uniformemente desde la unidad simplex; el procedimiento, entonces, resuelve una escalarización del problema multiobjetivo, es decir, un problema de un solo objetivo en el que se maximiza una combinación lineal de los tres objetivos con pesos relativos α, y agrega el resultado al archivo., Para este propósito, los puntajes de eficiencia, cobertura y sesgo de coincidencia se normalizan a su máximo, de modo que cada puntaje normalizado varía entre 0 y 1, y el sesgo de coincidencia se redefine como sesgo de coincidencia 1, para que pueda maximizarse como los otros puntajes., longitud del amplicón en rangoamplen

2 Agregar al archivo los pares de primer-set no degenerados correspondientes

3 para r = 1 a nrest

4 pf = PARETO-FRONT(archivo)

5 muestra pstart de pf

6 muestra α de 3, con Σi ai = 1

7 P = búsqueda LOCAL(pstart , α , repset)

8 add P to archive

9 return Archive

la optimización de un solo objetivo se obtiene utilizando el algoritmo de búsqueda local de mejor mejora : a partir de un primer-set-pair inicial, el algoritmo de búsqueda local recorre los primers del conjunto-pair y, para cada primer, escanea su vecindario, I.,e. el conjunto de todas las posibles perturbaciones locales de la cartilla. Las perturbaciones locales consisten en todos los posibles giros de un nucleótido (evaluando las otras tres bases posibles) y todas las posibles adiciones y absorciones de un nucleótido en las extremidades., La búsqueda en el espacio de solución se realiza con el mejor enfoque de búsqueda local de mejora: después de generar todo el vecindario como se explicó anteriormente, el algoritmo selecciona la mejor perturbación del vecindario, comienza a partir de ella para generar el próximo vecindario e itera hasta que alcanza una solución para la cual no se puede encontrar una mejor perturbación del vecindario. El procedimiento termina cuando no se pueden aplicar más mejoras locales a ninguna imprimación en el par imprimación-set -., La función WEIGHTED-SCORE calcula las tres puntuaciones de optimización a partir de un par primer-set-y el conjunto representativo, multiplica las puntuaciones por las ponderaciones relativas α y devuelve la suma de los resultados.

desarrollamos una herramienta de software que implementa nuestro enfoque y la lanzamos bajo la Licencia Pública General de GNU como la herramienta de software mopo16S (Multi-Objective Primer Optimization for 16S experiments) en http://sysbiobig.dei.unipd.it/?q=Software#mopo16S., mopo16S se implementa como una herramienta de línea de comandos C++ multithreading; la herramienta de software se basa en los eficientes algoritmos y estructuras de datos de la biblioteca SeqAn y utiliza la biblioteca openMP para multithreading.,>

4 for i = 1 to |pcurr|

5 pri = i-th primer of pcurr

6 for pnew = pcurr with all possible additions and removals of a base at the extremities and replacements of a base of pri

7 scorenew = WEIGHTED-SCORE(pnew , α , repset)

8 if scorenew > scorebest

9 pbest = pnew

10 scorebest = scorenew

11 pcurr = pbest

12 return pcurr

State-of-the-art primer pairs as initial Solutions

seleccionamos la base de datos en línea probebase como fuente de candidatos primer-set-Pairs para ser utilizados como soluciones iniciales por mopo16s., La base de Datos contiene más de 500 pares de cebadores (posiblemente degenerados) e informa para cada cebador su secuencia, la cadena y la posición en la que coincide con el gen de referencia 16S Escherichia coli, y el dominio objetivo para el que está diseñado (ya sea Bacteria, Archaea o Universal).,

dado un rango deseado para la longitud del amplicón objetivo como entrada de mopo16S, seleccionamos todos los pares de cebadores de la base de datos probeBase que satisfacen todas las siguientes propiedades:

  • longitud del amplicón en el rango deseado;

  • longitud de ambos cebadores mayor o igual a 17 nt y menor o igual a 21 nt;

  • Bacteria o dominio objetivo Universal de ambos cebadores.,

dado que nuestro enfoque es trabajar con conjuntos de cebadores no degenerados, en caso de degeneraciones en el primer hacia adelante o hacia atrás, sustituimos el primer degenerado con un conjunto correspondiente de cebadores no degenerados, obtenidos asignando todas las combinaciones posibles de valores a los nucleótidos degenerados en el primer. En el cuadro 1 figura un ejemplo de este procedimiento.

se calcularon las tres puntuaciones para cada uno de los pares primer-set e identificamos, entre ellos, los pares primer-set que forman el frente inicial de Pareto.

Leave a Comment