O que são os Unique Molecular Identifiers (UMIs)?

Data:

UMIs-1

O uso de Unique Molecular Identifiers (UMIs) para reduzir vieses em RNA-Seq e chamadas de variantes

        Os identificadores moleculares únicos ou Unique Molecular Identifiers (UMIs) são pequenas moléculas de DNA sintéticas que se comportam como códigos de barras únicos. Diferentes dos indexes, que são utilizados para identificar diferentes amostras em uma mesma biblioteca, os UMIs são utilizados em uma mesma amostra para distinguir se um fragmento é um artefato de duplicação via PCR ou se é realmente uma duplicação “biológica” - ou oriunda de uma molécula única original, de DNA ou cDNA. 

Como funciona?

Os UMIs constituem um pool de pequenas moléculas com sequências randômicas. Essas sequências são incorporadas nos fragmentos de DNA de uma amostra antes das reações de PCR. A natureza randômica dessas sequências garante que a combinação de uma UMI com um fragmento original de DNA seja única em uma dada biblioteca. 

Assim, se for detectado várias sequências idênticas de um UMI e fragmento isso só seria possível se os fragmentos forem duplicatas de PCR.

  • Duplicatas de PCR:

ATATAT (UMI) GCTAGCTAGCTAGCTAGCTAGCTAG (fragmento)
ATATAT (UMI) GCTAGCTAGCTAGCTAGCTAGCTAG (fragmento)

Veja que duas leituras possuem o mesmo UMI e o mesmo fragmento e portanto foram originadas de uma mesma molécula e devem ser assinaladas como duplicatas de PCR.

  • Duplicatas "biológicas"

AGAGAG (UMI) GCTAGCTAGCTAGCTAGCTAGCTAG (fragmento)
CTCTCT (UMI) GCTAGCTAGCTAGCTAGCTAGCTAG (fragmento)

Já essas duas leituras possuem UMIs diferentes mas possuem o mesmo fragmento e portanto foram originadas de duas moléculas de DNA originais e não são duplicatas de PCR.


Redução de taxa de falso positivos em chamadas de variantes:

Identificar e remover duplicatas de PCR é um processo comum e necessário que pode ser feito antes ou depois do alinhamento (recomendado). Ao se remover as duplicatas de PCR evita-se um viés determinante para a chamada de variantes. 

        Uma determinada mutação pode ser suportada por várias leituras originadas de uma amplificação de PCR - com um erro introduzido pela polimerase - e isso implicar em uma detecção de uma mutação artificial. Assim os UMIs podem reduzir drasticamente a taxa de falso positivos, aumentando a sensitividade de detecção de variantes.

Vieses quantitativos em RNA-seq, small RNA-seq e sciRNA-seq (single-cell):

Medir a expressão de um determinado gene muitas vezes significa, de uma forma simples e generalista, contar a quantidade de leituras alinhadas em sua sequência referência. Porém a grande maioria das estratégias de preparo de biblioteca utilizada rodadas de PCR para amplificar o cDNA para permitir o sequenciamento. 

     Porém, essa amplificação não é homogênea e alguns fragmentos podem ficar super-representados, sem que isso seja biologicamente verdadeiro. Isso é ainda mais grave em sciRNA-seq devido à pequena quantidade de material inicial. 

      Nesses casos os UMIs podem ser utilizados para distinguir duplicatas de PCR oriundas de uma única molécula e duplicatas originadas de moléculas diferentes e assim biologicamente relevantes. 

Ferramentas para lidar com UMIs:

  • UMI-tools: A ferramenta mais utilizada, mais completa e mais bem documentada para extrair, mapear, e de-duplicar leituras com UMIs. Atenção para o ótimo tutorial de sciRNA-Seq. 

Documentação
Download
Paper

  • UMI-VarCal: Uma ferramenta de chamada de variantes que permite a extração de UMIs e a chamada de variantes a partir de um arquivo BAM/SAM. 

Download
Paper

Referências:

Illumina: Unique Molecular Identifiers 
Como reduzir vieses quantitativos com UMIs
Elimination of PCR duplicates in RNA-seq and small RNA-seq using unique molecular identifiers 

Última atualização: Dec. 6, 2020, 11:35 p.m.

Posts Relacionados