Agrupamento Hierárquico (Hierarchical clustering)

Data:

grouping

Aprenda mais sobre os agrupamentos hierárquicos e sua utilização na bioinformática

Autor | Paulo Marcelo Rayner Oliveira

 

 

Em uma definição bastante ampla, podemos dizer que a análise de agrupamento (ou clustering) consiste em organizar um conjunto de dados dentro de grupos (ou clusters) com base na distância. Como assim distância? Imagine que você esteja trabalhando com 3 espécies de flores onde estão sendo analisadas 4 variáveis.

 

O algoritmo vai comparar cada indivíduo (instância) fazendo rodadas de iterações (ou verificações). Indivíduos com valores parecidos serão agrupados dentro de um mesmo grupo. O que vai determinar onde cada indivíduo será alocado, é o quão distante este indivíduo está do valor geral do grupo. Quanto mais próximo desse valor médio, maior é a probabilidade de pertencer a determinado grupo.

 

E quanto mais longe, menor será a probabilidade. Se um indivíduo está muito distante de grupos existentes, poderá ocorrer a formação de um novo grupo. E onde entra a hierarquia? A hierarquização consiste em mostrar quais dados apresentam maior relação e quão próximo ou distante eles estão e ao final é retornado um dendrograma mostrando como os dados se relacionam.

 

A clusterização hierárquica pode ser executada de duas maneiras: a divisiva e a aglomerativa. Na clusterização divisiva a formação dos grupos, ramos e nós é feita do conjunto total de amostras e a cada iteração novos grupos são formados até que todas as instâncias (ou indivíduos) estejam alocadas em algum grupo. Já a clusterização aglomerativa ocorre exatamente ao contrário da divisiva.

 

Cada instância é considerada um cluster inicial, a cada iteração os grupos são formados de maneira que o último cluster formado seja o conjunto de todas as instâncias.

 

No nosso exemplo, utilizamos um conjunto de dados bastante conhecido, o Iris. Este dataset é proveniente do trabalho realizado por Fisher em 1936 onde foram realizadas medições de comprimento e largura de pétalas e sépalas de três espécies diferentes de plantas: Iris virginica, Iris setosa e Iris versicolor.

 

Aqui vemos a clusterização das instâncias (ou amostras).

Note que existe um grupo bem separado e outros dois grupos com sobreposição.

Na figura a seguir, vemos a clusterização hierárquica (algoritmo utilizado warD). Repare que o ramo da Iris virginica está completamente separado, enquanto algumas amostras de Iris versicolor foram inseridas dentro do grupo de Iris setosa.

Esse tipo de resultado mostra que os dados utilizados não estão permitindo a resolução da árvore. Nesse contexto, uma análise de PCA seria ideal para ajudar na redução de dimensionalidade do conjunto de amostras, e assim, executar a clusterização com os dados separados corretamente, ou pelo menos, com menos sobreposição. 

Interessante que se voltarmos e observar a legenda da figura, não existe definição de espécie, apenas cluster 1, 2 e 3.

Isso acontece porque a clusterização é uma análise não supervisionada, ou seja, o algoritmo realiza o agrupamento por parâmetros matemáticos e não pelo nome da amostra. A mesma forma é o dendrograma, porém foi inserido a legenda para facilitar a interpretação. 

Esse tipo de análise pode ajudar a encontrar padrões em um conjunto de dados, por exemplo, em análises de expressão diferencial de genes onde é possível encontrar grupos de genes que caracterizam determinada resposta, pode ser utilizado na taxonomia e sistemática para agrupamento de indivíduos com base em determinadas características.

Entretanto, não se engane achando que esse tipo de análise somente se aplica às ciências da vida. A análise de agrupamento hierárquico é bastante utilizada na psicologia e até mesmo na análise de comportamento de clientes de estabelecimentos comerciais, em especial no e-commerce.

E aí já conhecia essa análise? Já aplicou alguma vez? Comente o que você achou do Agrupamento Hierárquico.

Saiba mais: 

 

Data Clustering and Self-Organizing Maps in Biology

Hierarchical clustering 

The use of multiple measurements in taxonomic problems.

Última atualização: Oct. 11, 2021, 3:42 p.m.

Recomendar

5

Tags

Posts Relacionados