A redução de dimensionalidade é uma ferramenta estatística que converte um conjunto de dados de alta dimensão em um de baixa dimensão.
A redução de dimensionalidade é definida como um método de redução de variáveis em um conjunto de dados de treinamento usado para desenvolver modelos de aprendizado de máquina. Este artigo explica os princípios básicos da redução de dimensionalidade e suas principais técnicas com exemplos.
O que é redução de dimensionalidade?
A redução de dimensionalidade refere-se ao método de redução de variáveis em um conjunto de dados de treinamento usado para desenvolver modelos de aprendizado de máquina. O processo verifica a dimensionalidade dos dados projetando dados de alta dimensão para um espaço de dimensão inferior que encapsula a ‘essência central’ dos dados.
O aprendizado de máquina requer muitas fontes e cálculos para analisar dados com milhões de recursos. Além disso, também envolve muito trabalho manual. A redução de dimensionalidade torna essa tarefa complexa relativamente fácil, convertendo um conjunto de dados de alta dimensão em um conjunto de dados de dimensão inferior sem afetar as principais propriedades do conjunto de dados original. Esse processo revela as etapas de pré-processamento de dados realizadas antes de iniciar o ciclo de treinamento dos modelos de aprendizado de máquina.
Digamos que você treine um modelo que pode prever o clima do dia seguinte com base nas variáveis climáticas atuais, como quantidade de luz solar, chuva, temperatura, umidade e vários outros fatores ambientais. Analisar todas essas variáveis é uma tarefa complexa e desafiadora. Portanto, para realizar a tarefa com um conjunto limitado de recursos, você pode segmentar apenas recursos específicos que mostram uma correlação mais forte e podem ser agrupados em um.
Por exemplo, podemos combinar as variáveis de umidade e temperatura em um recurso dependente, pois, elas tendem a mostrar uma correlação mais forte. Com esse método de clubbing, a redução de dimensionalidade comprime dados complexos em uma forma mais simples e garante que o objetivo final seja alcançado sem perder o cerne dos dados. Hoje, empresas e empresas como DataToBiz estão aproveitando soluções de análise de dados, como visualização de dados, mineração de dados e modelagem preditiva que empregam redução de dimensionalidade para maximizar seus ROIs de negócios.
Com o crescimento das plataformas de mídia online e social, o número de usuários da Internet aumentou exponencialmente. De acordo com um relatório de setembro de 2022 do Statista Research Department, existem mais de cinco bilhões de usuários da Internet em todo o mundo. Uma base de usuários tão sólida gera uma enorme quantidade de dados diariamente.
Um relatório recente da Finances Online prevê que, até o final de 2022, produziremos e consumiremos cerca de 94 zettabytes de dados. Isso pode incluir dados coletados pelo Facebook (curtidas, compartilhamentos e comentários), Amazon (padrões de compra, cliques e visualizações dos clientes), aplicativos para smartphones (informações pessoais dos usuários), dispositivos IoT (atividade diária e dados de saúde dos usuários), e até cassinos (rastreie cada movimento do cliente).
Essa variedade de dados é fornecida aos modelos de aprendizado de máquina e aprendizado profundo para aprender mais sobre as tendências e flutuações nos padrões de dados. Como esses dados têm vários recursos sendo gerados em excesso, muitas vezes dão origem à ‘maldição da dimensionalidade’.
Além disso, grandes conjuntos de dados são acompanhados por um inevitável fator de dispersão. Esparsidade denota os recursos ‘sem valor’ que podem ser ignorados durante o treinamento de um modelo. Além disso, tais recursos ocorrem de forma redundante no conjunto de dados fornecido e apresentam problemas ao agrupar recursos semelhantes.
- Com a eliminação de dados redundantes, resta menos espaço para suposições, elevando assim a precisão geral do modelo de aprendizado de máquina.
- Controle significativo sobre o uso de recursos computacionais. Como resultado, economiza tempo e orçamento.
- Algumas técnicas de ML e aprendizado profundo não funcionam bem com dados de alta dimensão. Isso pode ser resolvido reduzindo as dimensões dos dados.
- Dados não esparsos são cruciais para derivar resultados estatísticos, pois dados limpos garantem agrupamento preciso e mais fácil, ao contrário de dados esparsos.
Técnicas de Redução de Dimensionalidade
As técnicas de redução de dimensionalidade podem ser amplamente divididas em duas categorias:
Seleção de recursos: refere-se a reter os recursos relevantes (ótimos) e descartar os irrelevantes para garantir a alta precisão do modelo. Métodos de seleção de recursos, como filtro, wrapper e métodos incorporados, são usados popularmente.
Extração de recursos: Este processo também é denominado projeção de recursos, onde o espaço multidimensional é convertido em um espaço com dimensões menores. Alguns métodos conhecidos de extração de características incluem análise de componentes principais (PCA), análise discriminante linear (LDA), Kernel PCA (K-PCA) e análise discriminante quadrática (QCA).
Embora seja possível realizar a redução de dimensionalidade com várias técnicas, as seguintes são as mais utilizadas:
1. Análise de componentes principais (PCA)
A análise de componentes principais realiza transformações ortogonais para converter uma observação de características correlacionadas em um conjunto de características linearmente correlacionadas. As características recém-alteradas são denominadas ‘componentes principais’. Esse método estatístico é uma análise de dados chave e uma técnica de modelagem preditiva.
2. Taxa de valor ausente
Quando um conjunto de dados contém vários valores ausentes, essas variáveis são eliminadas, pois não fornecem informações relevantes ou confiáveis. A tarefa de eliminação é realizada definindo um nível de limite, em que uma variável com mais valores ausentes do que o limite é imediatamente descartada. Isso implica que quanto maior o valor limite, menor a eficiência.
3. Eliminação de recursos retrógrados
Essa abordagem é normalmente usada durante o desenvolvimento de uma regressão linear ou modelo de regressão logística. Nesta técnica, você pode especificar o número de recursos essenciais para algoritmos de ML com base no desempenho estimado do modelo e na taxa de erro tolerada.
O processo começa treinando o modelo de ML usando todas as variáveis ’n’ fornecidas no conjunto de dados. Após o treinamento, o desempenho do modelo é avaliado. Depois disso, os recursos são eliminados um de cada vez e o modelo é treinado em ‘n-1’ recursos por n vezes. O desempenho do modelo é tipicamente reavaliado em cada etapa.
A iteração acima é repetida até que seja identificada a variável que fez menos ou nenhuma diferença no desempenho do modelo. Após a identificação, essa variável ou recurso é eliminado e você fica com ‘n-1’ recursos. O processo é repetido até que seja alcançado um ponto em que nenhum recurso possa ser descartado do conjunto de dados.
4. Seleção de recurso de encaminhamento
A seleção de recursos para frente é oposta à técnica de eliminação para trás. Em vez de excluir qualquer recurso, contamos com a determinação das melhores características que resultam em um ganho acima da média no desempenho do modelo.
Nesta abordagem, começamos com um único recurso e adicionamos progressivamente recursos um de cada vez. Aqui, o modelo é treinado em cada recurso de forma independente. Assim, a feature com maior desempenho é identificada, e o modelo é executado iterativamente usando-a. O processo é repetido até que o desempenho do modelo melhore com o tempo.
5. Floresta aleatória
A floresta aleatória é uma abordagem de seleção de recursos com um pacote de significado de recurso integrado que identifica a importância do recurso. Como resultado, a necessidade de programá-lo é individualmente eliminada.
Nessa abordagem, várias árvores de decisão são construídas em relação ao recurso de destino para identificar o subconjunto de variáveis usando estatísticas para cada atributo. Além disso, como a floresta aleatória aceita entrada na forma de dados numéricos, um processo de codificação ativa é essencial para converter qualquer tipo de dados de entrada em dados numéricos.
6. Análise fatorial
O método de análise fatorial determina a conexão entre um grupo de variáveis e então decide sobre a retenção de uma determinada variável com base na forte correlação variável. Isso significa que as variáveis em um grupo podem estar fortemente correlacionadas, mas podem revelar uma correlação fraca com outros grupos. Portanto, cada variável é mantida ou descartada com base nesse fator de correlação.
7. Análise de componentes independentes (ICA)
A análise de componentes independentes que cobre a conhecida ‘separação cega de fontes’ e o ‘problema do coquetel’ refere-se a um método de redução de dimensionalidade linear que visa identificar os componentes independentes em um conjunto de dados fornecido. É importante notar que ‘independência’ difere de ‘correlação’, conforme discutido anteriormente.
Aqui está um exemplo.
Suponha que você tenha duas variáveis aleatórias, a1 e b1. Sua função de distribuição é dada por Pa1 e Pb1, respectivamente. Agora digamos que você receba informações adicionais sobre a variável a1. No entanto, isso não afeta seu conhecimento sobre a variável b1. Isso implica que a1 e b1 são variáveis independentes.
Embora a correlação meça a dependência entre variáveis, revela essencialmente uma dependência linear. No entanto, quando duas variáveis são independentes, não existe nenhuma dependência linear ou não linear entre elas. Mas a ausência de dependência linear, conforme observado na correlação, pode não equivaler essencialmente à independência, pois as variáveis podem ter relações não lineares.
8. Filtro de baixa variância
As colunas de dados em um conjunto de dados que sofrem certas alterações tendem a fornecer menos informações. Como resultado, isso leva a problemas observados na abordagem de razão de valor ausente. É, portanto, essencial calcular a variância de cada variável definindo um limite. Se a coluna de dados tiver uma variação menor que o próprio limite, ela será eliminada, pois suas características de baixa variação não impactam a variável de destino em nenhum sentido.
9. Filtro de alta correlação
Se duas variáveis revelam informações idênticas em um conjunto de dados, diz-se que elas têm uma alta correlação. Isso afeta negativamente o desempenho do modelo devido a variáveis que transmitem informações redundantes. Portanto, o coeficiente de correlação é definido para entender melhor a correlação com base em um valor limite. Se o valor do coeficiente de correlação exceder o valor limite, uma das variáveis poderá ser eliminada do conjunto de dados. O objetivo aqui é buscar características fortemente associadas às variáveis alvo.
10. Aproximação e projeção de variedade uniforme (UMAP)
T-Distributed Stochastic Neighbor Embedding (T-SNE) é uma técnica de redução de dimensionalidade aplicada a grandes conjuntos de dados. No entanto, apresenta algumas desvantagens, como perda de informações em grande escala, tempos computacionais mais longos e problemas que representam conjuntos de dados suficientemente grandes.
O UMAP, por outro lado, é conhecido por fornecer tempo de execução de computação mais rápido e manter uma estrutura de dados local e global, como T-SNE. A técnica tem uma vantagem sobre o T-SNE, pois lida bem com grandes conjuntos de dados e gerência dados de alta dimensão. Ele revela o poder da visualização, fundamental para reduzir a dimensionalidade dos dados.
O método se baseia no conceito de ‘k-vizinho mais próximo’ e usa a ‘descida de gradiente estocástico’ para ajustar os resultados. A primeira etapa do processo é calcular a distância entre os pontos de dados em um espaço de alta dimensão. Em seguida, a distância medida é projetada no espaço de baixa dimensão. Por fim, a distância entre os pontos de dados é reavaliada e o método de descida de gradiente estocástico é aplicado para reduzir as diferenças de distância calculadas entre os espaços bidimensionais. Como resultado, a dimensionalidade dos dados é consideravelmente reduzida.
Exemplos de Redução de Dimensionalidade
Os métodos de redução de dimensionalidade são essenciais para várias aplicações da realidade, incluindo categorização de texto, recuperação de imagem, reconhecimento facial, detecção de intrusão, neurociência, análise de expressão gênica, categorização de e-mail, etc.
Vejamos alguns exemplos em detalhes.
1. Categorização do texto
A internet contém abundância de dados digitais, como bibliotecas digitais, conteúdo de mídia social, e-mails, dados de comércio eletrônico e assim por diante. É um desafio classificar esses arquivos de texto, pois representam dados em um espaço dimensional superior. Como resultado, sempre que um novo documento de texto é adicionado à web, uma das tarefas onde a redução de dimensionalidade desempenha um papel fundamental é classificar automaticamente os documentos recém-adicionados com base em categorias predefinidas.
Esse método reduz o espaço de recursos (recursos baseados em palavras ou frases) sem prejudicar a precisão da categorização. Ele emprega várias métricas, como frequência de documentos, ganho de informações, duração do termo e outras, para segregar arquivos de texto automaticamente.
2. Recuperação de imagem
Com o crescimento da mídia online e dos dispositivos IoT, as coleções de imagens de setores científicos, departamentos militares e plataformas de mídia social aumentaram significativamente. Sem indexar essas imagens, talvez não seja possível recuperá-las quando necessário. É aí que a redução de dimensionalidade entra em cena. As imagens são indexadas com base no conteúdo visual, que inclui cor, textura ou forma. Tradicionalmente, as imagens eram indexadas por meio de descrições textuais (palavras-chave e legendas). No entanto, com o aumento de dados de alta dimensão, a indexação com base no conteúdo do texto não era suficiente. Isso levou à indexação de imagens com base no conteúdo visual. Vários métodos de aprendizado profundo, como reconhecimento de objetos, reconhecimento facial e outros, também são essenciais para essa tarefa de recuperação de imagens.
3. Análise de expressão gênica
A redução da dimensionalidade tornou a análise da expressão gênica mais rápida e fácil, pois a tecnologia permitiu a medição simultânea dos níveis de expressão gênica em um único experimento que envolve vários milhares de genes.
Por exemplo, a classificação de amostra de dados de leucemia é realizada considerando, métodos de classificação de características com base na correlação linear entre características genéticas relevantes. Esta técnica não só contribuiu para acelerar a análise da expressão gênica, mas também mostrou boa precisão.
4. Detecção de intrusão
No mundo digital de hoje, os sistemas de computadores baseados em rede são essenciais para a sociedade moderna. No entanto, todos esses sistemas de rede estão inevitavelmente expostos a ameaças cibernéticas externas. Portanto, para garantir uma operação de rede segura e sem problemas, é crucial proteger esses sistemas vitais de computador de tais invasões.
A detecção de intrusão via mineração de dados é crítica, onde técnicas de redução de dimensionalidade são extensivamente empregadas. Com a ajuda de algoritmos de mineração de dados, os padrões de atividade do usuário podem ser obtidos com frequência. Isso pode ser feito auditando dados relevantes regularmente, onde as técnicas de redução de dimensionalidade determinam recursos ideais que atuam como pontos de verificação para atividades suspeitas. Além disso, os classificadores também podem ser projetados com base em recursos selecionados para marcar a atividade observada como ‘legítima’ ou ‘intrusiva’.
Uma estratégia semelhante pode ser empregada para problemas de classificação de e-mail onde a tarefa é categorizar e-mails como spam ou legítimos. Pode-se considerar vários recursos, como título do e-mail, conteúdo do e-mail, se o e-mail usa um modelo e assim por diante para categorizar os e-mails.
5. Neurociência
A redução de dimensionalidade é amplamente utilizada no campo da neurociência. Uma técnica conhecida como ‘dimensões maximamente informativas’ é empregada para realizar a análise estatística das respostas neurais. Normalmente, o método projeta um estímulo neural em um espaço dimensional inferior para que todas as informações relevantes relacionadas ao estímulo sejam retidas nessa mesma resposta neural.
Além disso, as técnicas de análise de componentes independentes (ICA) encontram aplicação em neuroimagem, fMRI e análise de EEG, onde os sinais normais e anormais são segregados.
Conclusão
Hoje, uma quantidade sem precedentes de dados é gerada a cada segundo. Isso compreende na maioria dados de alta dimensão que requerem algum pré-processamento antes de serem usados. Portanto, é crucial procurar maneiras de lidar com esses dados de alta dimensão. A redução de dimensionalidade fornece maneiras de pré-processar dados de maneira precisa e eficiente. É considerada a abordagem ideal por vários cientistas de dados, pois ajuda a analisar dados enormes com recursos de computação ideais, simultaneamente, em que obtém resultados precisos.