Algoritmo Goloso De Selección De Características Aplicado A Datos De Microarreglo De Adn
Abstract
El objetivo del análisis de la expresión genética es generar un algoritmo que permita asignar
a cada patrón de expresión un fenotipo y que éste se corresponda con el fenotipo verdadero del paciente
bajo analisis. Este análisis también puede ser útil para determinar los genes cuya expresión caracteriza los
fenotipos patológicos. Para ello los especialistas deben construir arreglos experimentales que permitan
confirmar los datos obtenidos a partir de los algoritmos. Uno de los mayores problemas que se presenta
en el análisis estadístico de microarreglos es el de la gran dimensionalidad de los datos con respecto a
la cantidad disponible de muestras. El error verdadero de un clasificador, diseñado a partir de los datos,
disminuye cuando aumenta la cantidad de características, hasta cierto número óptimo a partir del cu´al
el error se incrementa nuevamente. Para solucionar este problema es necesario aplicar algoritmos de
selección y extracción de características. En este trabajo presentamos un algoritmo goloso que puede
seleccionar un conjunto de características, con baja correlación entre si, que permite predecir la variable
dependiente. Este algoritmo mantiene el objetivo original de seleccionar genes altamente correlacionados
a la variable dependiente, pero con un factor de peso dado por su máxima correlación a algún elemento
del conjunto seleccionado en la iteración anterior. El funcionamiento del algoritmo fue probado mediante
datos simulados. En todos los casos fue posible seleccionar las mejores características a partir de muchos
candidatos en tiempo razonable, obteniendo resultados con alto nivel de predicción y menor tamaño.
a cada patrón de expresión un fenotipo y que éste se corresponda con el fenotipo verdadero del paciente
bajo analisis. Este análisis también puede ser útil para determinar los genes cuya expresión caracteriza los
fenotipos patológicos. Para ello los especialistas deben construir arreglos experimentales que permitan
confirmar los datos obtenidos a partir de los algoritmos. Uno de los mayores problemas que se presenta
en el análisis estadístico de microarreglos es el de la gran dimensionalidad de los datos con respecto a
la cantidad disponible de muestras. El error verdadero de un clasificador, diseñado a partir de los datos,
disminuye cuando aumenta la cantidad de características, hasta cierto número óptimo a partir del cu´al
el error se incrementa nuevamente. Para solucionar este problema es necesario aplicar algoritmos de
selección y extracción de características. En este trabajo presentamos un algoritmo goloso que puede
seleccionar un conjunto de características, con baja correlación entre si, que permite predecir la variable
dependiente. Este algoritmo mantiene el objetivo original de seleccionar genes altamente correlacionados
a la variable dependiente, pero con un factor de peso dado por su máxima correlación a algún elemento
del conjunto seleccionado en la iteración anterior. El funcionamiento del algoritmo fue probado mediante
datos simulados. En todos los casos fue posible seleccionar las mejores características a partir de muchos
candidatos en tiempo razonable, obteniendo resultados con alto nivel de predicción y menor tamaño.
Full Text:
PDFAsociación Argentina de Mecánica Computacional
Güemes 3450
S3000GLN Santa Fe, Argentina
Phone: 54-342-4511594 / 4511595 Int. 1006
Fax: 54-342-4511169
E-mail: amca(at)santafe-conicet.gov.ar
ISSN 2591-3522