Explained: Neural networks

publicado en: Articles | 0

en los últimos 10 años, los sistemas de inteligencia artificial de mejor rendimiento, como los reconocedores de voz en teléfonos inteligentes o el último traductor automático de Google, han sido el resultado de una técnica llamada «aprendizaje profundo».»

Deep learning es, de hecho, un nuevo nombre para un enfoque de inteligencia artificial llamado redes neuronales, que han estado entrando y saliendo de moda durante más de 70 años., Las redes neuronales fueron propuestas por primera vez en 1944 por Warren McCullough y Walter Pitts, dos investigadores de la Universidad de Chicago que se mudaron al MIT en 1952 como miembros fundadores de lo que a veces se llama el primer departamento de ciencia cognitiva.

Las Redes Neuronales fueron un área importante de investigación tanto en neurociencia como en Ciencias de la computación hasta 1969, cuando, según la tradición de Ciencias de la computación, fueron asesinadas por los Matemáticos del MIT Marvin Minsky y Seymour Papert, quienes un año más tarde se convertirían en codirectores del nuevo laboratorio de Inteligencia Artificial del MIT.,

la técnica entonces disfrutó de un resurgimiento en la década de 1980, cayó en eclipse de nuevo en la primera década del nuevo siglo, y ha regresado como gangbusters en la segunda, alimentada en gran parte por el aumento de la potencia de procesamiento de los chips gráficos.

«existe la idea de que las ideas en la ciencia son un poco como epidemias de virus», dice Tomaso Poggio, profesor Eugene McDermott de Ciencias cerebrales y cognitivas en el MIT, investigador del Instituto McGovern de investigación cerebral del MIT y director del Centro de cerebros, mentes y máquinas del MIT., «Aparentemente hay cinco o seis cepas básicas de virus de la gripe, y aparentemente cada una regresa con un período de alrededor de 25 años. Las personas se infectan y desarrollan una respuesta inmunitaria, por lo que no se infectan en los próximos 25 años. Y luego hay una nueva generación que está lista para ser infectada por la misma cepa de virus. En la ciencia, la gente se enamora de una idea, se emociona con ella, la golpea hasta la muerte y luego se inmuniza, se cansa de ella. Así que las ideas deben tener el mismo tipo de periodicidad!,»

Weighty matters

Las redes neuronales son un medio para hacer aprendizaje automático, en el que una computadora aprende a realizar alguna tarea mediante el análisis de ejemplos de entrenamiento. Por lo general, los ejemplos han sido etiquetados a mano con antelación. Un sistema de reconocimiento de objetos, por ejemplo, podría recibir miles de imágenes etiquetadas de automóviles, casas, tazas de café, etc., y encontraría patrones visuales en las imágenes que consistentemente se correlacionan con etiquetas particulares.

Modelada libremente en el cerebro humano, una red neuronal consiste en miles o incluso millones de nodos de procesamiento simples que están densamente interconectados., La mayoría de las redes neuronales de hoy en día están organizadas en capas de nodos, y son «feed-forward», lo que significa que los datos se mueven a través de ellas en una sola dirección. Un nodo individual puede estar conectado a varios nodos de la capa inferior, de la que recibe datos, y a varios nodos de la capa superior, a los que envía datos.

a cada una de sus conexiones entrantes, un nodo asignará un número conocido como «peso».»Cuando la red está activa, el nodo recibe un elemento de datos diferente — un número diferente-sobre cada una de sus conexiones y lo multiplica por el peso asociado., A continuación, se suman los productos resultantes, dando un solo número. Si ese número está por debajo de un valor de umbral, el nodo no pasa datos a la siguiente capa. Si el número excede el valor umbral, el nodo «dispara», lo que en las redes neuronales actuales generalmente significa enviar el número — la suma de las entradas ponderadas — a lo largo de todas sus conexiones salientes.

cuando se está entrenando una red neuronal, todos sus pesos y umbrales se establecen inicialmente en valores aleatorios., Los datos de entrenamiento se alimentan a la Capa Inferior-la capa de entrada-y pasan a través de las capas posteriores, multiplicándose y sumándose de manera compleja, hasta que finalmente llegan, radicalmente transformados, a la capa de salida. Durante el entrenamiento, los pesos y los umbrales se ajustan continuamente hasta que los datos de entrenamiento con las mismas etiquetas producen resultados similares.

mentes y máquinas

Las redes neuronales descritas por McCullough y Pitts en 1944 tenían umbrales y pesos, pero no estaban dispuestas en capas, y los investigadores no especificaron ningún mecanismo de entrenamiento., Lo que McCullough y Pitts mostraron fue que una red neuronal podía, en principio, calcular cualquier función que una computadora digital pudiera. El resultado fue más neurociencia que informática: el punto era sugerir que el cerebro humano podría ser pensado como un dispositivo informático.

Las Redes Neuronales siguen siendo una herramienta valiosa para la investigación neurocientífica. Por ejemplo, diseños de redes particulares o reglas para ajustar pesos y umbrales han reproducido características observadas de la neuroanatomía humana y la cognición, una indicación de que capturan algo sobre cómo el cerebro procesa la información.,

La primera red neuronal entrenable, el perceptrón, fue demostrada por el psicólogo de la Universidad de Cornell Frank Rosenblatt en 1957. El diseño del perceptrón era muy parecido al de la red neural moderna, excepto que solo tenía una capa con pesos y umbrales ajustables, intercalada entre las capas de entrada y salida.,

Los perceptrones fueron un área activa de investigación tanto en psicología como en la incipiente disciplina de las ciencias de la computación hasta 1959, cuando Minsky y Papert publicaron un libro titulado «perceptrones», que demostró que ejecutar ciertos cálculos bastante comunes en perceptrones llevaría poco tiempo.

«Por supuesto, todas estas limitaciones desaparecen si tomas maquinaria que es un poco más complicada, como dos capas», dice Poggio. Pero en ese momento, el libro tuvo un efecto escalofriante en la investigación de redes neuronales.,

«Hay que poner estas cosas en un contexto histórico», dice Poggio. «Estaban abogando por la programación-para lenguajes como Lisp. No muchos años antes, la gente todavía usaba computadoras analógicas. No estaba claro en absoluto en ese momento que la programación era el camino a seguir. Creo que se excedieron un poco, pero como siempre, no es blanco y negro. Si se piensa en esto como esta competencia entre la computación analógica y la informática digital, lucharon por lo que en ese momento era lo correcto.,»

periodicidad

en la década de 1980, sin embargo, los investigadores habían desarrollado algoritmos para modificar los pesos y umbrales de las redes neuronales que eran lo suficientemente eficientes para redes con más de una capa, eliminando muchas de las limitaciones identificadas por Minsky y Papert. El campo disfrutó de un renacimiento.

pero intelectualmente, hay algo insatisfactorio en las redes neuronales. Suficiente capacitación puede revisar la configuración de una red hasta el punto de que pueda clasificar datos de manera útil, pero ¿qué significan esas configuraciones?, ¿Qué características de imagen observa un reconocedor de objetos y cómo las une en las distintivas firmas visuales de automóviles, casas y tazas de café? Mirar los pesos de las conexiones individuales no responderá esa pregunta.

en los últimos años, los científicos de la computación han comenzado a idear métodos ingeniosos para deducir las estrategias analíticas adoptadas por las redes neuronales. Pero en la década de 1980, las estrategias de las redes eran indescifrables., Así que alrededor del cambio de siglo, las redes neuronales fueron suplantadas por máquinas de vectores de soporte, un enfoque alternativo al aprendizaje automático que se basa en algunas matemáticas muy limpias y elegantes.

el reciente resurgimiento de las redes neuronales — la revolución del aprendizaje profundo-es cortesía de la industria de los juegos de computadora. Las complejas imágenes y el rápido ritmo de los videojuegos actuales requieren un hardware que pueda mantenerse al día, y el resultado ha sido la unidad de procesamiento de gráficos (GPU), que empaqueta miles de núcleos de procesamiento relativamente simples en un solo chip., No pasó mucho tiempo para que los investigadores se dieran cuenta de que la arquitectura de una GPU es notablemente similar a la de una red neuronal.

Las GPU modernas permitieron que las redes de una capa de la década de 1960 y las redes de dos a tres capas de la década de 1980 florecieran en las redes de 10, 15 e incluso 50 capas de hoy. A eso se refiere el» profundo «en» aprendizaje profundo»: la profundidad de las capas de la red. Y actualmente, el aprendizaje profundo es responsable de los sistemas de mejor rendimiento en casi todas las áreas de investigación de inteligencia artificial.,

bajo el capó

la opacidad de las redes sigue siendo inquietante para los teóricos, pero también hay avances en ese frente. Además de dirigir el Centro para cerebros, mentes y máquinas (CBMM), Poggio lidera el programa de investigación del centro en marcos teóricos para la inteligencia. Recientemente, Poggio y sus colegas de CBMM han publicado un estudio teórico de tres partes de las redes neuronales.,

la primera parte, que se publicó el mes pasado en el International Journal of Automation and Computing, aborda la gama de cálculos que las redes de aprendizaje profundo pueden ejecutar y cuando las redes profundas ofrecen ventajas sobre las menos profundas., Las partes dos y tres, que se han publicado como informes técnicos de CBMM, abordan los problemas de optimización global, o garantizar que una red ha encontrado la configuración que mejor se ajusta a sus datos de entrenamiento, y el sobreajuste, o casos en los que la red está tan sintonizada con los detalles de sus datos de entrenamiento que no puede generalizar a otras instancias de las mismas categorías.,

todavía hay muchas preguntas teóricas que responder, pero el trabajo de los investigadores de CBMM podría ayudar a garantizar que las redes neuronales finalmente rompan el ciclo generacional que las ha traído y dejado de lado durante siete décadas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *