IT Notes: Мягкие вычисления

В 1950-х годах Тейлор инициировал работы по исследованию ассоциативной памяти, а в 1961 году Стейнбах(Steinbuch) разработал матрицу обучения, состоящую из плоской сети переключателей, объединявшей массивы сенсорных рецепторов и моторных исполнительных механизмов. В 1969 году была опубликована хорошая работа по неголографической ассоциативной памяти – Willshaw, Buneman, Longuet-Higgins, «Non-holographic associative memory» [Willshaw 1969]. В ней представлены две модели: простая оптическая модель корреляционной памяти и нейросетевая модель, реализованная в виде оптической памяти. Среди других работ, которые внесли заметный вклад в раннее развитие ассоциативной памяти, следует отметить Anderson J.A. «A simple neural network generating an interactive memory» [Anderson 1972], Kohonen T. «Correlation matrix memories» [Kohonen 580], Nakano K. «Association – a model of associative memory» [Nakano], в которых независимо друг от друга в одном и том же году описана идея памяти на основе матрицы корреляции, которая строится на обучении по правилу внешнего произведения (outer product learning).
Одной из самых известных фигур в науке первой половины XX века был фон Нейман. Архитектура фон Неймана является основой для создания цифровых компьютеров, названных в его честь. В 1955 году он был приглашен в Йельский университет, где в 1956 году прочитал курс лекций Silliman Lectures. Он умер в 1957 году, и его незаконченная работа, написанная на основе этих лекций, была позднее опубликована в виде отдельной книги. Из этой книги ясно, как много мог бы сделать фон Нейман, если бы остался жив, поскольку он начал осознавать принципиальное отличие мозга от компьютера.
Предметом отдельного исследования в контексте нейронных сетей является создание надежных сетей из нейронов, которые сами по себе считаются ненадежными компонентами. Эта задача была решена в 1956 году фон Нейманом с помощью идеи избыточности, которая была предложена Виноградом и Кованом в поддержку использования распределенного избыточного представления в нейронных сетях. Эти авторы показали, как большая группа элементов может в совокупности представлять одно понятие при соответствующем повышении надежности и степени параллелизма.
Через 15 лет после выхода классической работы Мак-Каллока и Питца Розенблатт предложил новый подход к задаче распознавания образов, основанный на использовании персептрона и нового метода обучения с учителем. Главным достижением этой работы была так называемая теорема сходимости персептрона, первое доказательство которой было получено Розенблаттом в 1960 году. Другие доказательства этой теоремы были предложены Новиковым и другими учеными. В 1960 году был описан алгоритм наименьших квадратов LMS (least mean-square algorithm), который применялся для построения адаптивных линейных элементов Adaline. Различие между персептроном и моделью Adaline состоит в процедуре обучения. Одной из самых первых обучаемых многослойных нейронных сетей, содержащей многочисленные адаптивные элементы, была структура Madaline (multiply-adaline), предложенная Видроу и его студентами. В 1967 году для адаптивной классификации образов был использован стохастический градиентный метод. В 1965 году вышла в свет книга Нильсона «Learning Machines» (Обучаемые системы) [Nilson], в которой очень хорошо освещен вопрос линейной разделимости образов с помощью гиперповерхностей. В 1960-е годы (в период господства персептрона) казалось, что нейронные сети позволяют решить практически любую задачу. Однако в 1969 году вышла книга Минского и Пейперта, в которой математически строго обоснованы фундаментальные ограничения однослойного персептрона. В небольшом разделе, посвященном многослойным персептронам, утверждалось, что ограничения однослойных персептронов вряд ли удастся преодолеть в их многослойных версиях. Важной задачей, возникающей при конструировании многослойного персептрона, была названа проблема присваивания коэффициентов доверия (т.е. проблема назначения коэффициентов доверия скрытым нейронам сети). Термин присваивание коэффициентов доверия впервые использовал Минский в 1961 году. К концу 1960-х уже были сформулированы многие идеи и концепции, необходимые для решения проблемы присваивания коэффициентов доверия для персептрона. Было также разработано множество идей, положенных впоследствии в основу рекуррентных сетей, которые получили название сетей Хопфилда. Однако решения этих важных проблем пришлось ожидать до 1980-х годов. Для такого длительного ожидания существовали объективные причины.
· Одна из причин носила технологический характер: для проведения экспериментов не существовало персональных компьютеров или рабочих станций. Например, когда Габор создавал свой нелинейный обучаемый фильтр, ему и его команде потребовалось 6 лет для того, чтобы создать этот фильтр на аналоговых устройствах
· Другая причина была отчасти психологической, отчасти финансовой. Монография Минского оттолкнула ученых от работ в этом направлении, а научные фонды и агентства перестали обеспечивать его финансовую поддержку.
· Аналогия между нейронными сетями и пространственными решетками была несовершенной. Более точная модель была создана только в 1975 году.
Эти и другие причины способствовали ослаблению интереса к нейронным сетям в 1970-х годах. Многие исследователи (не принимая во внимание нейробиологов и психологов) покинули это поле деятельности на 10 лет. Только некоторые этого направления поддерживала жизнь науки о нейронных сетях. С технологической точки зрения 1970-е годы можно рассматривать как годы застоя.
В 1970-х годах развернулась деятельность в области карт самоорганизации, основанных на конкурентном принципе обучения. Принцип самоорганизации впервые был проиллюстрирован с помощью компьютерного моделирования в 1973 году Мальсбургом [Malsburg]. В 1976 году была опубликована работа, посвященная картам самоорганизации, отражающим топологически упорядоченную структуру мозга – Willshaw, von der Malsburg «How patterned neural connections can be set up by self-organization» [Willshaw 1976].
В 1980-х годах главный вклад в теорию и конструкцию нейронных сетей был внесен на нескольких фронтах. Этот период был отмечен возобновлением интереса к данному научному направлению.
Гроссберг, ранние работы которого посвящались принципу конкурентного обучения, в 1980 году открыл новый принцип самоорганизации, получивший название теории адаптивного резонанса. В основе этой теории лежит использование слоя распознавания "снизу вверх" и слоя генерации "сверху вниз". Если входной и изученный образы совпадают, возникает состояние, называемое адаптивный резонансом (т.е. усилением и продлением нейронной активности). Этот принцип прямой и обратной проекции был впоследствии снова открыт другими учеными, пришедшими к нему совершенно другим путем.
В 1982 году Хопфилд использовал функцию энергии для описания нового уровня понимания вычислений, выполняемых рекуррентными сетями с симметричными синаптическими связями. Кроме того, он установил изоморфизм между рекуррентной сетью и изинговскои моделью, используемой в статистической физике. Эта аналогия открыла шлюз для притока результатов физической теории (и самих физиков) в нейронное моделирование, трансформировав, таким образом, область нейронных сетей. В 1980-х годах нейронным сетям с обратной связью уделялось большое внимание, и со временем они стали называться сетями Хопфилда. Хотя сети Хопфилда нельзя считать реалистичными моделями нейробиологических систем, в них заложен принцип хранения информации в динамически устойчивых системах. Истоки этого принципа можно найти в более ранних работах других исследователей.
· Крэг и Темперли в 1954-1955 годах сделали следующее наблюдение: подобно тому, как нейроны могут быть активизированы или приведены в состояние покоя, атомы пространственной решетки могут иметь спины, направленные вверх и вниз.
· В 1967 году Кован ввел "сигмоидальную" характеристику и гладкую функцию активации для нейронов.
· Гроссберг в 1967-1968 годах представил аддитивную модель нейрона, включающую нелинейные разностно-дифференциальные уравнения, и исследовал возможность использования этой модели в качестве основы кратковременной памяти.
· Амари в 1972 году независимо от других разработал адаптивную модель нейрона и использовал ее для изучения динамического поведения нейроноподобных элементов, связанных случайным образом.
· Вильсон и Кован в 1972 году бывели системы нелинейных дифференциальных уравнений для описания динамики пространственно-локализованных популяций, содержащих как возбуждающие, так и тормозящие модели нейронов.
· В 1975 году была предложена вероятностная модель нейрона, которая использовалась для разработки теории кратковременной памяти.
· В 1977 году была описана нейросетевая модель, состоящая из простой ассоциативной сети, связанной с нелинейными динамическими элементами.
Неудивительно, что работа Хопфилда вызвала лавину дискуссий [Hopfield]. Тем не менее принцип хранения информации в динамически устойчивых сетях впервые принял явную форму. Более того, Хопфилд показал, что симметричные синаптические связи гарантируют сходимость к устойчивому состоянию. В 1983 году выведен общий принцип устойчивости ассоциативной памяти, включающий в качестве частного случая непрерывную версию сети Хопфилда. Отличительной характеристикой аттракторной нейронной сети является вкючение времени в нелинейную динамику сети как важного измерения обучения. В этом контексте теорема Кохена-Гроссберга приобрела особую важность.
Еще одной интересной работой 1982 года стала публикация Кохонена, посвя щенная самоорганизующимся картам, использующим одно- или двухмерную структуру пространственной решетки [Kohonen 1982]. Модель Кохонена получила более активную поддержку и стала своеобразной точкой отсчета для других инноваций в этой области.
В 1983 описана новая процедура, получившая название моделирование отжига, позволяющая решать задачи комбинаторной оптимизации. Имитация отжига уходит орнями в статистическую механику и основана на простейшей идее, впервые использованной в компьютерном моделировании. Идея имитации отжига позднее использовалась при создании стохастической машины Больцмана. Это была первая успешная реализация многослойной нейронной сети. Хотя алогитм обучения машины Больцмана не обеспечивает такой эффективности, как алгоритм обратного распространения, он разрушил психологический барьер, показав, что теория Минского и Пейперта была некорректно обоснована. Машина Больцманатакже заложила фундамент для последующей разработки сигмоидальных сетей доверия которые существенно улучшали процесс обучения и обеспечивали связь нейронных сетей с сетями доверия.
В 1983 году была опубликована работа, посвященная обучению с подкреплением. Хотя обучение с подкреплением использовалось и до этого (например, в кандидатской диссертации Минского в 1954 году), эта работа вызвала большой интерес к обучению с подкреплением и его применению в задачах управления. В частности, в этой работе было продемонстрировано, что при использовании обучения с подкреплением можно обеспечить балансировку перевернутого маятника (т.е. шеста, установленного на подвижной платформе) при отсутствии учителя. Системе нужно знать только угол наклона шеста относительно вертикали и момент достижения платформой крайней точки области движения. В 1996 году вышла в свет книга, в которой описывались математические основы обучения с подкреплением, связанные с принципом динамического программирования Беллмана.
В 1984 году вышла в свет книга, в которой обосновывается принцип целенаправленного самоорганизующегося выполнения, состоящий в том, что понимания сложного процесса легче всего достичь путем синтеза элементарных механизмов, а не анализа "сверху вниз" [Braitenberg]. Брайтенберг иллюстрирует этот важный принцип описанием различных систем с простой внутренней архитектурой. Свойства этих систем и их поведение определяются результатами исследования мозга животных.
Алгоритм обратного распространения стал самым популярным для обучения многослойных персептронов. После открытия алгоритма обратного распространения в середине 1980-х годов оказалось, что он был уже описан ранее в кандидатской диссертации Вербоса в 1974 году в Гарвардском университете. Эта диссертация стала самым первым документированным описанием градиентного метода оптимизации, применяемого к общим моделям сетей, и как частный случай - к моделям нейронных сетей.
В 1988 году Линскер описал новый принцип самоорганизации в перцепционной сети [Linsker]. Этот принцип обеспечивал сохранность максимального количества информации о входных образах за счет ограничений, накладываемых на синаптические связи и динамический диапазон синапса. Аналогичные результаты были получены и несколькими другими исследователями системы зрения независимо друг от друга. Однако лишь концепция Линскера базировалась на теории информации, созданной Шенноном в 1948 году. На ее основе Линскер сформулировал принцип максимума взаимной информации. Его работа открыла двери применению теории информации в нейронных сетях. В частности, применение теории информации к задаче слепого разделения источников послужило примером для применения других информационно-теоретических моделей к решению широкого класса задач так называемого слепого обращения свертки.
В том же 1988 году Брумхед и Лове описали процедуру построения многослойной сети прямого распространения на базе радиальных базисных функций, которая стала альтернативой многослойному персептрону. Положенная в основу такой сети идея радиальных базисных функций уходит корнями к методу потенциальных функций. В 1990 году теория сетей на основе радиальных базисных функций получила дальнейшее развитие за счет применения к ней теории регуляризации Тихонова.
В 1989 году вышла книга, в которой описывалось множество различных концепций, заимствованных из нейробиологии и технологии VLSI [Mead].
В начале 1990-х Вапник и его коллеги выделили мощный с вычислительной точки зрения класс сетей, обучаемых с учителем, получивший название машины опорных векторов. Такие сети позволяют решать задачи распознавания образов, регрессии и оценки плотности. Этот новый метод основан на результатах теории обучения на основе выборки конечного размера. Работа систем опорных векторов основана на использовании VC-измерения (измерения Вапника-Червоненкиса), которое позволяет вычислять емкость нейронной сети, обучаемой на множестве примеров.
В настоящее время хорошо известно, что хаос является ключевым аспектом многих физических явлений. Возникает вопрос: играет ли хаос столь же важную роль в обучении нейронных сетей? В биологическом контексте ответ на этот вопрос является положительным. По мнению некоторых исследователей, образы нейронной активности не привносятся в мозг извне, а содержатся в нем самом. В частности, хаотическая динамика представляет базис для описания условий, необходимых для проявления свойства эмерджентности в процессе самоорганизации популяций нейронов.
За период, прошедший с момента публикации статьи Мак-Каллока и Питца, нейронные сети прошли долгий и тернистый путь. Теория нейронных сетей стала междисциплинарной областью исследований, тесно связанной с нейробиологией, математикой, психологией, физикой и инженерией.

IT Notes

среда, 4 августа 2010 г.

Мягкие вычисления – Часть 3

Комментариев нет:

Отправить комментарий

среда, 4 августа 2010 г.

Мягкие вычисления – Часть 3

Комментариев нет:

Отправить комментарий

среда, 4 августа 2010 г.