среда, 4 августа 2010 г.

Мягкие вычисления – Часть 3

В 1950-х годах Тейлор инициировал работы по исследованию ассоци­ативной памяти, а в 1961 году Стейнбах(Steinbuch) разработал матрицу обучения, состоящую из плоской сети переклю­чателей, объединявшей массивы сенсорных рецепторов и моторных исполнительных механизмов. В 1969 году была опубликована хорошая работа по неголографической ассоциативной памяти – Willshaw, Buneman, Longuet-Higgins, «Non-holographic associative memory» [Willshaw 1969]. В ней представлены две модели: простая оптическая модель корреляционной памяти и нейросетевая модель, реализованная в виде оптической памяти. Среди других работ, которые внесли заметный вклад в ран­нее развитие ассоциативной памяти, следует отметить Anderson J.A. «A simple neural network generating an interactive memory» [Anderson 1972], Kohonen T. «Correlation matrix memories» [Kohonen 580], Nakano K. «Association – a model of associative memory» [Nakano], в которых независимо друг от друга в одном и том же году описана идея памяти на основе матрицы корреляции, которая строится на обучении по правилу внешнего произведения (outer product learning).
Одной из самых известных фигур в науке первой половины XX века был фон Нейман. Архитектура фон Неймана является основой для создания цифровых компьютеров, названных в его честь. В 1955 году он был приглашен в Йельский университет, где в 1956 году прочитал курс лекций Silliman Lectures. Он умер в 1957 году, и его незаконченная работа, написанная на основе этих лекций, была позднее опубликована в виде отдельной книги. Из этой книги ясно, как много мог бы сделать фон Нейман, если бы остался жив, поскольку он начал осознавать принципиальное отличие мозга от компьютера.
Предметом отдельного исследования в контексте нейронных сетей является со­здание надежных сетей из нейронов, которые сами по себе считаются ненадежными компонентами. Эта задача была решена в 1956 году фон Нейманом с помощью идеи избыточности, которая была предложена Виноградом и Кованом в под­держку использования распределенного избыточного представления в нейронных сетях. Эти авторы показали, как большая группа элементов может в совокупности представлять одно понятие при соответствующем повышении надежности и степени параллелизма.
Через 15 лет после выхода классической работы Мак-Каллока и Питца Розенблатт предложил новый подход к задаче распознавания образов, основанный на использовании персептрона и нового метода обучения с учителем. Главным достижением этой работы была так называемая теорема сходимости персептро­на, первое доказательство которой было получено Розенблаттом в 1960 году. Другие доказательства этой теоремы были пред­ложены Новиковым и другими учеными. В 1960 году был описан алгоритм наименьших квадратов LMS (least mean-square algorithm), который применялся для построения адаптивных линейных элементов Adaline. Различие между персептроном и моделью Adaline состоит в процедуре обучения. Одной из самых первых обучаемых многослойных нейронных сетей, содержащей многочисленные адаптив­ные элементы, была структура Madaline (multiply-adaline), предложенная Видроу и его студентами. В 1967 году для адаптивной классификации образов был ис­пользован стохастический градиентный метод. В 1965 году вышла в свет книга Нильсона «Learning Machines» (Обучаемые системы) [Nilson], в которой очень хорошо освещен вопрос линейной разделимости образов с помо­щью гиперповерхностей. В 1960-е годы (в период господства персептрона) каза­лось, что нейронные сети позволяют решить практически любую задачу. Однако в 1969 году вышла книга Минского и Пейперта, в которой математически строго обоснованы фундаментальные ограничения однослойного персептрона. В небольшом разделе, посвященном многослойным персептронам, утверждалось, что ограничения однослойных персептронов вряд ли удастся преодолеть в их многослойных версиях. Важной задачей, возникающей при конструировании многослойного персептрона, была названа проблема присваивания коэффициентов доверия (т.е. проблема назначения коэффициентов доверия скрытым нейронам сети). Тер­мин присваивание коэффициентов доверия впервые использовал Минский в 1961 году. К концу 1960-х уже были сформулированы многие идеи и концепции, необходи­мые для решения проблемы присваивания коэффициентов доверия для персептрона. Было также разработано множество идей, положенных впоследствии в основу ре­куррентных сетей, которые получили название сетей Хопфилда. Однако решения этих важных проблем пришлось ожидать до 1980-х годов. Для такого длительного ожидания существовали объективные причины.
· Одна из причин носила технологический характер: для проведения экспериментов не существовало персональных компьютеров или рабочих станций. Например, ко­гда Габор создавал свой нелинейный обучаемый фильтр, ему и его команде потребовалось 6 лет для того, чтобы создать этот фильтр на аналоговых устройствах
· Другая причина была отчасти психологической, отчасти финансовой. Моногра­фия Минского оттолкнула ученых от работ в этом направлении, а научные фонды и агентства перестали обеспечивать его финансовую поддержку.
· Аналогия между нейронными сетями и пространственными решетками была несовершенной. Более точная модель была создана только в 1975 году.
Эти и другие причины способствовали ослаблению интереса к нейронным сетям в 1970-х годах. Многие исследователи (не принимая во внимание нейробиологов и психологов) покинули это поле деятельности на 10 лет. Только некоторые этого направления поддерживала жизнь науки о нейронных сетях. С технологической точки зрения 1970-е годы можно рассматривать как годы застоя.
В 1970-х годах развернулась деятельность в области карт самоорганизации, основанных на конкурентном принципе обучения. Принцип самоорганизации впервые был проиллюстрирован с помощью компью­терного моделирования в 1973 году Мальсбургом [Malsburg]. В 1976 году была опубликована работа, посвященная картам самоорганизации, отражающим топологически упорядоченную структуру мозга – Willshaw, von der Malsburg «How patterned neural connections can be set up by self-organization» [Willshaw 1976].
В 1980-х годах главный вклад в теорию и конструкцию нейронных сетей был внесен на нескольких фронтах. Этот период был отмечен возобновлением интереса к данному научному направлению.
Гроссберг, ранние работы которого посвящались принципу конкурент­ного обучения, в 1980 году открыл новый принцип самоорганизации, по­лучивший название теории адаптивного резонанса. В основе этой теории лежит использование слоя распознавания "снизу вверх" и слоя генерации "сверху вниз". Если входной и изученный образы совпадают, воз­никает состояние, называемое адаптивный резонансом (т.е. усилением и продлени­ем нейронной активности). Этот принцип прямой и обратной проекции был впоследствии снова открыт другими учеными, при­шедшими к нему совершенно другим путем.
В 1982 году Хопфилд использовал функцию энергии для описания нового уров­ня понимания вычислений, выполняемых рекуррентными сетями с симметричными синаптическими связями. Кроме того, он установил изоморфизм между рекур­рентной сетью и изинговскои моделью, используемой в статистической физике. Эта аналогия открыла шлюз для притока результатов физической теории (и самих физиков) в нейронное моделирование, трансформировав, таким образом, область нейронных сетей. В 1980-х годах нейронным сетям с обратной связью уде­лялось большое внимание, и со временем они стали называться сетями Хопфилда. Хотя сети Хопфилда нельзя считать реалистичными моделями нейробиологических систем, в них заложен принцип хранения информации в дина­мически устойчивых системах. Истоки этого принципа можно найти в более ранних работах других исследователей.
· Крэг и Темперли в 1954-1955 годах сделали следующее наблюдение: подобно тому, как нейроны могут быть активизированы или приведены в состо­яние покоя, атомы пространственной решетки могут иметь спины, направленные вверх и вниз.
· В 1967 году Кован ввел "сигмоидальную" характеристику и гладкую функцию активации для нейронов.
· Гроссберг в 1967-1968 годах представил аддитивную модель ней­рона, включающую нелинейные разностно-дифференциальные уравнения, и ис­следовал возможность использования этой модели в качестве основы кратковре­менной памяти.
· Амари в 1972 году независимо от других разработал адаптивную модель ней­рона и использовал ее для изучения динамического поведения нейроноподобных элементов, связанных случайным образом.
· Вильсон и Кован в 1972 году бывели системы нелинейных дифференциальных уравнений для описания динамики пространственно-локализованных популяций, содержащих как возбуждающие, так и тормозящие модели нейронов.
· В 1975 году была предложена вероятностная модель нейрона, которая использовалась для разработки теории кратковременной памяти.
· В 1977 году была описана нейросетевая модель, состоящая из простой ассоциа­тивной сети, связанной с нелинейными динамическими элементами.
Неудивительно, что работа Хопфилда вызвала лавину дискуссий [Hopfield]. Тем не ме­нее принцип хранения информации в динамически устойчивых сетях впервые принял явную форму. Более того, Хопфилд показал, что симметричные синаптические связи гарантируют сходимость к устойчивому состоянию. В 1983 году выведен общий принцип устойчивости ассоциативной памяти, включающий в качестве частного случая непрерывную версию сети Хопфилда. Отличительной характеристикой аттракторной нейронной сети является вкючение времени в нелинейную динамику сети как важного измерения обучения. В этом контексте теорема Кохена-Гроссберга приобрела особую важность.
Еще одной интересной работой 1982 года стала публикация Кохонена, посвя щенная самоорганизующимся картам, использующим одно- или двухмерную структуру пространственной решетки [Kohonen 1982]. Модель Кохонена получила более активную поддержку и стала своеобразной точкой отсчета для других инноваций в этой области.
В 1983 описана новая процедура, получившая название моделирование отжига, позволяющая решать задачи комбинаторной оптимизации. Имитация отжига уходит орнями в статистическую механику и основана на простейшей идее, впервые использованной в компьютерном моделировании. Идея имитации отжига позднее использовалась при создании стохастической машины Больцмана. Это была первая успешная реализация многослойной нейронной сети. Хотя алогитм обучения машины Больцмана не обеспечивает такой эффективности, как алгоритм обратного распространения, он разрушил психологический барьер, показав, что теория Минского и Пейперта была некорректно обоснована. Машина Больцманатакже заложила фундамент для последующей разработки сигмоидальных сетей доверия которые существенно улучшали процесс обучения и обеспечивали связь ней­ронных сетей с сетями доверия.
В 1983 году была опубликована работа, посвященная обучению с подкреплением. Хотя обучение с подкреплением использовалось и до этого (например, в кандидатской диссертации Минского в 1954 году), эта работа вы­звала большой интерес к обучению с подкреплением и его применению в задачах управления. В частности, в этой работе было продемонстрировано, что при исполь­зовании обучения с подкреплением можно обеспечить балансировку перевернутого маятника (т.е. шеста, установленного на подвижной платформе) при отсутствии учи­теля. Системе нужно знать только угол наклона шеста относительно вертикали и мо­мент достижения платформой крайней точки области движения. В 1996 году вышла в свет книга, в которой описывались математические основы обучения с подкрепле­нием, связанные с принципом динамического программирования Беллмана.
В 1984 году вышла в свет книга, в которой обосновывается принцип целенаправ­ленного самоорганизующегося выполнения, состоящий в том, что понимания сложного процесса легче всего достичь путем син­теза элементарных механизмов, а не анализа "сверху вниз" [Braitenberg]. Брайтенберг иллюстрирует этот важный принцип описанием различных систем с простой внутренней архитектурой. Свойства этих систем и их поведение определяются результатами исследования мозга животных.
Алгоритм обратного распространения стал самым популярным для обучения многослойных персептронов. После открытия алго­ритма обратного распространения в середине 1980-х годов оказалось, что он был уже описан ранее в кандидатской диссертации Вербоса в 1974 году в Гарвард­ском университете. Эта диссертация стала самым первым документированным описа­нием градиентного метода оптимизации, применяемого к общим моделям сетей, и как частный случай - к моделям нейронных сетей.
В 1988 году Линскер описал новый принцип самоорганизации в перцепционной сети [Linsker]. Этот принцип обеспечивал сохранность максимального количества ин­формации о входных образах за счет ограничений, накладываемых на синаптические связи и динамический диапазон синапса. Аналогичные результаты были получены и несколькими другими исследователями системы зрения независимо друг от друга. Однако лишь концепция Линскера базировалась на теории информации, созданной Шенноном в 1948 году. На ее основе Линскер сформулировал принцип максиму­ма взаимной информации. Его работа открыла двери применению теории информации в нейронных сетях. В частности, применение теории информации к задаче слепого разделения источников послужило примером для применения других информационно-теоретических моделей к решению широкого класса задач так называемого слепого обращения свертки.
В том же 1988 году Брумхед и Лове описали процедуру построения многослойной сети прямого распространения на базе радиальных базисных функций, которая стала альтернативой многослойному персептрону. Положен­ная в основу такой сети идея радиальных базисных функций уходит корнями к методу потенциальных функций. В 1990 году теория сетей на основе радиальных базисных функций получила дальнейшее развитие за счет применения к ней теории регуляризации Тихонова.
В 1989 году вышла книга, в которой описывалось множество различных кон­цепций, заимствованных из нейробиологии и технологии VLSI [Mead].
В начале 1990-х Вапник и его коллеги выделили мощный с вычислитель­ной точки зрения класс сетей, обучаемых с учителем, получивший название машины опорных векторов. Такие сети позволяют решать задачи рас­познавания образов, регрессии и оценки плотности. Этот новый метод основан на результатах теории обучения на основе выборки конечного размера. Работа систем опорных векторов основана на использовании VC-измерения (измерения Вапника-Червоненкиса), которое позволяет вычислять емкость нейронной сети, обучаемой на множестве примеров.
В настоящее время хорошо известно, что хаос является ключевым аспек­том многих физических явлений. Возникает вопрос: играет ли хаос столь же важную роль в обучении нейронных сетей? В биологическом контексте ответ на этот вопрос является положительным. По мнению некоторых исследователей, образы нейронной активности не привносятся в мозг извне, а содержатся в нем са­мом. В частности, хаотическая динамика представляет базис для описания условий, необходимых для проявления свойства эмерджентности в процессе самоорганизации популяций нейронов.
За период, прошедший с момента публикации статьи Мак-Каллока и Питца, нейронные сети прошли долгий и тернистый путь. Теория нейронных сетей стала междисциплинарной областью исследований, тесно связанной с нейробиологией, математикой, психологией, физикой и инженерией.

Комментариев нет:

Отправить комментарий