Это третья часть знакомства с идеями Макса Беннета. Ранее мы уже обсуждали первые этапы развития интеллекта в этой серии статей.
Эволюционный прорыв: мозг позвоночных
Около 500 миллионов лет назад, в эпоху Кембрийского взрыва, произошёл качественный скачок в развитии жизни. Животные с мозгом стали доминировать. У членистоногих, кольчатых червей и наших предков, хордовых, независимо сформировался сложный мозг. Строение мозга хордовых уже напоминало современное: в ходе эмбрионального развития он формируется из трёх пузырьков, дающих начало переднему, среднему и ромбовидному мозгу. Передний мозг, в свою очередь, делится на подсистемы, формирующие кору, базальные ганглии, таламус и гипоталамус. Эта сложная структура, состоящая из взаимосвязанных модулей и слоёв обработки информации, есть у всех позвоночных.

Структура мозга позвоночных
Открытие обучения с подкреплением
Примерно в одно время с Павловым, Эдвард Торндайк экспериментировал с животными, помещая их в клетки-головоломки. Он обнаружил, что кошки, куры и собаки учатся методом проб и ошибок, закрепляя действия, которые ведут к успеху (например, нажатию рычага), и отказываясь от бесполезных. Этот механизм — обучение с подкреплением — оказался общим для всех позвоночных, включая рыб, и стал вторым крупным эволюционным прорывом после появления самого мозга.
Искусственный интеллект ищет решение
Первый алгоритм обучения с подкреплением, SNARC, создал пионер ИИ Марвин Мински. Его нейросеть училась проходить лабиринт, но сталкивалась с фундаментальной проблемой: если для успеха нужно совершить цепочку действий, сложно определить, какое из них было решающим (проблема распределения заслуг во времени). Усиление всех ходов подряд не работало — вариантов было слишком много.
Прорыв совершил Ричард Саттон в 1984 году, предложив метод обучения с временными разностями (TD-обучение). Его суть в том, чтобы подкреплять не действия, приведшие непосредственно к победе, а те, которые, по оценке самой системы, повышают вероятность этой победы в будущем. Это позволяет системе учиться непрерывно. Хотя критик (оценивающий компонент) и исполнитель (действующий компонент) изначально зависят друг от друга, в процессе обучения они совместно эволюционируют, принимая всё более разумные решения.
Физик Джеральд Тезауро применил метод Саттона для создания TD-Gammon — программы для игры в нарды, которая училась исключительно на собственном опыте, методом проб и ошибок, и достигла уровня мирового класса. Сегодня TD-обучение лежит в основе многих систем, от игровых ИИ до автономного вождения.
Биологический аналог: дофамин как сигнал обучения
Учёные предположили, что если TD-обучение фундаментально, его аналог должен существовать в биологии. Поиски привели к дофамину — нейромедиатору, глубоко укоренённому в мозге позвоночных. Эксперименты Вольфрама Шульца на обезьянах в 1980-х показали удивительную вещь: изначально дофамин выделяется в ответ на неожиданную награду (сладкую воду). Но в процессе обучения пик выброса дофамина смещается к моменту появления сигнала, предвещающего награду (например, картинки). Если же ожидаемая награда не поступает, активность дофаминовых нейронов резко падает.

Три сценария эксперимента Шульца
Десять лет спустя команда Питера Даяна обнаружила, что паттерны активности дофаминовых нейронов у обезьян в точности соответствуют сигналу TD-обучения у Саттона. Дофамин оказался не просто «гормоном удовольствия», а точным сигналом подкрепления, сообщающим мозгу, насколько его прогнозы о будущем вознаграждении были лучше или хуже ожиданий. Эволюция «назначила» дофамин на эту роль, сделав обучение более эффективным. Это породило знакомые нам состояния: разочарование при неполучении ожидаемого и облегчение при избегании неприятного.
Аппаратная реализация: базальные ганглии
Ключевую роль в этом процессе играют базальные ганглии — структуры, расположенные в глубине мозга. Они учатся повторять те движения и действия, которые максимизируют выброс дофамина. Базальные ганглии есть у всех позвоночных, и их повреждение (как при болезни Паркинсона) приводит к серьёзным двигательным нарушениям. Именно здесь, через сложные параллельные цепи, реализуется TD-обучение, позволяя оценивать перспективность действий.

Базальные ганглии
Распознавание образов: как мозг видит и чувствует
Мозг позвоночных также развил мощные способности к распознаванию сложных паттернов, таких как запахи, звуки и изображения. Для этого необходимы тысячи специализированных нейронов и сложные нейронные сети. В технических системах для распознавания образов используют многослойные нейросети, обучаемые методом обратного распространения ошибки: системе показывают данные и «правильный» ответ, а она постепенно корректирует внутренние связи.

Многослойный персептрон
Однако биологический мозг учится иначе — без внешнего «учителя». Например, обонятельные нейроны рыбы связаны со слоями коры её мозга. Разные запахи активируют разные ансамбли корковых нейронов. При этом связи между нейронами, срабатывающими синхронно, укрепляются. Это позволяет не просто хранить информацию по адресам, как компьютер, а восстанавливать целые образы по их фрагментам, что даёт устойчивость к частичным повреждениям, но создаёт риск «катастрофического забывания» — перезаписи старых воспоминаний новыми.
Иерархия восприятия и проблема инвариантности
Ещё одна задача — научиться узнавать один и тот же объект под разными углами или в разных условиях (инвариантность). Исследования зрительной коры кошек в 1950-х показали, что обработка идёт иерархично: от простых детекторов линий и углов в области V1 к сложным детекторам форм и даже конкретных лиц в высших областях. Вдохновлённый этим, японец Кунихико Фукусима в конце 1970-х создал свёрточную нейронную сеть (CNN), которая копировала этот принцип и успешно решала задачи распознавания. Природа, однако, устроена ещё изящнее: биологический мозг (даже рыб) справляется с инвариантностью без чёткой иерархии и без механизма обратного распространения ошибки.

Иерархическая модель обработки информации
Любопытство и построение моделей мира
Для эффективного обучения методом проб и ошибок в сложных средах (например, в видеоиграх) ИИ-системам пришлось добавить «любопытство» — внутреннее вознаграждение за исследование новых состояний. Это сработало. И здесь снова прослеживается параллель с биологией: позвоночные, в отличие от своих предков, отличаются врождённым любопытством. Неожиданные события и новизна вызывают выброс дофамина, что объясняет нашу тягу к азартным играм или бесконечному скроллингу лент соцсетей.
Но главное, что отличает позвоночных, — это способность строить внутренние модели внешнего мира. Рыба может запомнить расположение ориентиров в аквариуме, а мы — мысленно проложить маршрут в тёмной комнате. За эту способность отвечает гиппокамп (унаследованный от древних предков), где формируются «нейроны места». Повреждение гиппокампа лишает животных и людей возможности ориентироваться в пространстве. Эта внутренняя пространственная модель стала основой для следующего эволюционного прорыва — способности не просто реагировать на мир, но и активно планировать действия в нём.

Скриншот «Месть Монтесумы»
Обратите внимание: История атомной промышленности СССР. Военные против ученых.
[Мои] Рецензии на книги Книги «Эволюция» Нейронные сети Искусственный интеллект Гормоны мозга Обучение естественным наукам Наука Популярная документальная литература Длинная статья 5
Больше интересных статей здесь: Новости науки и техники.
Источник статьи: Краткая история интеллекта (3).