/sf/ - Отрицательной энтропии тред.

А почему бы, собственно, и нет? Ну или как его ещё назвать? Тред криптоэпистемологии? Квантовой герменевтики? Экзистенциальной онтологии? Наверно "криптоэпистемология" была бы ближе всего, но сам термин слишком далёк от "объяснения на пальцах", чтобы годиться для названия.
________________________________

Периодически пытался поднимать вопросы формализации теории познания, но что-то обсуждение всё никак не завязывалось, а посему вот отдельный тред.
________________________________

Чем вообще обычно занимается гипотетический разум? Обычно он принимает какие-то решения о каких-то действиях. При этом разум ставит какую-то цель, которая по его прогнозу должна быть близка к резжультату, который ещё только предстоит получить. То есть разум симулирует РЕТРОПРИЧИННОСТЬ, имитируя замыкание причинно-следственных связей в кольцо, в котором цель и результат связываны через этот самый разум.

А раз самопроизвольное течение процессов от причин к следствиям в замкнутой системе идёт в сторону неубывания энтропии, значит протекающая через разум часть обратного процесса должна идти с (как минимум мнимым) НЕВОЗРАСТАНИЕМ энтропии. Иными словами она должна содержать какой-то логический анализ, отсеивающий избыток энтропии, как шумы, и оставляющий какие-то закономерности - а именно этим по существу и является ОБУЧЕНИЕ.
________________________________

Но разум опирается на информацию, которая что из себя представляет? Что-то относительно содержательное, но в остальном очень сильно зависящее от формы - по крайней мере в бытовом понимании.

В не совсем бытовом понимании есть такая штука как Колмогоровская сложность, предлагающая сравнивать объёмы "сути" фрагмента информации по минимальной длине программы, которая способна его сгенерировать. Вот только эта самая генерация упирается в вопрос языка, на котором пишется эта самая программа, и спектра его возможностей. По умолчанию подразумевается некий абстрактный язык, на котором можно описать генерацию двух сравниваемых фрагментов и который при этом не перекошен в сторону оптимизации под один из этих фрагментов, потому как на перекошенном языке описание профильной информации всегда будет короче. То есть фактически "идеальный язык" выступает некоторой абстракцией, потому что для любых двух фрагментов информации можно сделать синтетический язык, где они будут расшифровками первого и второго слов языка, обладающих самой минимальной длиной. Естественно, описывать что-то другое на таком языке будет неудобно.

Есть довольно близкая концепция Шенноновской информации, где "содержательной информацией" считается та, которую получателю сложно спрогнозировать и экстраполировать/интерполировать самому. То есть, если информация является выборкой значений функции, знание функции и способа получения выборки приближает предсказуемость к 100%, независимо от того, линейная там функция, полиномиальная, тригонометрическая или вообще так называемая односторонняя. Получается, что с одной стороны при введении взятой с потолка функции, дающей конкретный наперёд заданный вывод, вся информация сводится к имени функции и описанию выборки, по которым можно получить зашифрованный фрагмент. В то же время, если функция аналитически относительно тривиально, но неизвестна получателю информации, для него информация будет очень "неожиданна", пока он не увидит в ней закономерность.

И вот тут вот мы отходим от абстрактных языков и подходим к вопросам криптографии и сжатия данных, где на всё то же самое смотрят под другим углом. В быту под криптографией обычно понимается "обфускация" данных, но фактически она занимается их "перекодированием", а обфускация возникает уже от деталей механизма перекодирования, подразумевающих подмешивание дополнительной энтропии, усложняющей обнаружение закономерностей. Сжатие же наоборот приближает информацию к "сухой выжимке", которая в бытовом понимании неудобна для восприятия исключительно из-за того, что она не содержит изначально заложенных во фрагмет информации средств упрощения его восприятия. В общем смысле и криптография, и сжатие не предлагают абсолютно универсальных языков, а наоборот предлагают вполне конечные языки, оптимизированные под описание конкретных фрагментов информации. В алгоритмах сжатия это обычно называют "словарём", в котором "слово" для описания чего-то будет тем короче, чем чаще оно употребляется и чем сложнее его полная расшифровка - это отчасти похоже на обратный алгоритм шифрования, удаляющий из сообщения (заранее добавленные туда) излишки энтропии и заменяющий их чем-то коротким, ёмким и значимым.

И вот тут вот всплывает концепция итеративной доработки языка, где слова, допустим, являются просто порядковыми номерами для описаний функций, а сами функции описывают не только конечные отрезки, но и бесконечные последовательности, а сочетания отрезков с последовательностями дают те самые конечные выборки. Естественно первыми словами в таком языке будут описания его простейших строительных элементов, то есть условных букв, но дальше начинается занимательная балансировка между экономией длины-суммы сообщения от понижения номера функции и растратой длины-суммы сообщения от повышения номеров всех остальных функций, которые ради понижения номера этой придётся пододвинуть на единичку. И вот тут вот мы приходим к алгоритмам поиска закономерностей для отсеивания энтропии, то есть к САМООБУЧАЮЩИМСЯ алгоритмам.
________________________________

Таким образом оказывается, что самообучающийся алгоритм составления оптимального языка описания чего-то должен уметь принимать РЕШЕНИЯ о внесении изменений в словарь на основании ожидаемой выгоды от упрощения описаний. При этом на вход алгоритму подаются изначально выглядящие для него беспорядочными данные, которые можно изначально принять за описание так называемой "хаотической системы".

Теория хаоса обычно рассматривает так называемые "динамические системы", где энтропия выступает только одним из компонентов. В общем случае это многосоставные колебательные контуры, где условная "энергия" перекачивается не только между парами образующих осциляторы форм, но и между парами и группами самих осциляторов, что делает поведение системы визуально апериодичным, хотя обеспечивающие это поведение механизмы остаются теми же, что и у осциляторов.

Чтобы принять решение об обновлении словаря, нужно обнаружить закономерность. В динамических системах ситуапция, когда какая-то из подстилающих закономерностей перевешивает запас энтропии в системе и заставляет её "сколлапсировать" в какое-то "вырожденное" состояние называется КАТАСТРОФОЙ, для чего в математике существует своя отдельная теория катастроф.
________________________________

Получается, что при рассмотрении информации с точки зрения динамических систем обучением является поиск "узлов", где эта самая условно замкнутая динамическая система самопроизвольно разделяется на минимум две незамкнутые, в одной из которых происходит самопроизвольное снижение энтропии. И что тут примечательнее всего, происходит оно не обязательно из-за деятельности какого-то разума - а вот мысли какого-то разума обязательно возникают из-за подобных событий, то есть фактически это основа всего мышления.

А как уже упоминалось выше, динамические системы ведут себя так из-за того, что они на сколько-то уровней "перераспределения энергии" выше простых осциляторов - на разное для разных систем. То есть вкратце разум сидит и выжимает из своего восприятия излишки беспорядка, давая им какие-то условные обозначения - а потом повторяет всё то же самое над получившимся "словарём", чтобы вычленить закономерности более высокого уровня для изучаемой динамической системы, которые являются "закономерностями закономерностей" и позволяют упорядочивать группы правил в правила более высокого порядка, которые затем могут быть добавлены в словарь достаточно близко к его началу, чтобы от этого была выгода в виде упрощения описаний.
________________________________

Где-то там уже Гёдель с Гегелем ехидно хихикают, а мы тем временем пришли к тому, что всё вышеописанное теоретически формализуемо, механизируемо и автоматизируемо.