-
Notifications
You must be signed in to change notification settings - Fork 2
lipschitz
Обоснование липшицевости градиента
Елена Александровна просит показать, что мы применяем градиентный спуск не просто так. В статье о градиентном спуске на machinelearning.ru приведена теорема о сходимости (теорема 1): если градиент подчиняется условию Липшица, то метод непременно будет сходиться к минимуму. Нужно показать для наших моделей, что для градиента функции ошибки (функции стоимости) есть константа Липшица.
- Лемма: непрерывно дифференцируемая функция удовлетворяет условию Липшица - PDF
- градиентный спуск для перцептрона - PDF
- Multiclass Perceptron Learning. Berkeley AI. YouTube
Это усреднённое значение. Вклад одного тренировочного экземпляра
Докажем липшицевость этой функции. Её производная непрерывно дифференцируема во всём пространстве параметров. Следовательно, она удовлетворяет условию Липшица с константой ..., поэтому в качестве константы Липшица для полной функции стоимости подходит максимум ...