Как пользоваться
1. Выберите текст. Нажмите НАЧАТЬ.
2. Кнопка станет СЛЕДУЮЩИЙ ШАГ. Нажмите её, чтобы заполнить шаг 2: Обработка текста (стоп-слова удалены, предложения и словарь с цветами кластеров красный/синий).
3. Нажмите СЛЕДУЮЩИЙ ШАГ, чтобы заполнить шаг 3: Учебные пары в двух столбцах (красные слева, синие справа). Машина не видит эти цвета!
4. Нажмите СЛЕДУЮЩИЙ ШАГ, чтобы увидеть начальное (случайное) представление.
5. Нажмите СЛЕДУЮЩИЙ ШАГ, чтобы запустить итерации и увидеть улучшенное представление. Кнопка станет ПРОДОЛЖАТЬ.
6. Флажок Плавно (включён по умолчанию): при включении итерации идут непрерывно до достижения количества эпох; при выключении каждый клик выполняет K итераций один раз.
7. Итераций на обновление K (по умолчанию 10): сколько эпох выполняется перед каждым обновлением экрана. Эпохи (по умолчанию 3000): общее целевое число итераций. Счётчик в шаге 4 показывает прогресс.
8. Сброс останавливает процесс и очищает всё.
Как ввести свой текст
Выберите один из готовых вариантов A–G — или введите свой текст в поле под кнопками. Предложения разделяйте точкой. После ввода нажмите НАЧАТЬ.
Попробуй дать вот такое задание ИИ:
придумай 5 вариантов текста по шесть коротких предложений.
Три на одну тему и три на другую. Например,
А) "Рыба плавает глубоко в воде.
Дно океана очень глубоко.
Рыба плавает в темноте.
Птицы улетели в небо.
Птицы летают очень высоко.
В солнечный день небо чистое."
Б) "Куда уходит детство.
Как молоды мы были.
Идут года а мы всё молоды.
Нынче мода не та.
Красиво одеваться не запретишь.
Ты одет не по сезону."
Сделай Сброс. Удали текст и введи свой. Потом нажимай НАЧАТЬ, СЛЕДУЮЩИЙ ШАГ и т.д.
Обзор
Модель Skip-gram (Mikolov et al., 2013) обучает векторные представления слов, предсказывая контекстные слова по центральному. Слова, встречающиеся в схожем контексте, получают похожие представления.
Обозначения
При заданном словаре V, размере окна c (например, 2) формируются учебные пары (w_центр, w_контекст). W₀ — матрица |V|×2: каждая строка — 2D-представление слова.
Упрощённая модель (одна матрица)
Используется W₁ = W₀ᵀ. Вероятность контекста y при центре x:
P(w_контекст|w_центр) = exp(x·y') / Σ exp(x·y'_v)
Максимизируется среднее логарифмическое правдоподобие по всем учебным парам.
Кластеры
Слова из первой половины предложений показаны красным; из второй половины — синим. После обучения связанные слова (рыба, плавает, воде) и (птицы, небо, летают) должны сгруппироваться.
Замечание: при повторе эксперимента с тем же текстом разделение происходит, но не идентичное.
Литература
Mikolov et al. (2013.09) · Mikolov et al. (2013.10)