Векторное представление слов (Skip-gram)

Интерактивная визуализация упрощённой модели (W₁ = W₀ᵀ)

Введите предложения (шаг 1). Нажмите НАЧАТЬ, когда готовы.

Шаг 1. Выберите текст

Шаг 2: Обработка текста (удаление стоп-слов и т.д.)

Шаг 3: Учебные пары

Начальное (случайное) представление

Шаг 4: Улучшенное представление (каждые K итераций) — 0 / 3000

Ход обучения

Как пользоваться

1. Выберите текст. Нажмите НАЧАТЬ.

2. Кнопка станет СЛЕДУЮЩИЙ ШАГ. Нажмите её, чтобы заполнить шаг 2: Обработка текста (стоп-слова удалены, предложения и словарь с цветами кластеров красный/синий).

3. Нажмите СЛЕДУЮЩИЙ ШАГ, чтобы заполнить шаг 3: Учебные пары в двух столбцах (красные слева, синие справа). Машина не видит эти цвета!

4. Нажмите СЛЕДУЮЩИЙ ШАГ, чтобы увидеть начальное (случайное) представление.

5. Нажмите СЛЕДУЮЩИЙ ШАГ, чтобы запустить итерации и увидеть улучшенное представление. Кнопка станет ПРОДОЛЖАТЬ.

6. Флажок Плавно (включён по умолчанию): при включении итерации идут непрерывно до достижения количества эпох; при выключении каждый клик выполняет K итераций один раз.

7. Итераций на обновление K (по умолчанию 10): сколько эпох выполняется перед каждым обновлением экрана. Эпохи (по умолчанию 3000): общее целевое число итераций. Счётчик в шаге 4 показывает прогресс.

8. Сброс останавливает процесс и очищает всё.

Как ввести свой текст

Выберите один из готовых вариантов A–G — или введите свой текст в поле под кнопками. Предложения разделяйте точкой. После ввода нажмите НАЧАТЬ.

Попробуй дать вот такое задание ИИ:

придумай 5 вариантов текста по шесть коротких предложений.
Три на одну тему и три на другую. Например,

А) "Рыба плавает глубоко в воде.
Дно океана очень глубоко.
Рыба плавает в темноте.
Птицы улетели в небо.
Птицы летают очень высоко.
В солнечный день небо чистое."

Б) "Куда уходит детство.
Как молоды мы были.
Идут года а мы всё молоды.
Нынче мода не та.
Красиво одеваться не запретишь.
Ты одет не по сезону."

Сделай Сброс. Удали текст и введи свой. Потом нажимай НАЧАТЬ, СЛЕДУЮЩИЙ ШАГ и т.д.

Обзор

Модель Skip-gram (Mikolov et al., 2013) обучает векторные представления слов, предсказывая контекстные слова по центральному. Слова, встречающиеся в схожем контексте, получают похожие представления.

Обозначения

При заданном словаре V, размере окна c (например, 2) формируются учебные пары (w_центр, w_контекст). W₀ — матрица |V|×2: каждая строка — 2D-представление слова.

Упрощённая модель (одна матрица)

Используется W₁ = W₀ᵀ. Вероятность контекста y при центре x:

P(w_контекст|w_центр) = exp(x·y') / Σ exp(x·y'_v)

Максимизируется среднее логарифмическое правдоподобие по всем учебным парам.

Кластеры

Слова из первой половины предложений показаны красным; из второй половины — синим. После обучения связанные слова (рыба, плавает, воде) и (птицы, небо, летают) должны сгруппироваться.

Замечание: при повторе эксперимента с тем же текстом разделение происходит, но не идентичное.

Литература

Mikolov et al. (2013.09) · Mikolov et al. (2013.10)