• Токены
• Лемматизация, лексемы
• Термины
• Корпус документов
• Статистика
• Стемминг
• Словари (составление, использование)
• Генерация текстов
• Автоматический перевод
• Цепи Маркова
• Определение уникальности текста
• Расстояние между словами
• K-граммы
• Шинглы
• Пассажи
• Опечатки
• Аббревиатуры
Содержание урока:
10:07 I Задачи поисковой системы
11:58 I Индексация текста документа
12:30 I Токен
15:38 I Лексема
23:45 I Словоформа
25:33 I Лемма
28:58 I Термин
51:59 I Отличие индексов
58:06 I Лексион
01:07:38 I Трудности возникающие у поисковых систем
01:20:01 I Стемминг
01:22:16 I Лемматизация
01:24:23 I Тематические словари
01:35:36 I Классификация запросов
01:38:28 I Маркеры
01:39:38 I Как создаются словари
01:40:44 I Цитатные запросы
01:47:21 I Вес слова
01:48:22 I Качество текста
01:49:15 I Синонимайзер
01:51:25 I Синонимайзинг
01:52:19 I N-граммы
01:52:59 I Биграммы
01:53:09 I Триграммы
01:55:21 I Генераторы текста
01:57:45 I Автопереводчики
01:57:57 I Рерайтинг
01:59:32 I Цепи Маркова
02:02:18 I Методы противодействия
02:08:14 I Шингл
02:16:20 I Пассаж