Создание датасета
Чем лучше бот понимает пользователей, тем лучше он будет справляться со своими задачами. Поэтому важно обучить его на наборе данных, похожих на те, с которыми бот столкнется при реальном общении.
JAICP предоставляет инструменты, с помощью которых вы можете создать датасет для обучения бота из интерфейса платформы:
Разметка логов
Обработка «сырых» логов, чтобы выделить в них потенциальные интенты и их наполнение
Дообучение интентов
Пополнение интентов фразами из предыдущих диалогов с ботом
Чтобы перейти к созданию датасета:
Перейдите в проект и на панели управления нажмите CAILA → Разметка логов.
Выберите подходящий для вас инструмент — разметку логов или дообучение интентов.
подсказкаИспользуйте разметку логов, если у вас есть собственные данные для обучения. Дообучение интентов будет полезно, когда бот уже какое-то время проработал и накопил данные о диалогах.В зависимости от того, что вы выбрали, загрузите файл с данными или нажмите Импортировать из аналитики. Теперь вы можете приступать к работе над датасетом.
подсказкаВ статье Как обучать интенты собраны практические рекомендации по наполнению классификаторов CAILA. Учитывайте их при работе над датасетом.
Если вы уже пользовались разметкой логов или дообучением в этом проекте, но теперь хотите обработать новый датасет, после перехода в CAILA → Разметка логов нажмите Новый набор фраз.