Исследователи предложили этап предобработки для больших языковых моделей (LLM). Этот этап даёт моделям более короткий и разнообразный вход перед созданием резюме.
Сначала программу очищают: сохраняют существительные, глаголы и прилагательные и объединяют многословные термины. Затем каждое предложение переводят в числовой вектор с лексическими и тематическими признаками. После этого применяется «стайное» поведение: похожие предложения группируют в кластеры и из каждой группы отбирают лучшие фразы. Отобранные предложения перестраивают в порядок и передают модели для синтеза итогового резюме.
Сложные слова
- предобработка — действия с текстом перед основной задачейпредобработки
- существительное — слово, которое обозначает предмет или человекасуществительные
- прилагательное — слово, которое описывает качество предметаприлагательные
- вектор — числа, которые представляют текст в модели
- кластер — группа похожих предложений или элементовкластеры
- группировать — собирать в группы по общему признакугруппируют
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- Какие слова вы бы сохраняли при очистке текста для резюме?
- Почему, по вашему мнению, полезно группировать похожие предложения?
Похожие статьи
Анализ соцсетей как раннее предупреждение о перемещениях людей
Учёные показали, что сообщения в социальных сетях могут давать ранние сигналы о перемещениях людей во время конфликтов и бедствий. Исследование в EPJ Data Science анализирует почти 2 миллиона публикаций и три случая перемещений.