Проблема обработки длинных видео-субтитров при создании таймкодов
Исходная задача - автоматическое создание тематических таймкодов на основе транскрипции в формате SRT объемом до 30 000 слов. Для этого используется специальный промпт, который должен:
- Разделить весь текст на 7-8 основных логических тем
- Указать время начала каждой темы из субтитров
- Сформировать список таймкодов в строгом формате
Промпт содержит четкие требования: использовать только данные из транскрипции, не добавлять вымышленную информацию, объединять близкие по смыслу части и строго соблюдать временные границы видео.
Выявленная проблема
На видео продолжительностью 1-2 часа система работает корректно. Однако при обработке 4-часовых субтитров (примерно 30 000 слов) возникает систематическая ошибка: модель обрабатывает только 2-3 часа контента, после чего ведет себя так, будто видео закончилось. При этом никаких сообщений об ошибках не выводится.
Предполагаемые причины
Основная гипотеза - ограничение длины контекста модели. Даже при использовании следующих подходов проблема не решается полностью:
- Разделение на части (чанки): каждый фрагмент обрабатывается изолированно, без понимания общего контекста видео, что приводит к расплывчатым и неточным формулировкам тем
- Система пересказа между чанками: попытка передавать сводку уже обработанного контекста между частями не дала значительного улучшения качества анализа
Требуется найти решение, которое позволит модели сохранять понимание общей структуры и смысла всего видео при обработке объемных транскрипций.