Проблема обработки длинных видео-субтитров при создании таймкодов

Исходная задача - автоматическое создание тематических таймкодов на основе транскрипции в формате SRT объемом до 30 000 слов. Для этого используется специальный промпт, который должен:

  • Разделить весь текст на 7-8 основных логических тем
  • Указать время начала каждой темы из субтитров
  • Сформировать список таймкодов в строгом формате

Промпт содержит четкие требования: использовать только данные из транскрипции, не добавлять вымышленную информацию, объединять близкие по смыслу части и строго соблюдать временные границы видео.

Выявленная проблема

На видео продолжительностью 1-2 часа система работает корректно. Однако при обработке 4-часовых субтитров (примерно 30 000 слов) возникает систематическая ошибка: модель обрабатывает только 2-3 часа контента, после чего ведет себя так, будто видео закончилось. При этом никаких сообщений об ошибках не выводится.

Предполагаемые причины

Основная гипотеза - ограничение длины контекста модели. Даже при использовании следующих подходов проблема не решается полностью:

  • Разделение на части (чанки): каждый фрагмент обрабатывается изолированно, без понимания общего контекста видео, что приводит к расплывчатым и неточным формулировкам тем
  • Система пересказа между чанками: попытка передавать сводку уже обработанного контекста между частями не дала значительного улучшения качества анализа

Требуется найти решение, которое позволит модели сохранять понимание общей структуры и смысла всего видео при обработке объемных транскрипций.