Анализ ошибки при запуске примера кода из документации Docling

При попытке выполнить пример кода из официальной документации библиотеки Docling возникает серия ошибок, препятствующих успешной конвертации документа.

Исходный код и контекст

Был запущен стандартный пример из документации:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())

Полученные ошибки

В процессе выполнения возникли следующие проблемы:

  • RuntimeError: filename does not exists: C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling_parse\pdf_resources_v2/glyphs//standard/additional.dat - указывает на отсутствие критического файла ресурсов.
  • ConversionError: Input document 2408.09869v5.pdf is not valid. - конвертер не может обработать документ из-за предыдущей ошибки.
  • Предупреждение о возможной утечке памяти: Cannot close object, library is destroyed.

Ключевые наблюдения

  • Проблема проявляется только на текущем компьютере
  • На другом компьютере тот же код выполняется успешно
  • Ошибка возникает на этапе инициализации парсера PDF
  • Отсутствует файл additional.dat в пути pdf_resources_v2/glyphs//standard/

Возможные причины проблемы

  1. Поврежденная установка пакета - файлы ресурсов могли не скопироваться полностью во время установки
  2. Проблемы с путями - двойной слеш (//) в пути к файлу может указывать на проблемы с формированием путей в Windows
  3. Конфликт версий - несовместимость между установленными версиями docling и docling_parse
  4. Проблемы с правами доступа - система не может прочитать необходимые файлы ресурсов

Рекомендуемые шаги по устранению

  1. Проверить наличие файла additional.dat в указанном пути
  2. Переустановить пакеты docling и docling_parse с очисткой кэша pip
  3. Проверить целостность установки, сравнив файлы с рабочей системой
  4. Убедиться в отсутствии конфликтов с другими установленными пакетами
  5. Рассмотреть возможность использования виртуального окружения с чистотой установкой