Требования:
- RAG пайплайн на ColPali:
- оптимальная индексация документов
- Проиндексировать все документы датасета
- научиться докидывать в индекс доп документы
- возвращать имя файла и номер страницы документа
- научиться удалять документ из индекса
- RAG пайплайн оптимизация:
- возвращать саму страницу документа или несколько (функция возвращает id документов по распределению score)
- коррекция пользовательского запроса (знаки препинания)
- Регистр потестировать
- управление скоростью индексации
- управление качеством поиска
- Пользовательское окно взаимодествия с поиском:
- загрузить документы
- преобразовать в pdf (если формат отличается)
- удалить документ из индекса
- отследить статус обучения по документу
- Отправить запрос
- Получить ответ поиска: название документа, страницу (или страницы) с релевантным поиском.
- Окно ответа с генерацией LLM с конечным осмысленным ответом.
- Аналоги ColPali пайплайна, Image to text llm
- Исследовать аналог
- Получить бенчмарки поиска для сравнения с ColPali
- Генерация на основании картинки
- Презентация и чекпойнты
- Подготовка презентаций
- Запись видео демо
- Подготовка питчинга
Требования:
- Витя RAG пайплайн на ColPali:
- оптимальная индексация документов
- Проиндексировать все документы датасета
- научиться докидывать в индекс доп документы
- возвращать имя файла и номер страницы документа
- научиться удалять документ из индекса
- Лёша. RAG пайплайн оптимизация:
- возвращать саму страницу документа или несколько
- управление скоростью индексации
- управление качеством поиска
- Игорь Пользовательское окно взаимодествия с поиском:
- загрузить документы
- удалить документ из индекса
- отследить статус обучения по документу
- Отправить запрос
- Получить ответ поиска: название документа, страницу (или страницы) с релевантным поиском.
- Окно ответа с генерацией LLM с конечным осмысленным ответом.
- Артур Аналог RAG пайплайна. Image to text LLM
- Исследовать аналог
- Получить бенчмарки поиска для сравнения с ColPali
- Исследовать image to text LLM для графиков и таблиц
- Саша Презентация и чекпойнты
Ресурсы:
- UI
- Opensource реализация генеративных чатов, можно взять её https://streamlit.io
- Вот пример готового норм https://knowledgegpt.streamlit.app
- Либо если писать самому, open Source UI комоненты можно брать отсюда ant.design
- ColPali
- ColPali About
- Имплементация multi_model_rag_with_colpali
-
Moondream2
- Image to text LLM moondream2
-
Аналог ColPali
- multi_model_rag_with_captioning ipynb
Dataset
Ссылка на датасет с данными для обучения модели → Скачать датасет
Список вопросов для оценки
Первая версия
-
Долевое участие металлов в EBITDA компании? То есть какой % EBITDA и EBITDA margin принесли продажи Ni, Cu и т д
-
Как эта доля менялась от года к году (наверн нужно приложить отчеты хотя бы за 2-3 года)?
-
Топ 5 факторов снижения EBITDA г/г? Также и EBITDA margin
-
Какой актив формирует наибольшую долю FCF? Какой актив на 2 месте?
-
Какие активы являются убыточными? Можно ли их исключить из производственной цепочки без последствий для общего цикла производства металлов?
-
Какой прогноз по содержанию металлов руд НН на следующие 5 лет?
-
Какую долю рынка занимает НН в производстве металлов? Как изменялась доля НН г/г? Какой прогноз на 5 лет?
-
Как изменялся прогноз по предложению и спросу на Ni, Cu, Au в отчетах за разные года, например какой был прогноз в отчете за 2020 год на 2021/22/23? Какое было фактическое предложение и спрос в годовых отчетах 2021/22/23? Исходя из этого сделай вывод о целесообразности доверия таким прогнозам в целом
Доп вопросы
Годовой отчет ESG 2022
-
Актуальная продукция НН (7 слайд)
-
Прогноз по портфелю выручки компании на ближайшие 5 лет (16 слайд)
-
Какие цели устойчивого развития поддержала компания? (17-18 слайд)
Годовой отчет 2023
-
Прогноз роста производства продукции к 2030 (9 слайд)
-
Результаты по добычи в разбивке по регионам (9 слайд)
-
Финансовые показатели, ебитда в абсолютах и относительных выражениях (9 слайд)
-
Сводка по выручке от реализации металлов (45 слайд)
-
Мультипликатор свободного денежного потока в отношении 23 к 24 году (слайд 48)
-
Структура акционерного капитала (114 слайд)
-
Прибыль на акцию за 21,22 и 23 годы (122 слайд)
Задача: Документы под контролем: автоматизируй их поиск и индексацию!
Задача заключается в создании эффективного пайплайна для автоматического поиска и индексации документов с использованием мультимодального RAG и модели ColPali. Участникам предстоит разработать систему, которая сможет обрабатывать различные форматы данных, обеспечивая быструю и точную индексацию. Это решение значительно упростит доступ к информации и повысит продуктивность работы с документами в различных областях.
В современном мире объем информации, хранящейся в различных документах, постоянно растет. Организации сталкиваются с проблемами поиска, индексации и обработки данных из множества источников и форматов. Традиционные методы работы с документами часто оказываются неэффективными: они требуют значительных временных затрат на ручной поиск и анализ информации, что снижает продуктивность сотрудников и увеличивает риск ошибок.
Существующие системы поиска не всегда способны учитывать контекст и структуру документов, что приводит к недостаточной точности результатов. Использование мультимодальных подходов, таких как Retrieval-Augmented Generation (RAG), может существенно улучшить качество поиска и индексации, однако их внедрение требует создания эффективного пайплайна, который сможет обрабатывать разнообразные форматы данных и обеспечивать быструю и точную индексацию.
Участникам необходимо разработать интегрированную систему, использующую мультимодальный подход RAG для автоматического поиска и индексации документов. Решение должно включать:
• Эффективный механизм индексации: система должна быть способна обрабатывать различные форматы документов (текстовые, изображения, PDF и др.) и индексировать их содержимое.
• Интуитивно понятный интерфейс поиска: пользователи должны иметь возможность легко находить нужные документы по запросам, включая поддержку семантического поиска.
• Использование модели ColPali: необходимо интегрировать эту модель в пайплайн для повышения качества поиска и индексации, учитывая контекст и структуру документов.
• Оптимизация производительности: система должна обеспечивать быструю обработку запросов и минимальное время отклика.
Участникам предстоит работать с разнообразными типами данных, включая:
• Текстовые документы: документы в формате .txt, .docx, .pdf и других текстовых форматах.
• Изображения: сканированные документы, графики и диаграммы, которые могут содержать текстовую информацию.
• Мультимедийные файлы: презентации в различных форматах, которые могут потребовать TR для извлечения информации.
• Метаданные: информация о документах (дата создания, авторы, теги и т.д.), которая может быть использована для улучшения индексации.
Данные должны быть предварительно обработаны для извлечения ключевой информации, создания индексов и обеспечения возможности быстрого поиска.
Решение должно быть представлено на платформу не позднее 10:00 МСК, 8 декабря, в следующем виде:
-
Ссылка на исходный код в VCS (системе контроля версий - GitHub, GitLab или иные)
-
Ссылка на облачный диск (Яндекс, Google), где загружены:
-
Архив с исходным кодом проекта
-
Видео-демо работы проекта (видео, показывающее процесс работы вашего решения, с комментариями или без них, не длиннее 2 минут)
-
Ссылка на презентацию вашего проекта (облачный диск с файлом
.pptx
/.pdf
или развернутая презентация на Notion, Figma или иных сервисах) -
Ссылка на ваше развернутое решение (при наличии) для его тестирования членами жюри.
Будут доступны после старта хакатона.
-
Писать понятный код с комментариями.
-
Оперативно отвечать на возможные вопросы организаторов в период код-ревью. Выделите отдельную роль в команде под это.
-
Обязательно при использовании внешних данных или чужого кода – указывать ссылки на первоисточник.
-
Все сторонние программы, использованные в решении задачи, должны быть выпущены под лицензией, позволяющей их свободное коммерческое использование.
Помните, что любые технологии, использованные вами, должны быть официально доступны на территории РФ и обладать лицензией, позволяющей свободное коммерческое использование!
https://buildin.ai/phystech_gensis/share/dba64d1b-8af3-4447-a58e-d2095033542f