Skip to content
@200-OK-Colpali

200 OK NN MLhack

Team 200 OK at Nornickel ML Hackathon, track Multimodal RAG models

Хакатон Норникель, трек мультимодальные RAG модели

🏆 Результат хакатона

Команда 200 OK заняла 3-е место


👥 Команда 200 OK

Сибриков Александр - Капитан
Малыш Игорь - Fullstack
Гусаров Алексей - ML Captain
Шкиров Виктор - Backend
Шарафутдинов Артур - ML

📂 Исходный код

Colpali search engine - эффективный и масштабируемый поиск документов в задачах, связанных с обработкой текста и изображений.


Описание задания на хакатон

Задача: Документы под контролем: автоматизируй их поиск и индексацию!

Задача заключается в создании эффективного пайплайна для автоматического поиска и индексации документов с использованием мультимодального RAG и модели ColPali. Участникам предстоит разработать систему, которая сможет обрабатывать различные форматы данных, обеспечивая быструю и точную индексацию. Это решение значительно упростит доступ к информации и повысит продуктивность работы с документами в различных областях.

🤔 Проблематика

В современном мире объем информации, хранящейся в различных документах, постоянно растет. Организации сталкиваются с проблемами поиска, индексации и обработки данных из множества источников и форматов. Традиционные методы работы с документами часто оказываются неэффективными: они требуют значительных временных затрат на ручной поиск и анализ информации, что снижает продуктивность сотрудников и увеличивает риск ошибок.

Существующие системы поиска не всегда способны учитывать контекст и структуру документов, что приводит к недостаточной точности результатов. Использование мультимодальных подходов, таких как Retrieval-Augmented Generation (RAG), может существенно улучшить качество поиска и индексации, однако их внедрение требует создания эффективного пайплайна, который сможет обрабатывать разнообразные форматы данных и обеспечивать быструю и точную индексацию.

💎 Образ решения

Участникам необходимо разработать интегрированную систему, использующую мультимодальный подход RAG для автоматического поиска и индексации документов. Решение должно включать:

• Эффективный механизм индексации: система должна быть способна обрабатывать различные форматы документов (текстовые, изображения, PDF и др.) и индексировать их содержимое.

• Интуитивно понятный интерфейс поиска: пользователи должны иметь возможность легко находить нужные документы по запросам, включая поддержку семантического поиска.

• Использование модели ColPali: необходимо интегрировать эту модель в пайплайн для повышения качества поиска и индексации, учитывая контекст и структуру документов.

• Оптимизация производительности: система должна обеспечивать быструю обработку запросов и минимальное время отклика.

💡 Формат данных для обучения

Участникам предстоит работать с разнообразными типами данных, включая:

• Текстовые документы: документы в формате .txt, .docx, .pdf и других текстовых форматах.

• Изображения: сканированные документы, графики и диаграммы, которые могут содержать текстовую информацию.

• Мультимедийные файлы: презентации в различных форматах, которые могут потребовать TR для извлечения информации.

• Метаданные: информация о документах (дата создания, авторы, теги и т.д.), которая может быть использована для улучшения индексации.

Данные должны быть предварительно обработаны для извлечения ключевой информации, создания индексов и обеспечения возможности быстрого поиска.

Popular repositories Loading

  1. chat_front chat_front Public

    Search engine based on multi model RAG with colpali v1.2

    Python 2 2

  2. .github .github Public

    Nornickel hackathon multi model RAG with colpali. Project main idea and execution

Repositories

Showing 2 of 2 repositories
  • chat_front Public

    Search engine based on multi model RAG with colpali v1.2

    200-OK-Colpali/chat_front’s past year of commit activity
    Python 2 MIT 2 0 0 Updated Dec 17, 2024
  • .github Public

    Nornickel hackathon multi model RAG with colpali. Project main idea and execution

    200-OK-Colpali/.github’s past year of commit activity
    0 0 0 0 Updated Dec 9, 2024

Top languages

Loading…

Most used topics

Loading…