Skip to content

Latest commit

 

History

History
90 lines (67 loc) · 3.22 KB

README.md

File metadata and controls

90 lines (67 loc) · 3.22 KB

NoticeHub

24-2 YBIGTA 컨퍼런스

연세대학교 통합 공지사항 AI 챗봇 NoticeHub 입니다.

목차

문제 정의

NoticeHub는 연세대학교 학생들을 위한 통합 공지사항 AI 챗봇입니다.
현재 공지사항은 단과대학, 학과, 도서관, 기숙사 등 다양한 기관의 웹사이트에 분산되어 있습니다.
학생들이 자신에게 필요한 공지사항을 찾는 데 불편함을 겪고 있으며,
이를 해결하기 위해 NoticeHub는 맞춤형 공지사항 제공과 통합된 플랫폼을 제공합니다.

  • 문제점:

    • 공지사항이 여러 사이트에 분산되어 있어 정보 탐색의 효율성이 낮음.
    • 학생 개개인의 관심사에 맞춘 공지사항 제공이 어려움.
  • 목표:

    • 단과대학 및 학과 공지사항 통합 크롤링.
    • AI 챗봇을 통해 맞춤형 공지사항 제공.

세부 목표

  1. 단과대학 및 학과별 공지사항 데이터 통합.
  2. AI 기반 자연어 처리 모델(Retrieval-Augmented Generation)을 활용한 공지사항 검색 및 응답 시스템 개발.
  3. MongoDB 및 Amazon S3를 활용한 데이터 저장 및 이미지 관리.
  4. 사용자 맞춤형 공지사항 제공 및 인터페이스 개선.

접근 방법

  1. 태스크

    • 공지사항 크롤링
      • BeautifulSoup를 활용해 단과대 및 학과별 웹사이트 크롤링.
      • 제목과 날짜로 GroupBy하여 중복된 공지사항 제거.
    • 모델 개발
      • RAG(Retrieval-Augmented Generation) 기반 텍스트 및 이미지 처리.
      • 프롬프트 템플릿 구성 및 문맥 기반 응답 제공.
  2. 데이터셋

    • 단과대학 데이터
      • 크롤링 필드: title, date, link, content, image.
      • 데이터 수집: 각 단과대학 홈페이지에서 약 50~60개 공지사항 크롤링.
    • 학과 데이터
      • 크롤링 필드: title, date, link, content.
      • 이미지 제외: 동일 공지 중복 방지를 위해 이미지 크롤링 생략.
  3. 모델링/아키텍처

    • RAG 모델:
      • 자연어 질문에 기반하여 공지사항 탐색 및 답변 생성.
      • 벡터 및 키워드 검색을 조합해 정확도 향상.
    • 서비스 아키텍처:
      • EC2 서버: 크롤링 및 데이터 전처리.
      • MongoDB Atlas: 텍스트 및 이미지 벡터 임베딩 저장.
      • Amazon S3: 이미지 데이터 업로드 및 관리.

결과 및 주요 기능

  1. 통합 공지사항 검색: 사용자 요청에 따라 맞춤형 공지사항 제공.
  2. 대화형 AI 챗봇: 공지사항 관련 자연어 질문에 대한 실시간 응답.
  3. 이미지 처리 및 제공: 단과대학 공지사항 이미지 포함.
  4. 중복 공지사항 제거 및 데이터 최적화.

팀 구성

이름 역할
정수현 DS 23기 (팀장)
고정훈 DS 25기 (팀장)
목종원 DE 24기 (팀장)
조윤영 DE 24기 (팀장)
오승옥 DA 24기 (팀장)