NoticeHub는 연세대학교 학생들을 위한 통합 공지사항 AI 챗봇입니다.
현재 공지사항은 단과대학, 학과, 도서관, 기숙사 등 다양한 기관의 웹사이트에 분산되어 있습니다.
학생들이 자신에게 필요한 공지사항을 찾는 데 불편함을 겪고 있으며,
이를 해결하기 위해 NoticeHub는 맞춤형 공지사항 제공과 통합된 플랫폼을 제공합니다.
-
문제점:
- 공지사항이 여러 사이트에 분산되어 있어 정보 탐색의 효율성이 낮음.
- 학생 개개인의 관심사에 맞춘 공지사항 제공이 어려움.
-
목표:
- 단과대학 및 학과 공지사항 통합 크롤링.
- AI 챗봇을 통해 맞춤형 공지사항 제공.
- 단과대학 및 학과별 공지사항 데이터 통합.
- AI 기반 자연어 처리 모델(Retrieval-Augmented Generation)을 활용한 공지사항 검색 및 응답 시스템 개발.
- MongoDB 및 Amazon S3를 활용한 데이터 저장 및 이미지 관리.
- 사용자 맞춤형 공지사항 제공 및 인터페이스 개선.
-
태스크
- 공지사항 크롤링
- BeautifulSoup를 활용해 단과대 및 학과별 웹사이트 크롤링.
- 제목과 날짜로 GroupBy하여 중복된 공지사항 제거.
- 모델 개발
- RAG(Retrieval-Augmented Generation) 기반 텍스트 및 이미지 처리.
- 프롬프트 템플릿 구성 및 문맥 기반 응답 제공.
- 공지사항 크롤링
-
데이터셋
- 단과대학 데이터
- 크롤링 필드:
title
,date
,link
,content
,image
. - 데이터 수집: 각 단과대학 홈페이지에서 약 50~60개 공지사항 크롤링.
- 크롤링 필드:
- 학과 데이터
- 크롤링 필드:
title
,date
,link
,content
. - 이미지 제외: 동일 공지 중복 방지를 위해 이미지 크롤링 생략.
- 크롤링 필드:
- 단과대학 데이터
-
모델링/아키텍처
- RAG 모델:
- 자연어 질문에 기반하여 공지사항 탐색 및 답변 생성.
- 벡터 및 키워드 검색을 조합해 정확도 향상.
- 서비스 아키텍처:
- EC2 서버: 크롤링 및 데이터 전처리.
- MongoDB Atlas: 텍스트 및 이미지 벡터 임베딩 저장.
- Amazon S3: 이미지 데이터 업로드 및 관리.
- RAG 모델:
- 통합 공지사항 검색: 사용자 요청에 따라 맞춤형 공지사항 제공.
- 대화형 AI 챗봇: 공지사항 관련 자연어 질문에 대한 실시간 응답.
- 이미지 처리 및 제공: 단과대학 공지사항 이미지 포함.
- 중복 공지사항 제거 및 데이터 최적화.
이름 | 팀 | 역할 |
---|---|---|
정수현 | DS 23기 | (팀장) |
고정훈 | DS 25기 | (팀장) |
목종원 | DE 24기 | (팀장) |
조윤영 | DE 24기 | (팀장) |
오승옥 | DA 24기 | (팀장) |