2023 SKKU AI x Bookathon 4th

📑 목차

00. Introduction

01. 데이터 수집

02. 데이터 전처리

00. Introduction

성균관대학교에서 주최한 본 대회는 인공지능 모델을 활용하여, 주어진 키워드를 주제로 수필을 작성하는 것을 목적으로 하였습니다.

수필의 키워드는 담대한(Daring)이었으며,
소신(小身)의 소신(所信) : 두렵지만, 소신있고, 담대하게라는 제목의 13,539자 분량의 수필을 생성했습니다.

🏆 4th of 15 teams

그 결과, 장려상이라는 좋은 결과를 낼 수 있었습니다.

소신(小身)의 소신(所信) 보러가기
발표자료 보러가기

01. 데이터 수집

독후감 데이터(기본 제공) 2000-2022 신춘문예 수상작
남산백일장 수상작
글틴 수필
Brunch 수필
책사랑 주부수필 수상작
한국산문 작가협회 수필 공모전
보령_의사수필 수상작
동서식품 수필 수상작
수필.net
추천수필
신현식의 수필세상
문학광장
다르마칼리지
성균색

총 15 종류, 13,829개의 데이터를 수집하였습니다. (사용 데이터는 저작권 관련 문제로 깃허브에 공개하지 않겠습니다.)

02. 데이터 전처리

중복, 결측 데이터 제거
데이터 정규화
맞춤법 검사
구어체 제거 및 종결어미 통일
혐오, 차별, 정치 등 관련 데이터 제거

KLUE : Korean Language Understanding Evaluation 에서 사용한 전처리 기법 사용
인간 전처리기(?) 사용

03. 주제 선정

다산 정약용의 철학

“아침에 햇살을 받는 곳이 저녁에 먼저 그늘지고, 일찍 꽃 피면, 지는 것도 빠르다.”

📌 정약용 선생님의 철학은 절망을 맞닥뜨려도, 좌절하지 않고, 받아들이는 법에 대하여 이야기합니다. 따라서 우리가 전하고자 하는 교훈은 "소란한 세상에서 담대하게 자신을 잃지 않는 법"입니다.

04. 데이터 선정

JSearch : 문장 색인과 토큰 역색인을 활용한 자체 제작 데이터셋 구성 툴

자체 제작 툴인 JSearch를 활용해 각 소주제 별 선정한 Query를 논리 연산자를 활용하여  
Filtered data를 구성했습니다.

05. 모델 학습

사용 모델 : SKT/kogpt2-base-v2

📌 모델 선정 기준

수식어구가 자연스러운가?
앞 뒤 문맥과 문장의 흐름이 자연스러운가?
반복되는 문장은 없는가?

대회에서 제공해준 GPT2와 SKT-KoGPT2를 같은 환경에서 1 epoch을 학습시켜보았을 때,
GPT2보다 SKT-KoGPT2가 저희가 선정한 모델 선정 기준에 부합했습니다.

✔ Fine-tuning

사전에 수집한 데이터들로 1차적으로 학습된 모델을 브런치 사이트에서   
주제와 관련된 공통 키워드로 뽑아낸 데이터들로 2차 fine-tuning을 진행했습니다.

✔ Transfer Learning

각 소주제 별로 키워드를 뽑아 Filtered Dataset 4개를 만들었습니다.  
그 후 Common Keyword로 학습된 모델을 각각의 주제 별로 transfer learning을 진행했습니다.   
결과적으로 4개의 소주제 모델을 형성했습니다.

06. 수필 생성

샘플링 방식

✔ Top-p 샘플링 사용

Top-p 와 Top-k 샘플링 방식을 비교했을 때, Top-p의 샘플링 방식의 성능이 더 좋았습니다.
따라서, Top-p 샘플링 방식을 사용했습니다.

✔ jiN-best 샘플링 사용

TF-IDF와 Pororo Similarity를 활용한 자체 제작 샘플링 툴입니다.

✔ 인간 샘플링 사용

마지막은 저희 팀원들이 직접 읽어보며 샘플링을 진행했습니다. 인간의 개입을 최소화하기 위해 가장 마지막에 검토 느낌으로 활용했습니다.  
문장의 내용을 일절 수정하지 않았으며 필요없는 문장과 문맥을 잃어버리는 경우에만 문장을 삭제했습니다.

📌 샘플링 전체 구조

다음은 저희 모델이 생성한 가장 담대한 문장입니다.

"그렇게 되면 나만의 인생관이 정립되고, 그것이 나를 위한 길이 되고,
나아가 진정한 사람이 되는 길을 만들어 나갈 수도 있을거라 생각한다."

07. 팀원 소개