이 프로젝트는 유튜브 데이터를 전처리하여 다양한 분석 작업에 활용할 수 있는 데이터로 변환하는 것을 목표로 합니다. 유튜브 콘텐츠의 특성과 트렌드를 분석하여 마케팅 전략 수립, 콘텐츠 추천 등 여러 과제를 수행하는 데 필요한 기반 데이터를 제공하고자 합니다.
-
데이터 수집: 유튜브 채널에서 영상의 제목, 태그, 설명, 해시태그 등을 포함한 메타데이터를 수집합니다. 이 단계는 크롤링을 활용하여 자동화된 방식으로 진행되며, 유튜브 영상의 다양한 요소를 포함한 데이터를 확보하여 분석의 기초 자료로 활용합니다.
-
데이터 전처리: 수집된 데이터를 분석하기 용이한 형태로 변환하기 위해 전처리 과정을 수행합니다. 이 과정에서는 다음과 같은 작업이 포함됩니다:
- 불필요한 단어 제거: 데이터에서 분석에 도움이 되지 않는 단어를 제거하여 데이터의 노이즈를 줄입니다.
- 불용어 처리: 일반적으로 의미가 없는 단어들(예: 조사, 접속사 등)을 필터링하여 텍스트의 핵심 정보를 강조합니다.
-
NER 모델 학습: 전처리 과정에서 추출된 명사를 기반으로 명명된 개체 인식(NER) 모델을 학습시킵니다. 이 모델은 특정 객체명을 정확하게 인식하고 분류하는 데 초점을 맞추며, 텍스트에서 중요한 키워드 및 개체를 자동으로 식별할 수 있습니다. 이 과정은 GLiNER_ko와 같은 한국어 특화 NER 모델을 활용하여 진행되며, 각 객체명에 대한 정확도를 향상시킵니다.
-
분석 작업 수행: 전처리된 데이터를 바탕으로 다양한 분석 작업을 수행할 수 있도록 데이터셋을 준비합니다. 예를 들어, 콘텐츠 추천, 트렌드 분석, 카테고리 분류 등의 작업이 가능하며, 이러한 분석 결과는 마케팅 전략 수립에 유용하게 활용됩니다.
-
정확한 분석 수행: 유튜브 콘텐츠를 더 정확하게 분석할 수 있도록 데이터를 정리하고 정제합니다. 이를 통해 신뢰성 있는 데이터 기반의 인사이트를 얻을 수 있습니다.
-
맞춤형 추천 제공: 데이터 기반의 인사이트를 활용하여 콘텐츠 전략을 수립하거나, 유입 사용자들에게 맞춤형 추천을 제공함으로써 사용자 경험을 향상시킵니다. 전처리된 데이터는 다양한 분석 기법을 통해 콘텐츠의 트렌드와 잠재적 기회를 파악하는 데 도움을 줍니다.