Skip to content

使用者輸入欲搜尋新聞關鍵字,爬取關鍵字文章內容給 Jieba 斷詞,並分析文字產生文字雲。

Notifications You must be signed in to change notification settings

wastu01/Python-WordCloud

Repository files navigation

Python-WordCloud: 文字雲視覺化應用:新聞關鍵字分析

使用者輸入欲搜尋新聞主題,得到 Google 新聞搜尋文字內容,接續使用 Jieba / CKip 套件進行斷詞分析,提取關鍵詞,最終生成文字雲。

理想目標:擴大文本搜尋範圍,改善斷詞結果,在網頁前端直接生成文字雲,方便分享至社群平台。

To-do:

  • 指定日期範圍搜尋新聞
  • 使用正則表達式過濾英文
  • 使用 tl-idf 篩選關鍵詞
  • 調整圖片遮罩增強視覺效果
  • 使用 CkipTagger 取代 Jieba
  • 解決中文新聞日期格式問題
  • 圖表呈現媒體來源類型

文字雲輸出畫面

疫情關鍵字文字雲

新聞關鍵字文字雲

柯文哲關鍵字文字雲

參考資料:

延伸閱讀

中研院中文詞知識庫小組計畫主持人馬偉雲專訪內容 https://aiacademy.tw/what-is-nlp-natural-language-processing/

中央研究院詞庫小組聊天機器人應用 https://ckip.iis.sinica.edu.tw/project/chatq/

文理組人都能上手的入門 NLP(自然語言處理) 鐵人賽系列 https://ithelp.ithome.com.tw/articles/10295726

簡單好學的中文LDA(Latent Dirichlet Allocation)主題分類模型 https://medium.com/@hjeremy1222/簡單好學的中文lda-latent-dirichlet-allocation-主題分類模型-b0a0d2435b60

檔案內容

Googlenews_bs4.ipynb : 嘗試解析 Google Search 的版本

Googlenews_test.ipynb : GoogleNews 套件語法測試,資料轉換,資料呈現方式規劃

Googlenews_v1.py : 原始構想版本

Googlenews_v2.ipynb : 基於原始版本進行修改

  1. Jienba / Ckip transformer 斷詞模型比較
  2. 正則表達式篩選字詞,Counter 統計字數
  3. Pandas Series / DataFrame 資料排序轉換
  4. 從網頁獲取顏色清單 ( 使用 Javascript )
  5. 自定義圖片遮罩,產生棋盤形狀圖片遮罩
  6. Pillow Numpy 圖片去躁,邊緣檢測

其他想法:

  1. 使用者輸入"時事",從 Google Trends RSS 得到資料,分析時事產出文字雲。
  2. 使用著輸入"焦點",從 Google News RSS 得到焦點新聞,分析時事產出文字雲。
  3. 搭配 Google Search 查詢相關主題,加大文本資料。
  4. 斷詞後能否評估此文章為正向還是負向情緒?

About

使用者輸入欲搜尋新聞關鍵字,爬取關鍵字文章內容給 Jieba 斷詞,並分析文字產生文字雲。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published