使用者輸入欲搜尋新聞主題,得到 Google 新聞搜尋文字內容,接續使用 Jieba / CKip 套件進行斷詞分析,提取關鍵詞,最終生成文字雲。
理想目標:擴大文本搜尋範圍,改善斷詞結果,在網頁前端直接生成文字雲,方便分享至社群平台。
To-do:
- 指定日期範圍搜尋新聞
- 使用正則表達式過濾英文
- 使用 tl-idf 篩選關鍵詞
- 調整圖片遮罩增強視覺效果
- 使用 CkipTagger 取代 Jieba
- 解決中文新聞日期格式問題
- 圖表呈現媒體來源類型
- 自動化新聞搜尋實作
- GoogleNews 套件使用教學
- 大數據分析實務-資料分析
- Jieba 與 Gensim 歌詞斷詞分析 / TF-IDF 說明
- CKIP 中文斷詞模型使用範例 使用到 double zip / extend / pandas apply /
- CKIP Transformers documents
中研院中文詞知識庫小組計畫主持人馬偉雲專訪內容 https://aiacademy.tw/what-is-nlp-natural-language-processing/
中央研究院詞庫小組聊天機器人應用 https://ckip.iis.sinica.edu.tw/project/chatq/
文理組人都能上手的入門 NLP(自然語言處理) 鐵人賽系列 https://ithelp.ithome.com.tw/articles/10295726
簡單好學的中文LDA(Latent Dirichlet Allocation)主題分類模型 https://medium.com/@hjeremy1222/簡單好學的中文lda-latent-dirichlet-allocation-主題分類模型-b0a0d2435b60
Googlenews_bs4.ipynb : 嘗試解析 Google Search 的版本
Googlenews_test.ipynb : GoogleNews 套件語法測試,資料轉換,資料呈現方式規劃
Googlenews_v1.py : 原始構想版本
Googlenews_v2.ipynb : 基於原始版本進行修改
- Jienba / Ckip transformer 斷詞模型比較
- 正則表達式篩選字詞,Counter 統計字數
- Pandas Series / DataFrame 資料排序轉換
- 從網頁獲取顏色清單 ( 使用 Javascript )
- 自定義圖片遮罩,產生棋盤形狀圖片遮罩
- Pillow Numpy 圖片去躁,邊緣檢測
- 使用者輸入"時事",從 Google Trends RSS 得到資料,分析時事產出文字雲。
- 使用著輸入"焦點",從 Google News RSS 得到焦點新聞,分析時事產出文字雲。
- 搭配 Google Search 查詢相關主題,加大文本資料。
- 斷詞後能否評估此文章為正向還是負向情緒?