News Scraper

概要

News Scraperは、指定されたRSSフィードから記事を自動的に収集し、保存するPythonスクリプトです。適時開示も対応。

主な機能

複数のRSSフィードからニュース記事を収集
記事の本文をスクレイピング
記事データをJSON形式で保存
収集した記事のインデックスをCSVファイルで管理
ログ機能によるスクレイピング過程の追跡

必要条件

Python 3.6以上
以下のPythonライブラリ:
- feedparser
- newspaper3k
- pytz

インストール

このリポジトリをクローンまたはダウンロードします。

git clone https://github.com/yourusername/news-scraper.git
cd news-scraper

必要なライブラリをインストールします。

pip install -r requirements.txt

使用方法

RSS.jsonファイルにスクレイピングしたいRSSフィードのURLとソース名を追加します。

[
  {
    "name": "Example News",
    "url": "http://example.com/rss"
  },
  {
    "name": "Another News Source",
    "url": "http://anothernews.com/feed"
  }
]

スクリプトを実行します。

python3 news_scraper.py

スクレイピングされた記事はraw_data/news/[ソース名]/[年-月]/[記事ID].jsonに保存されます。
記事のインデックスはraw_data/news/article_index.csvに保存されます。

設定

スクレイピングの間隔を調整するには、random_sleep関数の引数を変更します。
ログレベルを変更するには、logging.basicConfigのlevelパラメータを調整します。

注意事項

このスクリプトを使用する際は、ターゲットウェブサイトの利用規約を遵守してください。
過度に頻繁なリクエストは避け、サーバーに負荷をかけないようにしてください。

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.gitignore		.gitignore
README.md		README.md
config.json.exsample		config.json.exsample
news_download.py		news_download.py
requirements.txt		requirements.txt
tdnet_download.py		tdnet_download.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

News Scraper

概要

主な機能

必要条件

インストール

使用方法

設定

注意事項

About

Releases

Packages

Languages

Matyahiko/NewsScraper

Folders and files

Latest commit

History

Repository files navigation

News Scraper

概要

主な機能

必要条件

インストール

使用方法

設定

注意事項

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages