参考:https://blog.csdn.net/qq_23035335/article/details/99732787
# 先导出
docker exec -it xxxx /bin/bash
mongodump -u[username] -p[password] --authenticationDatabase admin
# 再导入
docker exec -it xxxx /bin/bash
mongorestore -u[username] -p[password]--authenticationDatabase admin -d darkweb_crawler /data/logs/darkweb_crawler/darkweb_crawler/
_id | source | url | crawl_time |
---|---|---|---|
xxx | 索引网站 | onion网站 | xxx |
_id | url | crawl_time | status | title | head | body |
---|---|---|---|---|---|---|
xxx | 当前网站 | xxxx | 200/302/... | xxx | xxx | xxx |
注意先改名:config.ini/docker-compose.yml
python darkbot
查看使用简介
usage: darkbot [-h] [-u URL] [-w {from_config}] [-a {from_collection}] [-s SEARCH_KEYWORDS] [-t {from_config}]
a bot for darkweb_crawler.
options:
-h, --help show this help message and exit
-u URL, --url URL Choose a url to crawl.
-w {from_config}, --websites_list {from_config}
crawl websites from config.ini and get onion list.
-a {from_collection}, --active_crawl {from_collection}
active crawling for onion_url from mongodb_collection and get new onion domain.
-s SEARCH_KEYWORDS, --search_keywords SEARCH_KEYWORDS
search keywords([from_config] OR [the_keywords_you_input]) in https://ahmia.fi/ and get onion_url.
-t {from_config}, --tor2web_crawl {from_config}
search tor2web_keywords in google/duckduckgo/bing to get onion domain.
补充:可以不用定时启动,screen太香啦!
# 启动一个screen任务窗口
screen -S darkweb_crawler
./darkweb_crawler_run.sh
# 然后可以Ctrl+a+d挂在后台
# 查看全部screen任务
screen -ls
# 恢复screen窗口
screen -r {pid}
或者
screen -r darkweb_crawler
# 删除screen任务
exit
# 先添加执行权限
chmod +x darkweb_crawler_run.sh
# 设置定时启动命令
crontab -e
# 然后把当前路径的telegram_crawler_run.sh添加进去
0 0 * * * /path/to/darkweb_crawler_run.sh
- 基于暗网索引网站/github等网站获取onion域名(41751)
- 基于爬虫解析页面主动获取onion域名(完成,crawling)
- 基于ahmia.fi暗网搜索引擎搜索关键字获取onion域名(15918,2-new)
- 基于torweb的搜索引擎(google/duckduckgo/bing)获取onion域名(2-16-191,由于搜索引擎存在风控,需要优化,serpapi是个好东西,可惜收费)
- 基于Telegram等交流工具获取onion域名(完成)
6. 基于部署具有hsdir(隐藏服务节点)标签的节点被动获取onion域名(待完成)
brew install tor
# To start tor now and restart at login:
brew services start tor
# Or, if you don't want/need a background service you can just run:
/opt/homebrew/opt/tor/bin/tor
# 配置文件在:
cd /opt/homebrew/etc/tor
# 命令行使用:
export all_proxy=socks5h://127.0.0.1:9050
或者直接启动挂在后台
tor
apt install tor
#配置文件linux在/etc/tor/torrc
vim /etc/tor/torrc
# 加入下面的:
pip install -r requirements.txt