Skip to content
Danny Lin edited this page Oct 6, 2020 · 17 revisions

網頁剪貼簿簡介

網頁剪貼簿 (WebScrapBook) 可以忠實擷取網頁內容,支援多種儲存格式與客製化設定,還可以對擷取的資料做檢索、組織、加註、編輯。本擴充套件繼承自 Firefox 傳統附加元件 ScrapBook X

功能特色

  1. 忠實擷取:可將瀏覽器顯示的網頁擷取儲存而不遺失微小細節。一些重要的元資料如來源網址及擷取時間亦皆如實記錄。
  2. 客製擷取:網頁剪貼簿可擷取選取的網頁範圍、擷取網頁原貌(未經頁面腳本處理)、或把網頁擷取為書籤。亦可自訂如何處理網頁中的圖片、音訊、視訊、字體、框架頁、樣式表、腳本等資源。網頁可儲存為資料夾、ZIP 封存檔案(HTZ 或 MAFF),或單一 HTML 檔案。
  3. 管理資料:可在瀏覽器側邊欄用一或多本剪貼簿以階層化樹狀結構組織擷取的網頁。每本剪貼簿尚可個別建立索引,以備未來用各種方式搜尋(可組合全文關鍵詞、標題、自訂評註、來源網址等元資訊搜尋)。(*)
  4. 編輯網頁:網頁可在擷取前或擷取後加以標示、加註、或編輯。也可以建立和管理 HTML 或 markdown 格式的筆記頁面。(*)
  5. 遠端存取:可架設後端伺服器託管擷取的資料,以便從其他機器閱讀或編輯。亦可為剪貼簿建立靜態索引,以便發佈到不支援動態網頁的伺服器。(*)
  6. 行動支援:網頁剪貼簿支援 Firefox for Android,可在手機或平板電腦擷取及編輯網頁。(*)
  7. 傳統 ScrapBook 支援:由傳統 ScrapBook 或 ScrapBook X 建立的資料庫可匯入網頁剪貼簿使用。(*)
  • 打星號項目全部或部分功能需要搭配後端伺服器才能運作,後端伺服器可用 PyWebScrapBook 架設。
  • HTZ 或 MAFF 封存檔案可用內建的封存網頁檢視器檢視,用 PyWebScrapBook 或其他輔助工具開啟,或解壓縮後開啟入口頁面檢視。

安裝

  • 本套件支援 Chromium 系列瀏覽器(Google Chrome、Opera、Vivaldi、等),以及 Firefox 桌面版及 Android 版。
  • 下載:Google Chrome 版Firefox 版

三種基本用法

網頁剪貼簿提供豐富的選項,因此有很多種使用方式。以下介紹三種基本用法及設定方式:

1. 獨立檔案型

這種用法是每次都把網頁擷取成單獨的檔案,從檔案管理器尋找及開啟。

  • 儲存擷取資料至: 設定為 檔案
  • 儲存擷取資料為: 設定為想要的存檔類型。一般用 單一 HTML 檔案 最方便;若設定為 HTZ 封存檔MAFF 封存檔,需要做一些設定以便從檔案管理器直接開啟封存檔。
  • 可調整 儲存檔名: 設定擷取檔案的預設檔名,一般常用 %TITLE%

2. 目錄管理型

這種用法是把網頁統一擷取至特定目錄下,一樣從檔案管理器尋找及開啟。

  • 儲存擷取資料至: 設定為 剪貼簿資料夾
  • 儲存擷取資料為: 設定為想要的存檔類型。一般用 單一 HTML 檔案 最方便,資料夾 亦可;若設定為 HTZ 封存檔MAFF 封存檔,需要做一些設定以便從檔案管理器直接開啟封存檔。
  • 可考慮把 剪貼簿資料夾: 改為 WebScrapBook(或其他想要的名稱),如此一來下載的頁面會放到 <預設下載資料夾>/WebScrapBook/ 而不是預設的 <預設下載資料夾>/WebScrapBook/data/
  • 可調整 儲存檔名: 設定擷取檔案的預設檔名,一般常用 %TITLE%;若想用擷取時間分組,也可以設定成像 %YEAR%/%MONTH%/%TITLE%

3. 瀏覽器側欄型

這種用法須安裝後端伺服器,擷取的檔案會直接儲存到後端伺服器,安裝網頁剪貼簿擴充套件的瀏覽器可連線至後端伺服器並從側欄(工具列按鈕 > 開啟剪貼簿)檢視及管理剪貼簿。

  • 安裝 PythonPyWebScrapBook
  • 指示設定後端伺服器。

    例如要以 C:\Users\MyUserName\Downloads\WebScrapBook 目錄作為剪貼簿。先開啟並進入命令列(Windows 系統可執行命令提示字元 (CMD)),切換工作目錄至 C:\Users\MyUserName\Downloads\WebScrapBook,執行 wsb config -ba。此時會建立 .wsb 子目錄並產生設定檔,以後只要執行 C:\Users\MyUserName\Downloads\WebScrapBook\.wsb\serve.py 即可啟動後端伺服器(不要關閉跳出的視窗,除非想關掉伺服器)。

    更多進階設定方式可參見這裡

  • 在網頁剪貼簿的選項設定後端伺服器的網址、使用者、及密碼。(預設網址為 http://localhost:8080/,使用者及密碼皆為空白。)
  • 儲存擷取資料至: 設定為 後端伺服器
  • 儲存擷取資料為: 一般建議設為 資料夾,若有節省儲存空間及減少檔案數量的需求可選擇 HTZ 封存檔MAFF 封存檔單一 HTML 檔案 則較不建議。此選項只影響新擷取檔案的儲存格式,不影響原有存檔,不同類型的存檔亦可混合使用。
  • 可視需要調整 儲存檔名:,但建議使用預設的 %ID%,以避免潛在的相容性問題。
  • 使用時須先啟動後端伺服器,然後即可透過網頁剪貼簿擴充套件擷取頁面或從側欄檢視及管理資料。
  • 後端伺服器亦可建立靜態站台索引(工具列按鈕 > 選項 > 執行索引器),以供未安裝網頁剪貼簿擴充套件的客戶端瀏覽。
Clone this wiki locally