一個用 Rust 編寫的簡單高效的標記計數程式!🚀
English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Deutsch
這個 Rust 實現的經典 wc
(字數統計)命令列工具可以統計文字檔案或標準輸入中的行數、單字數、字元數,甚至是標記數。它快速、可靠,並且支援 Unicode!🌍✨
- 統計行數 📏
- 統計單字數 🔤
- 統計字元數(包括多位元組 Unicode 字元)🔡
- 使用各種分詞器模型統計標記數 🔢
- 處理多個檔案 📚
- 從標準輸入讀取 🖥️
- 支援多種語言(英語、韓語、日語等)🌐
有兩種方式安裝 tc:
-
確保您的系統已安裝 Rust。如果沒有,請從 rust-lang.org 獲取 🦀
-
複製此儲存庫:
git clone https://github.com/guuzaa/tc.git cd tc
-
建置專案:
cargo build --release
-
可執行檔將位於
target/release/tc
-
前往 tc 儲存庫的 Releases 頁面。
-
下載適用於您的作業系統和架構的最新版本。
-
解壓下載的壓縮包。
-
將
tc
可執行檔移動到系統 PATH 中的目錄(例如,Unix 類系統中的/usr/local/bin
)。 -
現在您可以在終端機的任何位置使用 tc 了!
-l, --lines
:顯示行數 📏-w, --words
:顯示單字數 🔤-c, --chars
:顯示字元數 🔡-t, --tokens
:顯示標記數 🔢--model <MODEL>
:選擇分詞器模型(預設:gpt3)
可用模型:
gpt3
: r50k_baseedit
: p50k_editcode
: p50k_basechatgpt
: cl100k_basegpt4o
: o200k_base
如果未指定選項,將顯示所有計數(行數、單字數、字元數和標記數)。
-
統計檔案中的行數、單字數和字元數:
tc example.txt
-
僅統計多個檔案中的單字數:
tc -w file1.txt file2.txt file3.txt
-
從標準輸入統計行數和字元數:
echo "你好,世界!" | tc -lc
-
使用 ChatGPT 分詞器統計標記數:
tc -t --model chatgpt example.txt
-
統計不同語言檔案中的所有內容:
tc english.txt korean.txt japanese.txt
歡迎貢獻!隨時提交問題或拉取請求。🎉
本專案採用 MIT 授權條款。詳情請參閱 LICENSE 檔案。📄
- Rust 社群提供的優秀工具和支援 🦀❤️
- 原始 Unix
wc
命令的靈感 🖥️ - Cursor 編輯器 🤖
開始愉快的統計吧!🎉📊🚀