Skip to content

linux

Classic Shell Scripting 讀書筆記 (七)

  • Ops

進程

程式 (program) 的一個實例 (instance),由 fork()execve() 等系統調用所起始、執行、直到下達 exit() 系統調用為止

UNIX 支援多進程,由文本切換實現(context switch),進程本身不管文本切換,也沒有必要在程式裡撰寫撤回控制權給操作系統的處理

系統內核的調度器(scheduler)負責管理進程的執行,並參考進程的優先權決定順序

平均負載(load average)

在任何瞬間,等待執行的進程平均數,當平均負載持續地超出可用 CPU 的承載時,表示系統已經超載

由於會一直變化,uptime 指令分別回報最後一分鐘、五分鐘、十五分鐘的估值

建立進程

UNIX 最大的貢獻,就是能輕易建立進程

很多進程由 Shell 啟動——每個命令行的第一個單詞代表要執行哪個程序,且保證具備以下事項:

  • 內核本文(kernel context),存在內核的數據結構,紀錄進程的資訊,方便管理與控制進程
  • 一個私有的(private)、被保護的(protected)的虛擬位址空間,確保進程間不互相干擾。其可以是主機的可定址空間,可能受限於 Swap 、其他執行中工作的大小、系統調校參數的設置等
  • 三個皆以開啟的文件描述代碼(標準輸入、標準輸出、標準錯誤輸出)
  • 起始於交談模式 Shell 的進程,會有一個控制終端(controlling terminal),扮演三個標準文件數據流的默認來源與目的地
  • Shell 展開命令行中的參數,省去程序的負擔且提供統一性
  • 記憶體中的一個環境變量區域(environment space)會存在,透過函式庫調用取得

進程編號

編號為 0 的進程稱為 kernel、sched 或 swapper,可能不會顯示在 ps 列表中

進程的形式是樹狀的,除了 kernel 以外,每個進程都有父進程,及零至多個子進程

編號為 1 的進程稱為 init,對於父進程過早消失(die)的進程,其父進程會重新被指派給 init

系統在正常關機時,進程的刪除是編號由大到小依次執行的,直到剩下 init 為止,當 init 結束,系統終止

Read More »Classic Shell Scripting 讀書筆記 (七)

Classic Shell Scripting 讀書筆記 (六)

  • Ops

文件與文件系統

簡單來說,文件是計算機系統裡的一堆數據,可以用單一實體的方式被引用

文件命名

原始的 UNIX 文件系統設計者,決定將ASCII 256 個元素集合都可用於文件名,但有兩個例外:

  • 控制字符 NUL(此字符所有位址皆為0),這是許多程式語言用來表示字串結尾的字符
  • 斜槓(/)字符

最好考慮加上以下限制:

  • 是可視字符
  • 避免使用 Shell 的 meta 字符,也就是大部分的標點符號
  • 避免用連字號開頭,看起來像是 UNIX 的命令選項

UNIX 文件名是 Case Sensitive,慣用小寫,除了重要文件會用大寫或大小寫混用,如 READMEMakefile,原因是在 ASCII 裡,大寫排在小寫之前,會列在前方(現行系統排序則是參考 locale)

命名長度普遍允許使用到 255 個字符,POSIX 中定義 NAME_MAX 來限制其長度

ASCII

1963 年,美國標準學會以 American Standard Code for Information Interchange 名稱提出 7 位元的字符集,允許 128 個不同字符。

7 位元對世界語言是不夠的,由於現在系統都使用 8 位元作為最小定址儲存單位,允許 256 個不同字符,前半段被拿來客製化,後半段留給 ASCII,在未遵循國際標準的情況下,也因此出現了幾百種不同的字符指定方式,或稱內碼頁(code page)。

8 位元對歐洲語系仍是不夠的,因此 ISO 為此開發了一系列的代碼頁。

90 年代,單一萬國字符集 Unicode 開始運作,所有字符最終需要大約 21 個位元。由於許多操作系統只使用到 16 個位元,UNIX 系統使用一個可變動的位寬度編碼: UTF-8,允許已存在的 ASCII 文件成為有效的 Unicode 文件。

文件裡有什麼

以另一個觀點來看,UNIX 文件不過是 0 個或多個不知名數據字節所集結而成的字節流

複製一個文件:

許多工具設計上使用「大的但大小固定」的緩衝區來保存文本行,如果輸入過長的行,可能導致錯誤,建議長度限制在易讀的範圍,例如 50-70 個字符

所有文件被視為是二進制文件:每一個包含在其中的字節,都有 256 種可能的值。

文本文件(有分行的文本)可視為二進制文件的子集,以 ASCII linefeed (LF) 表示行的界線,也就是換行字符,在程式語言通常以 \n 來表示(比起 Windows 使用一組 carriage-return/linefeed 簡單多了)

文件中會保留字節數的計數,當嘗試讀取超越此計數時,返回 end-of-line 的暗示,因此不可能看到任何磁盤區塊之前的內容

文件系統架構

UNIX 文件系統是可嵌套的樹狀結構,目錄使用 directory 而非 folder(偏向紙本的),結構的根源為根目錄,使用特殊名稱 /

當目錄底下有過多的文件,應該以子目錄重新組織,提昇查找效率

文件名完整路徑長度沒有特殊限制,POSIX 中定義 PATH_MAX 來限制其長度,通常為 256 個字符

UNIX 目錄本身就是文件,但擁有特殊屬性且有特定訪問方式

所有 UNIX 目錄,就算是空的,也總是包含兩個特殊目錄: ..(父目錄) 及 . (當前目錄本身),根目錄的父目錄就是自己(//..是一樣的)

路徑結尾若以斜槓 / 結束,則該文件是一個目錄,沒以斜槓結尾,不一定不是目錄

WWW 的 URL 結構就是 UNIX 風格的

層級式文件系統

UNIX 允許將某個文件系統,邏輯性地放置於令一個文件系統的任意目錄之上,稱為掛載(mounting)

掛載的相關細節,除存在一個特殊文件中,通常為 /etc/fstab/etc/vfstab

有些掛載/卸載需要特殊權限,有些則允許非特定用戶也可以操作,如 CD-ROM、隨身碟

Index Node (inode)

文件系統建立時,一個管理原指定的固定大小表格也隨之建立,稱為 inode

inode 包含了系統辨識文件時所需的 metadata,但文件名不包含在內,文件名保存在目錄裡

  • 列出目錄下的文件時,不須多次查詢 inode
  • 一個 inode 編號可以對應到多個文件名,也就是 UNIX 中的連結(link)功能

inode 所保存的訊息包含文件的: 1) inode 序列號 2) 類型 3) 連結 4) 大小 5) 權限 6)時間戳

當一個物理文件,其有多個名稱時(代表至少存在一個連結),哪一個才能刪除物理文件?——
inote 表包含了連接到文件的計數,當計數為 0,文件區塊最終才會重新指派給可用空間的列表

軟連接與硬連接

同一個文件系統下的連接,指向的是 inode 編號(hard-link),但連結跨越文件系統時,inode 會紀錄該文件類型是符號連接/軟連接(symbolic/ soft link),指向的是「一個 UNIX 路徑」而非 inode 編號

為了避免早成死循環,目錄通常不能有硬連接,除了 ...

Read More »Classic Shell Scripting 讀書筆記 (六)

Classic Shell Scripting 讀書筆記 (四)

  • Ops

波浪展開

  • 若命令行第一個字串開頭為波浪符號 (~),則執行波浪展開,目的是轉換使用者根目錄的絕對路徑
  • 可以直接或間接方式指定展開的使用者,使用 ~ 則轉換當前使用者,使用 ~{username} 則會從 /etc/passwd 查找特定用戶的根目錄並替換
  • 好處是簡潔,及避免在程序裡把路徑寫死,壞處是可移植性差,許多商用 UNIX 的 Bourne Shell 不支援

通配符 wildcard

  • Shell 會將命令行提供的模式,至換成符合模式的一組排序過的文件名
  • 範圍表示法雖然方便,但你不應該對包含在範圍的字串有太多的假設,比較安全的方式是:分別指定所有大寫字母、小寫字母、數字、或子範圍,避免使用像 [a-Z][A-z] 這樣的用法
  • 使用範圍更大的問題是不同 locale 間的可移植性
  • 習慣上,當執行通配符展開時,UNIX Shell 會忽略以點號(.)開頭的文件,這些文件通常是配置文件或啟動文件

基本通配符

命令替換 command substitution

  • 將命令替換語句替換為執行結果
  • 形式有兩種:使用反引號(`),或將命令括在 $() 裡,在內嵌的用法上,第二種用法有利於增加可讀性,且內嵌的雙引號不須再進行(\)轉義

範例:根據使用的 shell 歸類使用者

expr 命令

  • 「UNIX 少數設計得不嚴謹卻又難用的命令」,不建議使用,可以以 test 或 $((...)) 代替
  • 通常在命令替換語句中使用,通過打印的方式將值返回標準輸出
  • 支持 32 及 64 位元的算術運算,幾乎不會有 overflow 的問題

引用 quoting

用來防止 Shell 將某些你想要的東西解釋成不同意義,有三種方式:
* 反斜槓轉義
* 單引號:強制將字符都看作字面上的意義(即便是反斜槓),不可再內嵌單引號
* 雙引號:同單引號的引用功能,差別在於,使用雙引號引用會確切處理轉義字符、變量、算術、命令替換,雙引號其中的單引號不具特殊意義

Read More »Classic Shell Scripting 讀書筆記 (四)

Classic Shell Scripting 讀書筆記 (三)

  • Ops

test 命令

  • POSIX 將 test 的參數描述為「表達式」:
    • 一元(unary)表達式:由看似一個選項(如-d)與相對應的運算數組成(基本上是一個文件名)
    • 二元(binary)表達式:兩個運算數與一個內嵌的運算元組成,做某種比較操作
  • test 命令有另一種形式 [ expression ],方括號與表達式一定要以空白隔開
  • 表達式可以前置 ! 表示否定

在 XSI 兼容的系統裡,-a 意義等同於 &&; 為了可移植性,建議使用多重條件而非 -a, -o

使用 test 的訣竅

  • 須有參數(避免 null),因此變量展開都要以引號括起來
  • 為了可移植最大化,可以替比較字符串加上前綴 X,例如 if [ "X$answer" = "Xyes" ],可以避免字符串為空或開頭帶減號而混淆 test 命令
  • test 是可以被愚弄的,例如 test -r a_file && cat_file,a_file 可能會在執行 test 與執行 cat 之間改變
  • 只能做整數測試

範例:檢查輸入參數

Read More »Classic Shell Scripting 讀書筆記 (三)

Classic Shell Scripting 讀書筆記(二)

  • Ops

排序文本 sort

locale 對排序的影響

重音位置不同的法文單字

查看字元在 ISO 的八進位數值

分別用傳統 ASCII 和 Canadian-French(系統必須先安裝法文)排序,結果不同

注意空白

-k 指定排序字段時

  • 如未以 -t 指定分隔符號,預設以空白分隔並忽略開頭與結尾的空白
  • 如果指定 -t,則開頭與結尾的空白不會被忽略,例如 ” -X- ” 以 -t " " 分隔,會被分成三個字段: 空白, “-X-” 及空白
  • 如果僅指定一個字段編號,意思是「從該字段開始,一直比對到行的結尾」
  • -k{n},{m} 格式代表「從第 n 個字段開始,至第 m 個字段結尾」
  • -k{n.i},{m.j} 格式代表「從第 n 個字段第 i 個字元開始,至第 m 個字段第 j 個字元結尾」

穩定性

紀錄內的排序字段都相同,但輸出與輸出不一致,代表 sort 並不穩定。GNU 實現了 coreutils 套件,可透過 --stable 彌補這個不足

排除重複

使用 -u 排除重複是基於 key 而非整筆紀錄,如果是後者,則可以搭配 uniq 工具使用

Read More »Classic Shell Scripting 讀書筆記(二)

Classic Shell Scripting 讀書筆記(一)

  • Ops

入門

printf

  • 格式聲明 (format specfications) 是一種佔位符號 (placeholder),結構包含 1) 百分比符號 (%) 2) 指示符 (specifier),常用的有字符串 %s 及十進位整數 %d

tr

範例:Translate DOS file to UNIX

  • tr -d: 自 stdin 刪除 source-char-list 的字符
  • \r: ASCII carriage return

/dev/tty

範例:Read password via /dev/tty

  • 當程序打開 /dev/tty 時,UNIX 會將它重定向到一個終端再與程序結合,該終端可以是 1)實體的 console 2) 串行端口 (serial port) 3) 偽終端 (pseudoterminal)
  • stty (set tty) 用來控制終端的設置,echo/-echo 選項用來開關自動打印輸入的功能

i18n and l10n

  • 當 i18n 作為設計軟體的過程時,無須再修改軟體或重新編譯程式代碼,就可以給特定的群體使用
  • 當 l10n 作為設計軟體的過程時,目的是讓特定的使用者可以使用軟體。其中包含翻譯輸出的文字、貨幣、日期、時間、單位等格式
  • 對使用者來說,用來控制讓哪種語言或文化環境生效的功能,叫做 locale
  • 除了 CPOSTFIX 以外,locale 名稱並未標準化
  • BSD 與 Mac OS X 完全不支援 locale
  • locale 的支援仍未成熟:Shell 腳本常受到 locale 影響;在大多數 UNIX 系統下,很難從 locale 文件與工具來判定字元集 (character class)、等價字元集 (equivalence class) 實際上包含了哪些字元,以及有哪些排序符號 (collating symbol) 可用。
  • Shell 腳本開發者應了解 locale 對他們代碼所造成的影響

列出所有 locales

取得特定 locale 的資訊

定義 LC_ALL 來覆寫預設的 locale,可查詢的變量有日期時間格式 LC_TIME、貨幣格式LC_MONETARY

Read More »Classic Shell Scripting 讀書筆記(一)