Skip to content

Python

Fluent Python 讀書筆記(八)

  • Python

類別中繼編程

  • 「中繼類別是比 99% 使用者鎖想的還要艱深的魔法。如果你想知道自己是否須要他們,其實你不需要。」
  • 類別中繼邊程是在執行階段建立/自訂類別的技巧
  • 類別是一級物件,無論什麼時候,都可以用函式來建立新的類別(諸如類別修飾器),不需要 class 關鍵字
  • 中繼類別很強大,但很難正確使用,事實上,很難在實際的程式中使用
  • 編寫中繼程式的先決條件是了解匯入階段與執行階段的差異
  • 「如果你不在製作框架,就不該編寫中繼類別」

自訂一個類似 collections.namedtuple 的簡易紀錄型類別工廠

對這種紀錄型的類別而言,我們希望屬性群都是相同的,而且擁有相同順序

此範例建立的類別有一個限制:無法被序列化,即無法與 picle 模組的 dumpload 函式一起使用

在類別中定義 __slots__,等於告訴解譯器「它們都是這個類別的實例屬性」,這些屬性會被存在一個類 tuple 結構,避免每一個實例的 __dict__ 產生記憶體開銷

當類別指定 __slots__ 時,它的實例無法使用任何指定之外的屬性(這是一種副作用/缺點),單純為了做這種屬性限制而使用 __slots__ 並不是一個好的作法。__slots__ 的目標是最佳化,而不是限制開發者的行為


  • 我們通常會把 type 當成函式來用,但它同時是個類別,如果你用三個引數來呼叫,它的行為就像類別,會實體化一個新的類別
  • 避免使用 execeval 來編寫中繼程式是一種好的習慣。如果不受信任的來源傳送字串/段落給這些函式,會造成嚴重的後果;Python 提供足夠的自我檢查工具,execeval 在大部分情況下沒必要使用
  • 類別描述器有一個重大的缺點在於,它們只能在直接套用的類別上動作——被修飾類別的子類別可能不會繼承修飾器所作的改變
  • 「匯入階段(import time)」、「執行階段(runtime)」這些用語沒有經過嚴謹定義,而且它們之間有灰色地帶
  • 在匯入階段,解譯器會完整解析 .py 模組的程式碼,並產生執行的 bytecode——這就是可能會發生語法錯誤的地方(如果在本地的 __pycache__ 有最新的 .pyc,這個步驟會被跳過)
  • 雖然編譯(compiling)的確是匯入階段的動作,但這個階段也會發生其他事情——特別是 import 陳述式,它並非只是一個宣告(對比 Java 的 import)——當程序首次匯入模組時(尚無快取時),它會執行被匯入模組的所有最高層級的程式碼,包含執行階段的行為
  • 最高層級的程式碼特指類別的內文(包含嵌套的類別),解譯器會在匯入階段執行它們;相反地,對函式而言,解譯器只會編譯內文、將函式物件加到全域名稱,但不會執行函式內文
    • 類別若是有使用類別修飾器,該修飾器函式也會被執行
    • 類別的中繼類別的方法 __init__ 也會被執行

Read More »Fluent Python 讀書筆記(八)

Fluent Python 讀書筆記(七)

動態屬性與特性

  • 方法(method)只是一種可以被呼叫的屬性(attribute)
  • 特性(property)可以用來代替公開的資料屬性,不會變動到類別介面
  • 編寫動態屬性,是框架作者會採取的一種中繼編程(metaprogramming)
  • 從任意來源產生或模擬動態屬性名稱,都要處理一個問題;原始資料中的 key 可能不適合當成屬性名稱,例如 key 是關鍵字(keyword.iskeyword())或非法的識別符(s.isidentifier()

範例:使用動態屬性來探索 JSON 格式的資料

透過遞迴來建構,可自動處理嵌套的映射與串列

留意這裡沒有對查詢進行任何快取或轉換


建構實例的特殊方法是類別方法 __new__,他可以回傳完全不同的實例,在這種情況下解譯器不會呼叫 __init__

以下為建構實例的虛擬程式

Read More »Fluent Python 讀書筆記(七)

Fluent Python 讀書筆記(六)

此筆記適用 Python 3.4,部份已不相容後續版本的套件與 API

以 futures 撰寫並行

  • futures —— 非同步執行某項操作的物件
  • 網路 I/O 涉及高度延遲,須要用到並行來有效處理
  • 在公用 Web 測試並行 HTTP 用戶端,你可能會無意中啟動一個阻斷服務攻擊(DOS),或被懷疑在做這件事…要測試複雜的用戶端,你應該設定自己的測試伺服器(作法說明
  • requests 已經被視為 Python 式 API 的典範,它比標準函式庫 urllib.request 還要強大
  • concurrent.futures 主要功能是能讓你分別提交(submit)在不同執行緒/程序執行的可呼叫物(callables),實作於 ThreadPoolExecutorProcessPoolExecutor 的介面(分別在內部管理一個 worker thread pool 及 process pool)

多執行緒並行起手勢

使用單純迴圈來取代 ThreadPoolExecuter.map

使用手動呼叫 result 取代隱式的 next 呼叫(阻塞式):

使用 as_completed 取代阻塞式的結果查詢(完成後才產出),必須放在 Context Manager 區塊內,因為預設的 __exit__ 會阻塞:

Read More »Fluent Python 讀書筆記(六)

Fluent Python 讀書筆記(五)

  • Python

控制流程

  • 在大部分情況下,Python 社群將 Iterator 與 Generator 視為同義詞
  • Python 所有集合都是可迭代的
  • 內部的 for 迴圈、集合生成式、變數和引數的 Unpacking 都會用到 Iterator
  • iter() 會先參考 __iter__,其次才參考 __getitem__,都沒有的話,發出 TypeError 代表「該物件不可迭代」(此處 __getitem__ 的參考在以後可能被棄用)
  • 承上,可迭代物件不一定滿足 isinstance(C, abc.Iterable)(在未實作 __iter__ 的情況下),為了避免這個誤區,要判斷物件是否可迭代,最準確的方式是呼叫 iter() 看看
  • 如果 iter() 會過,那物件是「Iterable」;實作 __iter__ ,須回傳一個「Iterator 實體」—— Python 會跟 Iterable 索取 Iterator
  • Iterator 類別的標準介面:__iter____next____next__ 負責回傳下一個項目或發起 StopIteration,__iter__ 則單純回傳 self
  • 不要把 Iterable 跟 Iterator 混為一談,「Iterable 有一個 __iter__ 方法,這個方法每次都會實例化一個新的 Iterator」
  • Iterator 也是 Iterable,但 Iterable 不是 Iterator。Iterable 永遠不該扮演自己的 Iterator
  • Iterator 獨立出來的用意是「每一個迭代器都能保存它自己的內部狀態」
  • 除了回傳獨立的 Iterator 實體,也可以將 __iter__ 變成一個「Generator 函式」,藉由回傳一個「Generator 實體」,以介面而言,Generator 是 Iterator,它會在內文結束時發出 StopIteration
  • 用一個「 lazy 的產生器」取代一個「儲存所有資料的迭代器實體」是更好的,因為只要在必要時(最後一刻)才產生值,可以節省大量記憶體
  • Iterator 的另一個功能是「延緩工作」、「一次只產生一個項目」
  • 「當你在用 Python3 想著『有更 lazy 的作法嗎?』的時候,答案通常都是『有』」
  • yield from 不只是一個糖衣語法,除了取代迴圈之外,它也是一個管道,連接外部產生器,接收外部產生器的值
  • allany 有一種重要的優化是 reduce 無法作到的,那就是 short-circuit,確定結果後就停止
  • sorted 可以接收任意的 Iterable
  • iter() 的另一個功能:傳入一個 Callable 及一個標記值(sentinel),當回傳值等同此標記時,停止迭代
  • 無論資料大小為何,Generator 提供一種有彈性的解決方案,把大型資料集當做資料流來處理
  • .send() 同樣會讓產生器進入下一個 yield,但是它也可以用來傳入資料,相較於 next() 單純接收資料,.send() 可讓使用者與產生器雙向交換資料——變成協同程序 (coroutines)
  • 「在內文埋入一個 yield,不足以提醒那一個語意有如此不同」(但 Guido 討厭使用新的關鍵字)
  • 以實作而言,Generator 是一種語言結構,以函式或表達式編寫,呼叫時回傳 GeneratorType
  • 以概念而言,不管 Iterator 內部有多複雜(例如是一個樹狀資料結構),它的資料永遠只有一個來源(自己本身);至於產生器,則不一定只產生集合裡面的項目
  • 「Iterator 最簡單的介面是由 First、Next、IsDone、CurrentItem 的操作組成」,在 Python 它的介面更精簡:next()StopIteration

Read More »Fluent Python 讀書筆記(五)

Fluent Python 讀書筆記(四)

  • Python

介面:從協定到 ABC

  • 「抽象類別代表介面」
  • Python 自 2.6 版本之後加入 ABC (abstact base class),大多被定義在 collections.abc 模組
  • 當你需要實作介面時,第一步是將它們當成超類別 (superclasses),ABC 會檢查具體子類別是否符合這個介面
  • ABC 與描述器 (descriptors)、中繼類別(metaclasses)一樣,是建構框架的工具,過度使用 ABC 的風險是非常高的
  • 可以把介面想成「某個物件的公用方法的子集合(subsets)」,這個子集合可以在系統中發揮具體的作用(常在文件看到 “a file-like object”、”an iterable” 的字眼都是在指涉這件事)
  • 協定(protocal) 是非正式的介面,只由文件與慣例定義,無法被強制實施,例如:選擇只實作序列協定的某些方法如 __getitem__,而不是繼承 abc.Sequence
  • Python 資料模型的哲學,就是盡可能地與基本協定合作
  • isinstance(obj, cls) 沒有那麼糟,只要 cls 是一個 ABC
  • 所謂的 goose typing ,是相對於協定的 duck typing,鼓勵我們可以去實作 ABC 的介面(透過繼承而非自造輪子)
  • Python ABC 有類別方法 register 可以讓使用者「宣告」某個類別是 ABC 的一個「虛擬子類別 (virtual subclasses)」,而不用實際的繼承,簡單來說就是讓 Python 相信我們會實作介面而不實際檢查(如果有任何問題,就讓在執行階段拋出例外吧)
  • 除了透過函式呼叫來註冊,在 Python 3.4 之後提供了類別修飾器 @<ABC classname>.register
  • 有些子類別不一定要明確的註冊或繼承,也可以成為特定 ABC 的子類別,例如 __len__ 之於 abc.Sized(背後是透過 __subclasshook__ 來實現的,類似的實作少之又少)
  • 不要在程式中自訂 ABC 或 metaclass」—— 從 ABC 繼承方法比實作需要的方法還要好,ABC 的目的是封裝因為框架而產生的一般性、抽象概念,例如這是一個「序列」與「確切的數字」
  • 「ABC 的流行可能是個災難,它對語言施加過度的儀式」
  • numbers 裡面定義了數值的 ABC,最頂層的超類別是 numbers.Number

image

  • IndexErrorKeyError 都是 LookupError 的子類別
  • 宣告 ABC 有兩種方式: 1. 繼承 abc.ABC(3.4 之後才加入) 2. 指定 metaclass=abc.ABCMeta (3~3.4 的限定作法)
  • 諸如 @abstractclassmethod 的冗員裝飾器已被 ABC 棄用,要用的話,只要單純疊加 @classmethod@abc.abstractmethod 即可(要注意順序)
  • 「雖然 ABC 有助於型態檢查,但不應該過度使用它。Python 的核心是動態語言,到處限制型態,可能會讓程式變成沒必要的複雜」
  • 型態提示 (type hints) 是註釋的一種,可以在函式定義中指名參數的型態及回傳何種型態,沒有強致力

Read More »Fluent Python 讀書筆記(四)

Fluent Python 讀書筆記(三)

物件參考、可變性與重複使用

  • 「變數是標籤,不是盒子」
  • 使用參考變數 (reference variable) 時,說「變數被指派給一個物件」會比較合理,畢竟——物件是在賦值之前建立的
  • 兩個變數被指派到同一個物件時,這兩個變數互為「別名(alias)」
  • 「每一個物件都有一個身份(ID)、一個型態跟一個值」,在 CPython,這個身份是 id(),回傳物件的記憶體位置(不同解譯器可能會使用不同東西作為 ID)
  • == 比較物件的值;is 比較物件的 ID
  • is== 快,因為它無法多載(不需要尋找或呼叫特殊方法來演算出一個值)
  • 原始物件的 __eq__ 會比較 ID,但大多數覆寫 __eq__ 的情況通常會加入或使用別的比較
  • tuple 不可變的意思是「保存在它當中的物件參考 ID 不變」,即使 tuple 可能存了可變的物件
  • 淺複製 (shallow copy) 即容器本身會被複製,但新的容器裡面保存的是舊的參考,例如 arr[:]arr.copy()copy(arr)
  • 實作 deep copy 要小心物件可能會循環參考 (Ring),要判斷物件是否已經複製過
  • 覆寫 __copy____deepcopy__ 可以控制 copy.copy()copy.deepcopy() 的行為
  • Python 函式傳遞的是參考(call by sharing) —— 即函數的參數 (parameter) 會指向引數 (argument) 的參考,換句話說,「函式內的參數就是其實際引數的別名」
  • 同上,這也是為什麼「函式的預設參數不要使用可變型態」,簡單的改良:預設為 None,在函式中判斷是否初始化新的可變物件
  • del 刪除的是參考,而不是物件本身;物件只有在「參考數量變成零」的情況下才有可能被回收,這種銷毀可能不是立即性的
  • CPython 回收記憶體的演算法主要是計算參考數量,這個參考數量存在物件本身,但假若有循環參考時,容易發生 memory leak
  • 在 CPython 的實作下,對 tuplestrbytes而言 s[:] 不會製作複本,而是回傳物件的參考
  • 在使用執行緒時,修改可變物件很難得到正確的結果:無法適當同步的執行序,會導致資料損毀;過度同步的執行序,會造成 deadlock

弱參考 (Weak Reference)

  • 常用在使用快取的情境下,須要「參考一個不會被保存太久的物件」
  • 弱參考是一種可呼叫的物件,它會回傳參考的物件,或者 None
  • 使用弱參考而非賦值,就不會讓物件的「參考數量」增加
  • 考慮使用 WeakKeyDictionaryWeakValueDictionaryWeakSetfinalize 這些內部使用弱參考的高階界面,而非自己用 weakref.ref 實作
  • 因為實作的限制,listdict 的子類別可以被弱參考(原始型態不行),而 inttuple 則完全無法被弱參考


字串常值的共用,是一種優化技術,稱為 interning,Cpython 會對小型的整數使用相同的技術,來避免沒必要的重複

Read More »Fluent Python 讀書筆記(三)