fluent python

Fluent Python 讀書筆記（八）

2022 年 5 月 18 日2022 年 5 月 18 日
Python

類別中繼編程

「中繼類別是比 99% 使用者鎖想的還要艱深的魔法。如果你想知道自己是否須要他們，其實你不需要。」
類別中繼邊程是在執行階段建立/自訂類別的技巧
類別是一級物件，無論什麼時候，都可以用函式來建立新的類別（諸如類別修飾器），不需要 class 關鍵字
中繼類別很強大，但很難正確使用，事實上，很難在實際的程式中使用
編寫中繼程式的先決條件是了解匯入階段與執行階段的差異
「如果你不在製作框架，就不該編寫中繼類別」

自訂一個類似 collections.namedtuple 的簡易紀錄型類別工廠

對這種紀錄型的類別而言，我們希望屬性群都是相同的，而且擁有相同順序

此範例建立的類別有一個限制：無法被序列化，即無法與 picle 模組的 dump、load 函式一起使用

在類別中定義 __slots__，等於告訴解譯器「它們都是這個類別的實例屬性」，這些屬性會被存在一個類 tuple 結構，避免每一個實例的 __dict__ 產生記憶體開銷

當類別指定 __slots__ 時，它的實例無法使用任何指定之外的屬性（這是一種副作用/缺點），單純為了做這種屬性限制而使用 __slots__ 並不是一個好的作法。__slots__ 的目標是最佳化，而不是限制開發者的行為

我們通常會把 type 當成函式來用，但它同時是個類別，如果你用三個引數來呼叫，它的行為就像類別，會實體化一個新的類別
避免使用 exec 或 eval 來編寫中繼程式是一種好的習慣。如果不受信任的來源傳送字串/段落給這些函式，會造成嚴重的後果；Python 提供足夠的自我檢查工具，exec、eval 在大部分情況下沒必要使用
類別描述器有一個重大的缺點在於，它們只能在直接套用的類別上動作——被修飾類別的子類別可能不會繼承修飾器所作的改變
「匯入階段(import time)」、「執行階段(runtime)」這些用語沒有經過嚴謹定義，而且它們之間有灰色地帶
在匯入階段，解譯器會完整解析 .py 模組的程式碼，並產生執行的 bytecode——這就是可能會發生語法錯誤的地方（如果在本地的 __pycache__ 有最新的 .pyc，這個步驟會被跳過）
雖然編譯(compiling)的確是匯入階段的動作，但這個階段也會發生其他事情——特別是 import 陳述式，它並非只是一個宣告（對比 Java 的 import）——當程序首次匯入模組時（尚無快取時），它會執行被匯入模組的所有最高層級的程式碼，包含執行階段的行為
最高層級的程式碼特指類別的內文（包含嵌套的類別），解譯器會在匯入階段執行它們；相反地，對函式而言，解譯器只會編譯內文、將函式物件加到全域名稱，但不會執行函式內文
- 類別若是有使用類別修飾器，該修飾器函式也會被執行
- 類別的中繼類別的方法 __init__ 也會被執行

Read More »Fluent Python 讀書筆記（八）

Fluent Python 讀書筆記（七）

2022 年 5 月 17 日
Python

動態屬性與特性

方法（method）只是一種可以被呼叫的屬性（attribute）
特性（property）可以用來代替公開的資料屬性，不會變動到類別介面
編寫動態屬性，是框架作者會採取的一種中繼編程(metaprogramming)
從任意來源產生或模擬動態屬性名稱，都要處理一個問題；原始資料中的 key 可能不適合當成屬性名稱，例如 key 是關鍵字（keyword.iskeyword()）或非法的識別符（s.isidentifier()）

範例：使用動態屬性來探索 JSON 格式的資料

透過遞迴來建構，可自動處理嵌套的映射與串列

留意這裡沒有對查詢進行任何快取或轉換

建構實例的特殊方法是類別方法 __new__，他可以回傳完全不同的實例，在這種情況下解譯器不會呼叫 __init__

以下為建構實例的虛擬程式

def obj_maker(the_class, some_arg):

obj = the_class.__new__(some_arg)

if isinstance(obj, the_class):

the_class.__init__(obj, some_arg)

return obj

Read More »Fluent Python 讀書筆記（七）

Fluent Python 讀書筆記（六）

2022 年 5 月 10 日
Python

註

此筆記適用 Python 3.4，部份已不相容後續版本的套件與 API

以 futures 撰寫並行

futures —— 非同步執行某項操作的物件
網路 I/O 涉及高度延遲，須要用到並行來有效處理
在公用 Web 測試並行 HTTP 用戶端，你可能會無意中啟動一個阻斷服務攻擊（DOS），或被懷疑在做這件事…要測試複雜的用戶端，你應該設定自己的測試伺服器（作法說明）
requests 已經被視為 Python 式 API 的典範，它比標準函式庫 urllib.request 還要強大
concurrent.futures 主要功能是能讓你分別提交（submit）在不同執行緒/程序執行的可呼叫物（callables），實作於 ThreadPoolExecutor、ProcessPoolExecutor 的介面（分別在內部管理一個 worker thread pool 及 process pool）

多執行緒並行起手勢

# 以 worker 數量來初始化

with futures.ThreadPoolExecuter(MAX_WORKERS) as executor:

# func 函式同時被多個執行緒呼叫，回傳一個產生器

res = executor.map(func, tasks)

# executor.__exit__ 方法呼叫 executor.shutdown(wait=True)

# 這個動作會被**阻塞**直到所有執行緒都完成

# 迭代取出每一個呼叫的回傳值

# 隱式的 next() 會呼叫每一個 future.result()

# 如果有任何執行緒在呼叫時出錯，會在這邊發出例外

result = list(res)

使用單純迴圈來取代 ThreadPoolExecuter.map：

with futures.ThreadPoolExecuter(MAX_WORKERS) as a executor:

future_stack = []

for task in tasks:

future_stack.append(executor.submit(func, task))

使用手動呼叫 result 取代隱式的 next 呼叫（阻塞式）：

result = []

for future in future_stack:

result.append(future.result())

使用 as_completed 取代阻塞式的結果查詢（完成後才產出），必須放在 Context Manager 區塊內，因為預設的 __exit__ 會阻塞：

with futures.ThreadPoolExecuter(MAX_WORKERS) as a executor:

...

result = []

for future in futures.as_completed(future_stack):

result.append(future.result())

Read More »Fluent Python 讀書筆記（六）

Fluent Python 讀書筆記（五）

2022 年 5 月 1 日2022 年 5 月 12 日
Python

控制流程

在大部分情況下，Python 社群將 Iterator 與 Generator 視為同義詞
Python 所有集合都是可迭代的
內部的 for 迴圈、集合生成式、變數和引數的 Unpacking 都會用到 Iterator
iter() 會先參考 __iter__，其次才參考 __getitem__，都沒有的話，發出 TypeError 代表「該物件不可迭代」（此處 __getitem__ 的參考在以後可能被棄用）
承上，可迭代物件不一定滿足 isinstance(C, abc.Iterable)（在未實作 __iter__ 的情況下），為了避免這個誤區，要判斷物件是否可迭代，最準確的方式是呼叫 iter() 看看
如果 iter() 會過，那物件是「Iterable」；實作 __iter__ ，須回傳一個「Iterator 實體」—— Python 會跟 Iterable 索取 Iterator
Iterator 類別的標準介面：__iter__ 跟 __next__，__next__ 負責回傳下一個項目或發起 StopIteration，__iter__ 則單純回傳 self
不要把 Iterable 跟 Iterator 混為一談，「Iterable 有一個 __iter__ 方法，這個方法每次都會實例化一個新的 Iterator」
Iterator 也是 Iterable，但 Iterable 不是 Iterator。Iterable 永遠不該扮演自己的 Iterator
Iterator 獨立出來的用意是「每一個迭代器都能保存它自己的內部狀態」
除了回傳獨立的 Iterator 實體，也可以將 __iter__ 變成一個「Generator 函式」，藉由回傳一個「Generator 實體」，以介面而言，Generator 是 Iterator，它會在內文結束時發出 StopIteration
用一個「 lazy 的產生器」取代一個「儲存所有資料的迭代器實體」是更好的，因為只要在必要時（最後一刻）才產生值，可以節省大量記憶體
Iterator 的另一個功能是「延緩工作」、「一次只產生一個項目」
「當你在用 Python3 想著『有更 lazy 的作法嗎？』的時候，答案通常都是『有』」
yield from 不只是一個糖衣語法，除了取代迴圈之外，它也是一個管道，連接外部產生器，接收外部產生器的值
all、any 有一種重要的優化是 reduce 無法作到的，那就是 short-circuit，確定結果後就停止
sorted 可以接收任意的 Iterable
iter() 的另一個功能：傳入一個 Callable 及一個標記值（sentinel），當回傳值等同此標記時，停止迭代
無論資料大小為何，Generator 提供一種有彈性的解決方案，把大型資料集當做資料流來處理
.send() 同樣會讓產生器進入下一個 yield，但是它也可以用來傳入資料，相較於 next() 單純接收資料，.send() 可讓使用者與產生器雙向交換資料——變成協同程序 (coroutines)
「在內文埋入一個 yield，不足以提醒那一個語意有如此不同」（但 Guido 討厭使用新的關鍵字）
以實作而言，Generator 是一種語言結構，以函式或表達式編寫，呼叫時回傳 GeneratorType
以概念而言，不管 Iterator 內部有多複雜（例如是一個樹狀資料結構），它的資料永遠只有一個來源（自己本身）；至於產生器，則不一定只產生集合裡面的項目
「Iterator 最簡單的介面是由 First、Next、IsDone、CurrentItem 的操作組成」，在 Python 它的介面更精簡：next() 跟 StopIteration

Read More »Fluent Python 讀書筆記（五）

Fluent Python 讀書筆記（四）

2022 年 4 月 5 日2022 年 5 月 1 日
Python

介面：從協定到 ABC

「抽象類別代表介面」
Python 自 2.6 版本之後加入 ABC (abstact base class)，大多被定義在 collections.abc 模組
當你需要實作介面時，第一步是將它們當成超類別 (superclasses)，ABC 會檢查具體子類別是否符合這個介面
ABC 與描述器 (descriptors)、中繼類別(metaclasses)一樣，是建構框架的工具，過度使用 ABC 的風險是非常高的
可以把介面想成「某個物件的公用方法的子集合(subsets)」，這個子集合可以在系統中發揮具體的作用（常在文件看到 “a file-like object”、”an iterable” 的字眼都是在指涉這件事）
協定(protocal) 是非正式的介面，只由文件與慣例定義，無法被強制實施，例如：選擇只實作序列協定的某些方法如 __getitem__，而不是繼承 abc.Sequence
Python 資料模型的哲學，就是盡可能地與基本協定合作
isinstance(obj, cls) 沒有那麼糟，只要 cls 是一個 ABC
所謂的 goose typing ，是相對於協定的 duck typing，鼓勵我們可以去實作 ABC 的介面（透過繼承而非自造輪子）
Python ABC 有類別方法 register 可以讓使用者「宣告」某個類別是 ABC 的一個「虛擬子類別 (virtual subclasses)」，而不用實際的繼承，簡單來說就是讓 Python 相信我們會實作介面而不實際檢查（如果有任何問題，就讓在執行階段拋出例外吧）
除了透過函式呼叫來註冊，在 Python 3.4 之後提供了類別修飾器 ＠<ABC classname>.register
有些子類別不一定要明確的註冊或繼承，也可以成為特定 ABC 的子類別，例如 __len__ 之於 abc.Sized（背後是透過 __subclasshook__ 來實現的，類似的實作少之又少）
「不要在程式中自訂 ABC 或 metaclass」—— 從 ABC 繼承方法比實作需要的方法還要好，ABC 的目的是封裝因為框架而產生的一般性、抽象概念，例如這是一個「序列」與「確切的數字」
「ABC 的流行可能是個災難，它對語言施加過度的儀式」
numbers 裡面定義了數值的 ABC，最頂層的超類別是 numbers.Number

IndexError、KeyError 都是 LookupError 的子類別
宣告 ABC 有兩種方式： 1. 繼承 abc.ABC（3.4 之後才加入） 2. 指定 metaclass=abc.ABCMeta （3~3.4 的限定作法）
諸如 @abstractclassmethod 的冗員裝飾器已被 ABC 棄用，要用的話，只要單純疊加 @classmethod、@abc.abstractmethod 即可（要注意順序）
「雖然 ABC 有助於型態檢查，但不應該過度使用它。Python 的核心是動態語言，到處限制型態，可能會讓程式變成沒必要的複雜」
型態提示 (type hints) 是註釋的一種，可以在函式定義中指名參數的型態及回傳何種型態，沒有強致力

Read More »Fluent Python 讀書筆記（四）

Fluent Python 讀書筆記（三）

2022 年 3 月 2 日
Python

物件參考、可變性與重複使用

「變數是標籤，不是盒子」
使用參考變數 (reference variable) 時，說「變數被指派給一個物件」會比較合理，畢竟——物件是在賦值之前建立的
兩個變數被指派到同一個物件時，這兩個變數互為「別名(alias)」
「每一個物件都有一個身份(ID)、一個型態跟一個值」，在 CPython，這個身份是 id()，回傳物件的記憶體位置（不同解譯器可能會使用不同東西作為 ID）
== 比較物件的值；is 比較物件的 ID
is 比 == 快，因為它無法多載（不需要尋找或呼叫特殊方法來演算出一個值）
原始物件的 __eq__ 會比較 ID，但大多數覆寫 __eq__ 的情況通常會加入或使用別的比較
tuple 不可變的意思是「保存在它當中的物件參考 ID 不變」，即使 tuple 可能存了可變的物件
淺複製 (shallow copy) 即容器本身會被複製，但新的容器裡面保存的是舊的參考，例如 arr[:]、arr.copy()、copy(arr)
實作 deep copy 要小心物件可能會循環參考 (Ring)，要判斷物件是否已經複製過
覆寫 __copy__ 和 __deepcopy__ 可以控制 copy.copy() 及 copy.deepcopy() 的行為
Python 函式傳遞的是參考(call by sharing) —— 即函數的參數 (parameter) 會指向引數 (argument) 的參考，換句話說，「函式內的參數就是其實際引數的別名」
同上，這也是為什麼「函式的預設參數不要使用可變型態」，簡單的改良：預設為 None，在函式中判斷是否初始化新的可變物件
del 刪除的是參考，而不是物件本身；物件只有在「參考數量變成零」的情況下才有可能被回收，這種銷毀可能不是立即性的
CPython 回收記憶體的演算法主要是計算參考數量，這個參考數量存在物件本身，但假若有循環參考時，容易發生 memory leak
在 CPython 的實作下，對 tuple、str、bytes而言 s[:] 不會製作複本，而是回傳物件的參考
在使用執行緒時，修改可變物件很難得到正確的結果：無法適當同步的執行序，會導致資料損毀；過度同步的執行序，會造成 deadlock

弱參考 (Weak Reference)

常用在使用快取的情境下，須要「參考一個不會被保存太久的物件」
弱參考是一種可呼叫的物件，它會回傳參考的物件，或者 None
使用弱參考而非賦值，就不會讓物件的「參考數量」增加
考慮使用 WeakKeyDictionary、WeakValueDictionary、WeakSet 與 finalize 這些內部使用弱參考的高階界面，而非自己用 weakref.ref 實作
因為實作的限制，list 跟 dict 的子類別可以被弱參考（原始型態不行），而 int、tuple 則完全無法被弱參考

>>> import weakref

>>> a_set = {0, 1}

>>> wref = weakref.ref(a_set)

>>> wref()

{0, 1}

>>> a_set = {2,3,4}

>>> wref()

{0, 1}

>>> wref() is None

False

>>> wref() is None

True

字串常值的共用，是一種優化技術，稱為 interning，Cpython 會對小型的整數使用相同的技術，來避免沒必要的重複

>>> s1 = 'ABC'

>>> s2 = 'ABC'

>>> s1 is s2

True

Read More »Fluent Python 讀書筆記（三）