日期:2023年8月11日
前言
這幾天有一位大學的學長問到如何用 Python 寫 LibreOffice Calc 的巨集,但是目前網路上能找到的資料很少。後來學長想到另一個作法,不要寫巨集,只要用 Pythoon 程式從 ods 檔中讀取資料,在程式中處理完資料,再將資料寫入 ods 檔中,應該也能做到類似的效果。我在網路上找到一些套件,其中一個就是 pyexcel-ods3,經過測試後可以成功地讀取、寫入 ods 檔,以下是簡單的筆記。
安裝套件
如果只要處理 ods 檔,可以在命令列界面中輸入以下指令安裝套件
pip3 install pyexcel-ods3
如果還要處理其它格式的檔案,例如 xlsx,可以在命令列界面中輸入以下指令安裝套件
pip3 install pyexcel
由於處理資料時使用 NumPy ndarray 會比較方便,建議安裝 NumPy。
pip3 install numpy
雖然在以下的程式中會使用到 json 及 collections,但這兩個套件是預設的,不需要另外安裝。
基本語法
以下的程式碼中,假設已經引入函式庫
import pyexcel_ods3 as pe
import json
import numpy as np
from collections import OrderedDict
由 ods 檔讀取資料
語法為
輸入資料 = pe.get_data("檔名", start_row=索引值, row_limit=列數)
json.dumps(輸入資料)
- 如果 ods 檔與程式碼放在同一個資料夾中,可以只輸入檔名。
- start_row:從 0 開始算,如果 start_row=2 會從 ods 檔第3列開始讀取資料。
- row_limit:讀取資料列數。
- get_data 讀到的資料格式是 json,要用 json.dumps 將資料轉成 OrderedDict,key 值為分頁名稱,對應的 value 為二維 list。
- pyexcel 的概念是將一個分頁當作很大的二維陣列,所以讀取、寫入的分頁資料都會是二維 list,例如
[[1], [2], [3]] # 只有1欄、內容為1、2、3 [[1, 2, 3]] # 只有1列、內容為1、2、3
更新要寫入 ods 檔的資料
語法為
輸出資料 = OrderedDict()
輸出資料.update({"分頁名稱": 二維 list 資料})
資料格式是二維 list,如果使用 NumPy ndarray 會回傳錯誤訊息。將輸出資料寫入 ods 檔時會覆蓋掉原來的檔案內容,無法指定只寫入某個分頁,因此要記得將原來在檔案中的資料也用 update 加到輸出資料中。
將輸出資料寫入 ods 檔
語法為
save_data("檔名", 輸出資料)
如果執行程式時要寫入的 ods 檔已開啟,要先關閉再開啟 ods 檔才能看到寫入資料後的內容。
範例程式碼
由指定分頁讀取一欄資料,將處理後的資料寫到另一個分頁
假設檔案 test.ods 只有一個名為 Input 的分頁,只有 A 欄中有資料,資料為整數 1 到 10。以下的程式碼會從 Input 分頁讀取 A 欄資料,將資料存入 NumPy ndarray x,再將 x 乘以 2 之後存入 y,最後將 y 寫入 Output 分頁的 A 欄。
from pyexcel_ods3 import save_data, get_data
import json
import numpy as np
from collections import OrderedDict
# 由 ods 檔讀取並處理資料
dataIn = get_data("test.ods")
print(json.dumps(dataIn))
x = np.asarray([d[0] for d in dataIn["Input"]])
y = 2*x
x = x.reshape(len(x), 1).tolist()
y = y.reshape(len(y), 1).tolist()
# 將資料寫入 ods 檔
dataOut = OrderedDict()
dataOut.update({"Input": x})
dataOut.update({"Output": y})
save_data("test.ods", dataOut)
- 第8行:由於 dataIn["Input"] 的值為二維 list,先用 for 迴圈取出 d[0] 的資料,再用 np.asarray 轉成 NumPy ndarray 指定給變數 x。
- 第10、11行:如果 x、y 原來的長度為 N,先用 reshape 將 x、y 轉成 $N \times 1$ 的二維 ndarray,再用 tolist() 轉換成 list,最後分別指定給 x、y。
- 第16行:用 save_data() 將資料 dataOut 寫入 test.ods。
由指定分頁讀取2欄資料,將處理後的資料寫到另一個分頁
假設檔案 test2.ods 只有一個名為 Input 的分頁,A、B 欄中有皆資料。以下的程式碼會從 Input 分頁讀取 A、B 欄資料,將 A 欄資料存入 x,再將 x 乘以 2 之後存入 z;將 B 欄資料存入 y,再將 y 乘以 3 之後存入 a;最後將 z、a 寫入 Output 分頁的 A、B 欄。
輸入、輸出資料
Input A 欄 | Input B 欄 | Output A 欄 | Output B 欄 |
---|---|---|---|
1 | 0.1 | 2 | 0.3 |
2 | 0.2 | 4 | 0.6 |
3 | 0.3 | 6 | 0.9 |
4 | 0.4 | 8 | 1.2 |
5 | 0.5 | 10 | 1.5 |
6 | 0.6 | 12 | 1.8 |
7 | 0.7 | 14 | 2.1 |
8 | 0.8 | 16 | 2.4 |
9 | 0.9 | 18 | 2.7 |
10 | 1.0 | 20 | 3.0 |
import pyexcel_ods3 as pe
import json
import numpy as np
from collections import OrderedDict
# 由 ods 檔讀取並處理資料
dataIn = pe.get_data("test2.ods")
json.dumps(dataIn)
x = np.asarray([d[0] for d in dataIn["Input"]])
y = np.asarray([d[1] for d in dataIn["Input"]])
z = 2*x
a = 3*y
# 將資料寫入 ods 檔
dataOut = OrderedDict()
dataOut.update({"Input": list(zip(x.tolist(), y.tolist()))})
dataOut.update({"Output": list(zip(z.tolist(), a.tolist()))})
pe.save_data("test2.ods", dataOut)
大部分的程式碼與前一個範例相似,以下只說明第14、15行。由於 x、y、z、a 都是一維 ndarray,需要先轉成二維 list 才能加到 dataOut 當中,可以分為以下3個步驟:
- 用 tolist() 從 ndarray 轉換成 list。
- 用 zip() 將轉換後的兩個 list 依序取出元素,組成兩個一組的數組 (tuple)。
- 用 list() 將一連串的數組轉換成二維 list,例如 x、y 轉換後的資料為
[(1, 0.1), (2, 0.2), (3, 0.3), (4, 0.4), (5, 0.5), (6, 0.6), (7, 0.7), (8, 0.8), (9, 0.9), (10, 1.0)]
結語
由於使用 LibreOffice Calc 的人比較少,想要用 Python 讀取、寫入 ods 檔的人更少,網路上相關的文章特別難找,希望這篇筆記能幫助到有需要的人。
參考資料
HackMD 版本連結:https://hackmd.io/@yizhewang/BkuKCQ722
沒有留言:
張貼留言