2018年1月7日 星期日

Pandas (學習筆記I)

Why Pandas?

Pandas是python中常用的套件之一,如同 numpy 能延伸 python 的 list,pandas 能延伸 python 的 dictionary 。

A little bit Review

  • python中的list是以[]將元素包起來。
  • tuple中的元素則不能變更,以tuple()的方式建立物件,或將list轉換成tuple。
  • set則是無序的集合,可以set()將list轉成set,要注意的是set中元素不重覆。
  • dictionary則是帶有鍵值(key)的list,以{}建立dictionary物件,或利用dict()函數轉換list成為dictionary。

pandas DataFrames

Method 1:
.iloc[,]            #可協助我們擷取資料的一部分

例如我們有下列的資料,已預設於df

.iloc[:3,:]      #擷取資料的前三row


.iloc[-3:,:]       #擷取資料的後三row

補充: iloc vs loc
上述index的數字跟一般python的"位移"概念是類似的。但是.loc (少個i)是明確的索引:

.iloc 背雖然好用,但背後的索引概念卻限制了遮罩(mask)的使用。如下列例子是mask的應用,必須使用明確index的.loc:



Method 2:
.head()           #可協助我們擷取起始資料的部分

.head(3)         #擷取資料的前三row

Method 3:

.tail()               #可協助我們擷取資料尾端的部分

.tail()               # 若不給argument,預設是顯示後five rows

.tail(3)    # 擷取資料尾端的部分
Attribute 1:
.info       # 顯示資料相關資訊,包含index種類、column的標籤等等
                            (因為本例較簡單,所以幾乎是整個表了)

Attribute 2:
.values           # 以numpy array的方式顯示表格資料

其他:

NaN  (Not-a-Number)可以用來表示資料中不見的data

參考資料

R 語言使用者的 Python 學習筆記系列

沒有留言:

張貼留言