不惑之年: Python:刪除重複值

2018年6月10日星期日

Python:刪除重複值

最近試著寫個有關於字串的程式，其中必須要把重複值去掉，這才發現沒想像中那麼簡單。把結果紀錄如下。

當然最直觀的做法就是寫個for 迴圈，找出重複的部分再重組成一個新的list，當然這樣做是可以的，但比較麻煩，也容易出錯，最"簡單"(程式碼較少)的作法是利用python的資料結構set。
我們都知道python中的set會把重複的部分去除(這是我們要的):

這邊我們有個list(new_list)，內有重複的'def'，我們將new_list轉成set，再轉回list就可以把重複值去除了。

但很明顯的是，這樣做的缺點是次序會被打亂，因此解決的方式就是另用sorted函式並加個key:

達成目標了!!!

不過或許會有疑問，為什麼不使用sort函式?
這是因為sort是inline的排列，並不會回傳排序後的新list(回傳值是None):

所以如果排序只是程式中的一個步驟，沒有回傳值會很麻煩，小弟才疏學淺，接下來我實在不知怎寫下去。

當然python資料處理就不能忘了資料清洗之王Pandas，有了pandas，我們就可以利用.drop_duplicates函式處理。先import pandas，再把資料轉成pandas的series:

接下來進行去重複值的工作:

這邊要注意的是，.drop_duplicates函式會回傳一個新的series，並不會更改原來的series。
到這邊好像跟之前的方法大同小異，還要import pandas，好像也沒有更簡單，不過如果這麼想，這就太小看pandas了，.drop_duplicates函式預設的是保留(keep)第一個重複的值(keep='first')，刪除其他的重複值，但如果是你想保留最後一個呢?嘿嘿~~~這就非得用pandas了，將函式中的keep值設為'last':

如果心情不好，重複的值都去掉也可以，keep設為False就可:

不惑之年

2018年6月10日星期日

Python:刪除重複值

沒有留言:

張貼留言

熱門文章

2018年6月10日 星期日

Python:刪除重複值

沒有留言:

張貼留言

2018年6月10日星期日