Cách Sử Dụng Công Cụ Lập Trình Python Để Xử Lý Dữ Liệu Trong Pandas

-

Nếu bạn bước đầu tìm đọc và thao tác làm việc dữ liệu dạng bảng vào Python, thì nhiều năng lực bạn sẽ ban đầu với thư viện tên là Pandas, cũng chính vì Pandas là một trong thư viện khiến cho bạn làm vấn đề với dữ liệu rất dễ dàng và hiệu quả, nhiều quá trình xử lý dữ liệu các bạn sẽ mất công viết ra không ít code trong các công vắt khác, tuy nhiên với Pandas, bạn chỉ cần viết 1 dòng.

Bạn đang xem: Cách sử dụng công cụ lập trình Python để xử lý dữ liệu

Bài viết này đã như một bảng bắt tắt về các đoạn code Pandas hay được dùng trong việc xử lý tài liệu với Python để bạn cũng có thể tra cứu nhanh bằng phương pháp tìm kiếm, hãy bookmark lại bài viết để rất có thể tiện tra cứu ngay trong khi cần. Nếu như khách hàng đang search kiếm cách để có thể tự động hóa Excel từ bỏ Python, hãy đọc khóa học Lập trình liên tưởng Python Excel chìa khóa buổi tối ưu công việc


Xem nhanh


Cách đọc tài liệu trong Pandas Python
Cách xuất dữ liệu từ Pandas Data
Frame
Cách tạo thành dữ liệu test
Cách xem và đánh giá dữ liệu
Trích xuất một phần dữ liệu vào Pandas Data
Frame
Cách làm sạch tài liệu trong Pandas Data
Frame
Cách lọc, sắp đến xếp, nhóm tài liệu trong Pandas Data
Frame
Nối dữ liệu, gộp dữ liệu bằng Pandas Data
Frame
Thống kê tài liệu bằng Pandas Data
Frame

Lưu ý trước lúc bắt đầu

Như sẽ nói, chúng ta có thể bookmark lại nội dung bài viết này vào trình duyệt hâm mộ của bạn, khi bắt buộc tìm một quãng code làm sao đó, chúng ta có thể bấm Ctrl + F hoặc ⌘ + F (trên Mac)

Để áp dụng được các đoạn code trong bài bác này, họ có phần import như sau

import pandas as pdimport numpy as npvà họ có các đối tượng người sử dụng với tên ngắn gọn như sau:

df – Đối tượng Data
Frame trong Pandass – Đối tượng Series vào Pandas

Cách đọc dữ liệu trong Pandas Python

Các câu lệnh trong phần này giúp bạn cũng có thể load tuyệt import dữ liệu từ không ít nguồn và nhiều dạng tài liệu khác nhau

Cách phát âm dữ liệu xuất phát điểm từ 1 file CSV

pd.read_csv(filename)Cách đọc dữ liệu xuất phát điểm từ một file TSVpd.read_table(filename)Cách hiểu dữ liệu từ 1 file Excelpd.read_excel(filename)Cách phát âm dữ liệu xuất phát từ một cơ sở tài liệu SQLpd.read_sql(query, connection_object)Cách đọc tài liệu từ mối cung cấp JSON (file, string hoặc URL)pd.read_json(json_string)Cách đọc tài liệu từ mối cung cấp HTML (file, string hoặc URL)pd.read_html(url)Cách đọc dữ liệu từ Clipboardpd.read_clipboard()Nội dung của Clipboard sẽ tiến hành chuyển tới read_table()

Cách đọc tài liệu từ loại từ điển trong Python

pd.Data
Frame(dict)

Cách xuất dữ liệu từ Pandas Data
Frame

Trong phần này, chúng ta sẽ tổng hợp một trong những cách xuất tài liệu từ Pandas Data
Frame ra một vài nguồn thông dụng

Cách xuất dữ liệu từ Data
Frame ra tệp tin CSV

df.to_csv(filename)Cách xuất tài liệu từ Data
Frame ra file Exceldf.to_excel(filename)Cách xuất tài liệu từ Data
Frame ra SQLdf.to_sql(table_name, connection_object)Cách xuất tài liệu từ Data
Frame ra JSONdf.to_json(filename)

Cách tạo thành dữ liệu test

Những mẫu code trong phần này để giúp bạn tạo nên dữ liệu demo với sự giúp sức của tủ sách Numpy

Cách tạo nên bảng tài liệu test với Numpy và Pandas

Đoạn code này sẽ khởi tạo ra một bảng bao gồm 23 chiếc và 4 cột, được điền vào các giá trị đột nhiên từ Numpy

pd.Data

Cách xem và kiểm tra dữ liệu

Những câu lệnh trong phần này để giúp đỡ bạn đánh giá Data
Frame hoặc Series vào Panda theo một vị trí nắm thể.

Cách xem n dòng thứ nhất của Data
Frame

df.head(n)Cách xem n dòng sau cùng của Data
Framedf.tail(n)Cách lấy số mẫu số cột của Data
Framedf.shape
Cách mang số chiếc số cột của Data
Framedf.shape
Xem thông tin về Index, kiểu dữ liệu và dung tích của Data
Framedf.info()Tổng kết tin tức thống kê cho những cột gồm kiểu dữ liệu là sốdf.describe()Xem cực hiếm duy nhất cùng đếm số cực hiếm này, đếm cả trường hòa hợp NALưu ý Áp dụng cho đối tượng Series

s.value_counts(dropna=False)Tổng kết quý giá duy nhất và đếm cho toàn bộ các cộtdf.apply(pd.Series.value_counts)

Trích xuất một phần dữ liệu trong Pandas Data
Frame

Những câu lệnh trong phần này sẽ giúp bạn trích xuất dữ liệu từ Data
Frame hoặc Series trong Pandas

Trả về một cột của Data
Frame dưới dạng Series

Trả về cột bao gồm label là col như 1 Series

dfTrả về những cột trong danh sách dưới dạng một Data
Frame mớidf<>Chọn dữ liệu theo vị trís.iloc<0>Chọn tài liệu theo indexs.loc<"index_one">Chọn dữ liệu ở cái đầu tiêndf.iloc<0,:>Chọn tài liệu ở dòng đầu tiên, ô thứ nhất của Data
Framedf.iloc<0,0>

Cách làm sạch tài liệu trong Pandas Data
Frame

Các đoạn code vào phần này sẽ giúp đỡ bạn cách xử lý và làm cho sạch dữ liệu

Đổi tên những cột trong Data
Frame theo trang bị tự

df.columns = <"a","b","c">Kiểm tra tài liệu với quý hiếm nullpd.isnull()Kiểm tra dữ liệu với giá trị khác nullpd.notnull()Cách bỏ toàn cục dòng có tài liệu nulldf.dropna()Cách bỏ cục bộ cột có tài liệu nulldf.dropna(axis=1)Cách bỏ những dòng có không ít hơn n giá trị nulldf.dropna(axis=1, thresh=n)Cách thay toàn cục giá trị null bằng giá trị xdf.fillna(x)Cách thay cục bộ giá trị null bằng giá trị khác
Thay cực hiếm null trong Series do giá trị mean của những giá trị vào Series (mean hoàn toàn có thể thay được bởi những hàm khác trong module statistics của Python)

s.fillna(s.mean())Cách biến đổi kiểu tài liệu của Series quý phái Floats.astype(float)Cách nắm giá trị này vị giá trị khác
Thay toàn bộ các giá bán trị bởi 1 do one

s.replace(1,"one")Cách thay các giá trị cùng lúcs.replace(<1,3>,<"one","three">)Cách đổi tên cột một loạt bằng lambdadf.rename(columns=lambda x: x + 1)Cách đổi tên cột cụ thể trong Data
Framedf.rename(columns="old_name": "new_ name")Cách đổi index vào Data
Framedf.set_index("column_one")Cách đổi index 1 loạt trong Data
Framedf.rename(index=lambda x: x + 1)

Cách lọc, sắp xếp, nhóm dữ liệu trong Pandas Data
Frame

Các câu lệnh trong phần này để giúp đỡ bạn thực hiện các thao tác làm việc lọc, sắp xếp hay nhóm dữ liệu trong Data
Frame một giải pháp dễ dàng

Lọc dữ liệu theo điều kiện

Lọc ra những dòng vừa lòng điều kiện col lớn hơn 5

df< df > 5 >Lọc ra những dòng thỏa mãn điều kiện: có mức giá trị cột col trong tầm 100 cho 200

df< df > 100 và df thu xếp dữ liệu
Sắp xếp dữ liệu trong cột col1 theo chiều thuận (ascending)

df.sort_values(col1)Sắp xếp tài liệu trong cột col2 theo chiều nghịch (descending)

df.sort_values(col2, ascending=False)Sắp xếp col1 theo hướng thuận và col2 theo hướng nghịch

df.sort_values(,ascending=)Nhóm dữ liệu, pivot tài liệu với groupby
Pivot dữ liệu theo col1

df.groupby(col1)Pivot dữ liệu theo khá nhiều cột col1, col2

Pivot tài liệu với pivot_table vào Data
Frame

Tạo một Pivot Table, nhóm tài liệu theo cột col1, tính mean của col2, col3

df.pivot_table(index=col1,values=,aggfunc=mean)Tính mean của toàn bộ các cộtdf.apply(np.mean)Tính max từng dòngÁp dụng hàm np.max() cho mỗi dòng dữ liệu

df.apply(np.max,axis=1)

Nối dữ liệu, gộp dữ liệu bằng Pandas Data
Frame

Nối dữ liệu Data
Frame theo hướng dọc
Nối các dòng của df1 xuống bên dưới df2 (Số lượng các cột vào 2 Data
Frames này đề nghị giống nhau)

df1.append(df2)Nối tài liệu Data
Frame theo chiều ngang
Nối những cột của df1 lịch sự phải những cột của df2 (Số lượng những dòng vào 2 Data
Frames này nên giống nhau)

pd.concat(,axis=1)Join dữ liệu 2 Data
Frames theo phong cách SQLdf1.join(df2,on=col1,how="inner")Join 2 Data
Frame df1 với df2 theo cột bình thường col1, phong cách Join là "inner". Trong khi còn hỗ trợ các hình trạng join: "left", "right", "outer"

Thống kê dữ liệu bằng Pandas Data
Frame

Thống kê dữ liệu cho các cột số

df.describe()Tính mean cho toàn bộ các cộtdf.mean()Tính correlation giữa các cộtdf.corr()Đếm số giá trị không null cho những cộtdf.count()Tìm giá bán trị to nhất cho từng cộtdf.max()Tìm giá chỉ trị nhỏ tuổi nhất cho mỗi cộtdf.min()Tìm quý giá median cho mỗi cộtdf.median()Tìm cực hiếm độ lệch tiêu chuẩn cho từng cộtdf.std()Hi vọng với nội dung bài viết này, Thanh sẽ giúp bạn có tác dụng việc thuận tiện hơn cùng với Data
Frame vào Pandas. Đừng quên xem thêm khóa học tập Lập trình thúc đẩy Python Excel chìa khóa về tối ưu công việc

Vai trò của một chuyên viên phân tích dữ liệu

Nói bắt lại, một chuyên viên phân tích dữ liệu là người tìm ra ý nghĩa sâu sắc từ những tài liệu lộn xộn. Một chuyên viên phân tích dữ liệu cần phải có các kỹ năng quan trọng đặc biệt sau:

Kiến thức chuyên môn- Để khai quật dữ liệu và giới thiệu thông tin đúng đắn có liên quan đến sự việc cần giải quyết, nhân viên phân tích dữ liệu cần phải có kiến thức và kỹ năng chuyên môn.

Kỹ năng lập trình—Là một nhân viên phân tích dữ liệu, các bạn sẽ cần biết sử dụng những thư viện tương xứng để làm cho sạch dữ liệu, khai thác và tích lũy thông tin cụ thể từ đó.

Thống kê- Một chuyên viên phân tích bắt buộc sử dụng một vài công vắt thống kê nhằm rút ra chân thành và ý nghĩa từ dữ liệu.

Kỹ năng trực quan liêu hóa- Một nhà đối chiếu dữ liệu rất cần phải có kỹ năng trực quan hóa tài liệu tuyệt vời, để tóm tắt và trình diễn dữ liệu cho bên thứ ba.

Trong bài viết này tôi sẽ gợi ý bạn tiến trình phân tích tài liệu với Python tự A cho Z.

*

Nếu các bạn đi theo hướng dẫn tiếp sau đây và lập trình theo phong cách tôi vẫn làm, thì bạn có thể sử dụng những mã lệnh và phép tắc này cho các dự án phân tích tài liệu trong tương lai.

Chúng ta sẽ ban đầu với câu hỏi tải xuống và có tác dụng sạch tập dữ liệu, tiếp đến chuyển sang trọng phân tích với trực quan hóa. Cuối cùng, chúng ta sẽ nhắc một mẩu chuyện xung quanh đầy đủ phát hiện dựa vào dữ liệu đó.

Tôi sẽ sử dụng tập dữ liệu từ Kaggle mang tên là Cơ sở dữ liệu về căn bệnh tiểu đường Pima sinh sống Ấn Độ, chúng ta cũng có thể tải xuống để tiến hành phân tích.

Điều kiện tiên quyết về Python

Để phân tích toàn bộ vấn đề, tôi sẽ áp dụng một máy tính Jupyter. Chúng ta cũng có thể sử dụng bất kỳ Python IDE nào chúng ta thích.

Bạn sẽ cần thiết lập các tủ sách trong quy trình thực hiện với tôi sẽ cung cấp các liên kết hướng dẫn bạn quy trình cài đặt.

Phân tích

Sau khi sở hữu xuống, bạn sẽ cần thay đổi tệp dữ liệu từ dạng.csvsang khung tài liệu bằng Python bằng cách sử dụng thư viện Pandas.

Nếu chúng ta chưa setup Pandas, bạn có thể làm đơn giản dễ dàng với “pin install pandas” trong terminal. Nếu như bạn gặp bất kỳ khó khăn nào với việc setup hoặc đơn giản là muốn xem thêm về thư viện Pandas, chúng ta có thể xem tài liệu của họ tại trên đây .

Đọc dữ liệu

Để gọi khung tài liệu sang Python, trước tiên bạn cần import Pandas. Sau đó, bạn có thể đọc tệp và chế tạo khung dữ liệu với các dòng mã sau:


Để đánh giá phần đầu của size dữ liệu, hãy chạy:df.head()

*
Từ ảnh trên, bạn có thể thấy 9 trở thành số không giống nhau liên quan liêu đến sức khỏe của bệnh nhân:

Là một nhân viên phân tích, bạn sẽ cần đề xuất hiểu cơ phiên bản về các biến số này:

Pregnancies: số lần mang thai của căn bệnh nhân

Glucose: nấc glucose của căn bệnh nhân

Huyết áp

Độ dày da:Độ dàycủa da người bị bệnh tính bởi mm

Insulin: mức insulin của căn bệnh nhân

BMI: Chỉ số khối khung người của bệnh nhân

Diabetes
Pedigree
Function
: chi phí sử bệnh dịch đái dỡ đường ở tín đồ thân

Tuổi tác

Kết quả: dịch nhân bao gồm bị tiểu con đường hay không

Đến đây, bạn sẽ biết sự khác biệt giữa các loại thay đổi số này – biến đổi định lượng (Numeric) và thay đổi phân loại (Categorical)

Các đổi mới định lượng là thước đo và mang trong mình một vài loại chân thành và ý nghĩa số học. Toàn bộ các vươn lên là trong tập tài liệu này quanh đó "kết quả" đông đảo là những bé số.

Các thay đổi phân loạicòn được call là vươn lên là danh nghĩa, và gồm hai hoặc nhiều loại được phân loại.

Biến “kết quả” bao gồm tính phân nhiều loại - 0 đại diện cho ko mắc bệnh tiểu đường và 1 đại diện thay mặt cho mắc dịch tiểu đường.

Ghi chú nhanh

Trước khi liên tục phân tích, chú ý rằng:

Các nhà phân tích là con tín đồ và chúng ta thường bao gồm định kiến ​​trước về rất nhiều gì bọn họ mong chờ sẽ thấy trong dữ liệu.

Ví dụ, chúng ta có xu thế nghĩ rằng một người lớn tuổi có không ít khả năng mắc bệnh tiểu con đường hơn. Bạn sẽ muốn thấy mối đối sánh này trong tài liệu nhưng chưa phải lúc nào cũng tương tự vậy.

Xem thêm: Ngành Công Nghệ Thực Phẩm Học Trường Đại Học Công Nghệ Thực Phẩm Hà Nội

Giữ một trung ương trí một cách khách quan trong quá trình phân tích với đừng để suy nghĩa cá thể của bạn tác động đến việc đưa ra quyết định.

Pandas Profiling

Đây là 1 trong những công núm rất có lợi mà các nhân viên phân tích hoàn toàn có thể sử dụng. Nó tạo report phân tích trên khung dữ liệu và giúp đỡ bạn hiểu rõ hơn về mối tương quan giữa những biến.

Để tạo báo cáo Pandas Profiling, hãy chạy những dòng mã sau:

import pandas_profiling as pp

pp.Profile
Report(df)

Báo cáo này sẽ cho bạn thông tin thống kê phổ biến trên tập dữ liệu như hình ảnh dưới:

*

Chỉ buộc phải nhìn vào những thống kê tập dữ liệu, chúng ta có thể thấy rằng không có ô như thế nào bị thiếu hụt hoặc trùng lặp trong form dữ liệu.

Để search ra thông tin được cung ứng ở trên, họ cần chạy một vài chiếc mã, tuy thế sẽ dễ dàng hơn những nếu áp dụng Pandas Profiling

Pandas Profiling cũng hỗ trợ thêm tin tức về từng biến. Tôi đang chỉ cho chính mình mộtví dụ:

*

Đây là thông tin được khiến cho biến được hotline là “Pregnancies.”

Báo cáo này tiết kiệm không hề ít thời gian,vì bọn họ không đề xuất xem qua từng thay đổi riêng lẻ với chạy quá nhiều dòng mã.

Từ đây, bạn có thể thấy rằng:

Biến “Pregnancies”có 17 cực hiếm khác nhau.

Số lần có thai buổi tối thiểu của một tín đồ là 0 và về tối đa là 17.

Số lượng quý hiếm 0 vào cột này khá thấp (chỉ 14,5%). Điều này còn có nghĩa làtrên 80% người mắc bệnh trong bộ tài liệu đang sở hữu thai.

Báo cáo đưa thông tin cho từng biến. Nó giúp chúng ta hiểu tương đối nhiều về tập dữ liệu và các cột tài liệu trong đó.

*

Biểu vật dụng trên là một trong những ma trận tương quan. Nó giúp bọn chúng tahiểu rõ rộng về mối đối sánh giữa các biến vào tập dữ liệu.

Bạn có thể thấy mối đối sánh tương quan thuận nút độ dịu giữa những biến “Tuổi” với “Độ dày của da” trải qua phần đối chiếu trực quan.

Vìkhông mặt hàng nào bị thiếu thốn hoặc trùng lặptrong khung dữ liệu như sinh hoạt trên, bọn họ không cần triển khai thêm bất kỳ thao tác làm sạch tài liệu nào nữa.

Trực quan liêu hóa dữ liệu

Bây giờ chúng ta đã bao gồm hiểu biết cơ bạn dạng về từng biến, bạn có thể thử tìm quan hệ giữa chúng.

Cách đơn giản và cấp tốc nhất để làm điều này là sinh sản hình hình ảnh trực quan.

Trong gợi ý này, chúng ta sẽ thực hiện ba thư viện - Matplotlib, Seaborn cùng Plotly.

Nếu các bạn là bạn mới bắt đầu hoàn toàn cùng với Python, tôi khuyên chúng ta nên bước đầu và làm cho quen cùng với Matplotlib với Seaborn.

Đây là tài liệu dành cho Matplotlib và đấy là tài liệu giành riêng cho Seaborn. Tôi thực sự khuyên bạn nên dành thời hạn đọc tư liệu và triển khai các phía dẫn áp dụng hai thư viện này để nâng cấp kỹ năng trực quan liêu hóa.

Plotly là một trong những thư viện cho phép bạn tạo các biểu đồ shop và yêu cầu thực hiện quen cùng với Python nhiều hơn thế để thành thạo. Chúng ta cũng có thể tìm thấy hướng dẫn thiết đặt và các yêu ước tại phía trên .

Nếu bạn tuân theo đúng lý giải này, chúng ta có thể tạo các biểu đồ vật đẹp. Sau đó, bạn cũng có thể sử dụng mã của tôi làm mẫu mã cho ngẫu nhiên nhiệm vụ so sánh hoặc trực quan liêu hóa làm sao trong tương lai.

Hình dung biến hóa kết quả

Đầu tiên, hãy chạy những dòng mã sau để import Matplotlib, Seaborn, Numpy cùng Plotly sau thời điểm cài đặt: