日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

<style id="k3y6c"><u id="k3y6c"></u></style>

<mark id="k3y6c"></mark>

<mark id="k3y6c"></mark>

<small id="p4y7q"><abbr id="p4y7q"></abbr></small>

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > Pandas數(shù)據(jù)清理

Pandas數(shù)據(jù)清理

發(fā)布人：ygtu 時(shí)間：2023-09-13 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

推薦：使用NSDT場(chǎng)景編輯器快速搭建3D應(yīng)用場(chǎng)景

介紹

如果您喜歡數(shù)據(jù)科學(xué)，那么數(shù)據(jù)清理對(duì)您來(lái)說(shuō)可能聽(tīng)起來(lái)像是一個(gè)熟悉的術(shù)語(yǔ)。如果沒(méi)有，讓我向你解釋一下。我們的數(shù)據(jù)通常來(lái)自多個(gè)資源，并不干凈。它可能包含缺失值、重復(fù)項(xiàng)、錯(cuò)誤或不需要的格式等。對(duì)這些混亂的數(shù)據(jù)運(yùn)行實(shí)驗(yàn)會(huì)導(dǎo)致不正確的結(jié)果。因此，有必要在將數(shù)據(jù)饋送到模型之前準(zhǔn)備數(shù)據(jù)。通過(guò)識(shí)別和解決潛在的錯(cuò)誤、不準(zhǔn)確和不一致來(lái)準(zhǔn)備數(shù)據(jù)稱為數(shù)據(jù)清理。

在本教程中，我將引導(dǎo)您完成使用 Pandas 清理數(shù)據(jù)的過(guò)程。

數(shù)據(jù)

我將使用著名的鳶尾花數(shù)據(jù)集。鳶尾花數(shù)據(jù)集包含三種鳶尾花的四個(gè)特征的測(cè)量值：萼片長(zhǎng)度、萼片寬度、花瓣長(zhǎng)度和花瓣寬度。我們將使用以下庫(kù)：

pandas：用于數(shù)據(jù)操作和分析的強(qiáng)大庫(kù)
Scikit-learn： 提供用于數(shù)據(jù)預(yù)處理和機(jī)器學(xué)習(xí)的工具

數(shù)據(jù)清理步驟1. 加載數(shù)據(jù)集

使用 Pandas 的 read_csv（） 函數(shù)加載鳶尾花數(shù)據(jù)集：

column_names = ['id', 'sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
iris_data = pd.read_csv('data/Iris.csv', names= column_names, header=0)
iris_data.head()

輸出：

編號(hào)	sepal_length	sepal_width	petal_length	petal_width	物種
1	5.1	3.5	1.4	0.2	鳶尾花
2	4.9	3.0	1.4	0.2	鳶尾花
3	4.7	3.2	1.3	0.2	鳶尾花
4	4.6	3.1	1.5	0.2	鳶尾花
5	5.0	3.6	1.4	0.2	鳶尾花

header=0 參數(shù)指示 CSV 文件的第一行包含列名（標(biāo)題）。

2. 瀏覽數(shù)據(jù)集

為了深入了解我們的數(shù)據(jù)集，我們將使用 pandas 中的內(nèi)置函數(shù)打印一些基本信息

print(iris_data.info())
print(iris_data.describe())

輸出：

RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            150 non-null    int64  
 1   sepal_length  150 non-null    float64
 2   sepal_width   150 non-null    float64
 3   petal_length  150 non-null    float64
 4   petal_width   150 non-null    float64
 5   species       150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
None

熊貓數(shù)據(jù)清理

iris_data.describe（）的輸出

info（）函數(shù)可用于了解數(shù)據(jù)幀的整體結(jié)構(gòu)、每列中非空值的數(shù)量以及內(nèi)存使用情況。而匯總統(tǒng)計(jì)數(shù)據(jù)則提供了數(shù)據(jù)集中數(shù)值要素的概述。

3. 檢查類分布

這是了解類如何在分類列中分布的重要步驟，這是分類的重要任務(wù)。您可以使用 pandas 中的 value_counts（）函數(shù)執(zhí)行此步驟。

print(iris_data['species'].value_counts())

輸出：

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: species, dtype: int64

我們的結(jié)果表明，數(shù)據(jù)集是平衡的，每個(gè)物種的表示數(shù)量相等。這為所有 3 個(gè)班級(jí)的公平評(píng)估和比較奠定了基礎(chǔ)。

4. 刪除缺失值

由于從 info（） 方法中可以明顯看出我們有 5 列沒(méi)有缺失值，因此我們將跳過(guò)此步驟。但是，如果遇到任何缺失值，請(qǐng)使用以下命令來(lái)處理它們：

iris_data.dropna(inplace=True)

5. 刪除重復(fù)項(xiàng)

重復(fù)項(xiàng)可能會(huì)扭曲我們的分析，因此我們會(huì)將它們從數(shù)據(jù)集中刪除。我們將首先使用下面提到的命令檢查它們的存在：

duplicate_rows = iris_data.duplicated()
print("Number of duplicate rows:", duplicate_rows.sum())

輸出：

Number of duplicate rows: 0

此數(shù)據(jù)集沒(méi)有任何重復(fù)項(xiàng)。盡管如此，可以通過(guò) drop_duplicates（） 函數(shù)刪除重復(fù)項(xiàng)。

iris_data.drop_duplicates(inplace=True)

6. 獨(dú)熱編碼

對(duì)于分類分析，我們將對(duì)物種列執(zhí)行獨(dú)熱編碼。執(zhí)行此步驟是由于機(jī)器學(xué)習(xí)算法傾向于更好地處理數(shù)值數(shù)據(jù)。獨(dú)熱編碼過(guò)程將分類變量轉(zhuǎn)換為二進(jìn)制（0 或 1）格式。

encoded_species = pd.get_dummies(iris_data['species'], prefix='species', drop_first=False).astype('int')
iris_data = pd.concat([iris_data, encoded_species], axis=1)
iris_data.drop(columns=['species'], inplace=True)

熊貓數(shù)據(jù)清理

圖片來(lái)源：作者

7. 浮點(diǎn)值列的規(guī)范化

歸一化是將數(shù)值特征縮放為平均值為 0 且標(biāo)準(zhǔn)差為 1 的過(guò)程。執(zhí)行此過(guò)程是為了確保要素對(duì)分析的貢獻(xiàn)相同。我們將規(guī)范化浮點(diǎn)值列以實(shí)現(xiàn)一致的縮放。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
cols_to_normalize = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
scaled_data = scaler.fit(iris_data[cols_to_normalize])
iris_data[cols_to_normalize] = scaler.transform(iris_data[cols_to_normalize])

熊貓數(shù)據(jù)清理

規(guī)范化
后 iris_data.describe（）的輸出

8. 保存已清理的數(shù)據(jù)集

將清理后的數(shù)據(jù)集保存到新的 CSV 文件。

iris_data.to_csv('cleaned_iris.csv', index=False)

總結(jié)

祝賀！您已成功使用 pandas 清理了第一個(gè)數(shù)據(jù)集。在處理復(fù)雜數(shù)據(jù)集時(shí)，您可能會(huì)遇到其他挑戰(zhàn)。但是，此處提到的基本技術(shù)將幫助您入門并準(zhǔn)備數(shù)據(jù)以進(jìn)行分析。

原文鏈接：Pandas數(shù)據(jù)清理 (mvrlink.com)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 數(shù)據(jù)分析 Pandas

相關(guān)推薦

數(shù)據(jù)分析的八種思維

資源下載數(shù)據(jù) 數(shù)據(jù)分析 | 2020-03-25

簡(jiǎn)析天津某產(chǎn)業(yè)園能耗監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與應(yīng)用

資源下載產(chǎn)業(yè)園建筑能耗數(shù)據(jù)分析 | 2023-10-26

美光科技與Athinia合作進(jìn)行開(kāi)創(chuàng)性數(shù)據(jù)協(xié)作

網(wǎng)絡(luò)與存儲(chǔ) 美光科技 Athinia 供應(yīng)鏈數(shù)據(jù)分析 | 2022-07-17

一文讀懂什么是智能數(shù)據(jù)分析？

數(shù)據(jù)分析 | 2018-10-30

分析LED燈在電商中的銷售市場(chǎng)情況---天貓數(shù)據(jù)

songzhige | 2013-08-17

DSP技術(shù)協(xié)助進(jìn)行高速串行數(shù)據(jù)分析

felixwoo | 2008-06-15

LABVIEW為平臺(tái)的采集多路數(shù)據(jù)分析處理

資源下載 LABVIEW 數(shù)據(jù)分析數(shù)據(jù)庫(kù) | 2009-08-31

Gartner發(fā)布2023年中國(guó)數(shù)據(jù)分析和人工智能技術(shù)成熟度曲線

智能計(jì)算 Gartner 數(shù)據(jù)分析人工智能成熟度曲線 | 2023-08-30

物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)分析的應(yīng)用

拜月 | 2020-07-16

結(jié)合機(jī)電控制與數(shù)據(jù)分析打造智能農(nóng)業(yè)試驗(yàn)場(chǎng)域

物聯(lián)網(wǎng)與傳感器機(jī)電控制數(shù)據(jù)分析智能農(nóng)業(yè) | 2023-01-31

KLA+汽車：創(chuàng)新、趨勢(shì)和與半導(dǎo)體的交匯

汽車電子汽車檢測(cè) 數(shù)據(jù)分析 | 2021-10-20

IEEE-1394 串行數(shù)據(jù)分析

shangziyun | 2012-04-13

數(shù)據(jù)分析簡(jiǎn)介

資源下載 NI 數(shù)據(jù)分析 | 2013-04-01

AWS在中國(guó)：拆掉機(jī)器學(xué)習(xí)成本“高墻”

智能計(jì)算 AWS 云服務(wù) 數(shù)據(jù)分析 | 2020-09-22

數(shù)據(jù)中臺(tái)的價(jià)值兌現(xiàn) -- 孵化核心數(shù)據(jù)分析能力

網(wǎng)絡(luò)與存儲(chǔ) 數(shù)據(jù)中臺(tái) 數(shù)據(jù)分析 | 2023-03-28

電量?jī)xDIY手記——數(shù)據(jù)采集并顯示

jobs | 2018-12-02

快速提升Python數(shù)據(jù)分析能力的七個(gè)神奇方法

Python 數(shù)據(jù)分析 | 2020-07-28

解構(gòu)+優(yōu)化：數(shù)據(jù)分析的五大發(fā)展趨勢(shì)

數(shù)據(jù)分析 | 2020-08-24

matlab-Chap9

資源下載 The MathWorks matlab 數(shù)據(jù)分析 | 2007-12-31

英特爾：快速部署AI和數(shù)據(jù)分析能力對(duì)企業(yè)至關(guān)重要

智能計(jì)算英特爾 AI 數(shù)據(jù)分析 | 2020-06-24

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)