Columntransformer là gì

Đôi khi trong tập dữ liệu, chúng ta gặp các cột chứa các số không có thứ tự ưu tiên cụ thể. Dữ liệu trong cột thường biểu thị một danh mục hoặc giá trị của danh mục và cả khi dữ liệu trong cột được mã hóa nhãn. Điều này gây nhầm lẫn cho mô hình ML, để tránh điều này, dữ liệu trong cột phải được mã hóa One Hot. One Hot.

Nội dung chính Show

  • 1. Một mã hóa nóng(One Hot)
  • 2. Dưới đây là Triển khai bằng Python
  • 3. Để một mã hóa nóng cột vùng
  • 4. Mã hóa Nhãn dữ liệu

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

Ví dụ :

Xem xét dữ liệu mà trái cây và giá trị phân loại tương ứng của chúng được đưa ra.

FRUITCATEGORICAL VALUE OF FRUITPRICEapple15mango210apple115mango320

orange One Hot) dữ liệu được đưa ra như sau,

Đầu ra sau một lần mã hóa nóng(One Hot) dữ liệu được đưa ra như sau,APPLEMANGOPRICE1005010101001500120

2. Dưới đây là Triển khai bằng Python

3. Để một mã hóa nóng cột vùng

4. Mã hóa Nhãn dữ liệu

# Program for demonstration of one hot encoding 
  
# import libraries 
import numpy as np 
import pandas as pd 
  
# import the data required 
data = pd.read_csv(r"../../onehotenc_data.csv") 
print(data) 

Output:

Columntransformer là gì

3. Để một mã hóa nóng cột vùng

# -----------------------------------------------------------
#Cafedev.vn - Kênh thông tin IT hàng đầu Việt Nam
#@author cafedevn
#Contact: 
#Fanpage: https://www.facebook.com/cafedevn
#Group: https://www.facebook.com/groups/cafedev.vn/
#Instagram: https://instagram.com/cafedevn
#Twitter: https://twitter.com/CafedeVn
#Linkedin: https://www.linkedin.com/in/cafe-dev-407054199/
#Pinterest: https://www.pinterest.com/cafedevvn/
#YouTube: https://www.youtube.com/channel/UCE7zpY_SlHGEgo67pHxqIoA/
# -----------------------------------------------------------

brightness_4
# importing one hot encoder from sklearn 
# There are changes in OneHotEncoder class 
from sklearn.preprocessing import OneHotEncoder 
from sklearn.compose import ColumnTransformer 
   
# creating one hot encoder object with categorical feature 0 
# indicating the first column 
columnTransformer = ColumnTransformer([('encoder', 
                                        OneHotEncoder(), 
                                        [0])], 
                                      remainder='passthrough') 
  
data = np.array(columnTransformer.fit_transform(data), dtype = np.str) 

4. Mã hóa Nhãn dữ liệu

Hướng dẫn one-hot vector python - một con trăn vector nóng

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

Ví dụ :

Xem xét dữ liệu mà trái cây và giá trị phân loại tương ứng của chúng được đưa ra.

FRUIT

CATEGORICAL VALUE OF FRUIT

4. Mã hóa Nhãn dữ liệu

Hướng dẫn one-hot vector python - một con trăn vector nóng

4. Mã hóa Nhãn dữ liệuMã hóa Nhãn dữ liệu

# label encoding the data 
from sklearn.preprocessing import LabelEncoder 
  
le = LabelEncoder() 
  
data['Gender']= le.fit_transform(data['Gender']) 
data['Geography']= le.fit_transform(data['Geography']) 

4. Mã hóa Nhãn dữ liệu

Hướng dẫn one-hot vector python - một con trăn vector nóng

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

# importing one hot encoder from sklearn 
from sklearn.preprocessing import OneHotEncoder 
  
# creating one hot encoder object by default 
# entire data passed is one hot encoded 
onehotencoder = OneHotEncoder() 
  
data = np.array(columnTransformer.fit_transform(data), dtype = np.str) 

4. Mã hóa Nhãn dữ liệu

Hướng dẫn one-hot vector python - một con trăn vector nóng

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

Ví dụ :

  • Xem xét dữ liệu mà trái cây và giá trị phân loại tương ứng của chúng được đưa ra.
  • FRUIT

CATEGORICAL VALUE OF FRUITmọi lúc mọi nơi tại đây.

PRICE

  • w3school
  • python.org
  • apple

mango

  • orange
  • Đầu ra sau một lần mã hóa nóng(One Hot) dữ liệu được đưa ra như sau,
  • APPLE
  • MANGO
  • ORANGECafedevn tại đây.

Ví dụ 1:

  • Ví dụ sau đây là dữ liệu về khu vực và điểm tín dụng của khách hàng, khu vực là một giá trị phân loại cần được mã hóa nóng.
  • Output
  • Kết quả bao gồm 5 cột, một cột cho giá và 4 cột còn lại đại diện cho 4 khu vực.
  • Ví dụ 2:
  • Một bộ mã hóa nóng chỉ nhận các giá trị phân loại bằng số, do đó bất kỳ giá trị nào của loại chuỗi phải được mã hóa nhãn trước khi mã hóa một nóng.
  • Ví dụ dưới đây có dữ liệu về địa lý và giới tính của khách hàng phải được mã hóa nhãn trước.
  • # importing libraries 
    import numpy as np 
    import pandas as pds 
      
    # After importing the required data 
    print(data) 
  • Một mã hóa nóng các cột giới tính và địa lý

Kết quả bao gồm 5 cột, 2 cột đại diện cho giới tính, nam và nữ, 3 cột còn lại đại diện cho các quốc gia Pháp, Đức và Tây Ban Nha.