Columntransformer là gì

Đôi khi trong tập dữ liệu, chúng ta gặp các cột chứa các số không có thứ tự ưu tiên cụ thể. Dữ liệu trong cột thường biểu thị một danh mục hoặc giá trị của danh mục và cả khi dữ liệu trong cột được mã hóa nhãn. Điều này gây nhầm lẫn cho mô hình ML, để tránh điều này, dữ liệu trong cột phải được mã hóa One Hot. One Hot.

Nội dung chính Show

  • 1. Một mã hóa nóng(One Hot)
  • 2. Dưới đây là Triển khai bằng Python
  • 3. Để một mã hóa nóng cột vùng
  • 4. Mã hóa Nhãn dữ liệu

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

Ví dụ :

Xem xét dữ liệu mà trái cây và giá trị phân loại tương ứng của chúng được đưa ra.

FRUITCATEGORICAL VALUE OF FRUITPRICEapple15mango210apple115mango320

orange One Hot) dữ liệu được đưa ra như sau,

Đầu ra sau một lần mã hóa nóng(One Hot) dữ liệu được đưa ra như sau,APPLEMANGOPRICE1005010101001500120

2. Dưới đây là Triển khai bằng Python

3. Để một mã hóa nóng cột vùng

4. Mã hóa Nhãn dữ liệu

# Program for demonstration of one hot encoding # import libraries import numpy as np import pandas as pd # import the data required data = pd.read_csv(r"../../onehotenc_data.csv") print(data)

Output:

3. Để một mã hóa nóng cột vùng

# ----------------------------------------------------------- #Cafedev.vn - Kênh thông tin IT hàng đầu Việt Nam #@author cafedevn #Contact: #Fanpage: //www.facebook.com/cafedevn #Group: //www.facebook.com/groups/cafedev.vn/ #Instagram: //instagram.com/cafedevn #Twitter: //twitter.com/CafedeVn #Linkedin: //www.linkedin.com/in/cafe-dev-407054199/ #Pinterest: //www.pinterest.com/cafedevvn/ #YouTube: //www.youtube.com/channel/UCE7zpY_SlHGEgo67pHxqIoA/ # ----------------------------------------------------------- brightness_4 # importing one hot encoder from sklearn # There are changes in OneHotEncoder class from sklearn.preprocessing import OneHotEncoder from sklearn.compose import ColumnTransformer # creating one hot encoder object with categorical feature 0 # indicating the first column columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [0])], remainder='passthrough') data = np.array(columnTransformer.fit_transform(data), dtype = np.str)

4. Mã hóa Nhãn dữ liệu

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

Ví dụ :

Xem xét dữ liệu mà trái cây và giá trị phân loại tương ứng của chúng được đưa ra.

FRUIT

CATEGORICAL VALUE OF FRUIT

4. Mã hóa Nhãn dữ liệu

4. Mã hóa Nhãn dữ liệuMã hóa Nhãn dữ liệu

# label encoding the data from sklearn.preprocessing import LabelEncoder le = LabelEncoder() data['Gender']= le.fit_transform(data['Gender']) data['Geography']= le.fit_transform(data['Geography'])

4. Mã hóa Nhãn dữ liệu

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

# importing one hot encoder from sklearn from sklearn.preprocessing import OneHotEncoder # creating one hot encoder object by default # entire data passed is one hot encoded onehotencoder = OneHotEncoder() data = np.array(columnTransformer.fit_transform(data), dtype = np.str)

4. Mã hóa Nhãn dữ liệu

Nó đề cập đến việc chia nhỏ cột chứa dữ liệu phân loại số thành nhiều cột tùy thuộc vào số lượng danh mục có trong cột đó. Mỗi cột chứa “0” hoặc “1” tương ứng với cột mà nó đã được đặt.

Ví dụ :

  • Xem xét dữ liệu mà trái cây và giá trị phân loại tương ứng của chúng được đưa ra.
  • FRUIT

CATEGORICAL VALUE OF FRUITmọi lúc mọi nơi tại đây.

PRICE

  • w3school
  • python.org
  • apple

mango

  • orange
  • Đầu ra sau một lần mã hóa nóng(One Hot) dữ liệu được đưa ra như sau,
  • APPLE
  • MANGO
  • ORANGECafedevn tại đây.

Ví dụ 1:

  • Ví dụ sau đây là dữ liệu về khu vực và điểm tín dụng của khách hàng, khu vực là một giá trị phân loại cần được mã hóa nóng.
  • Output
  • Kết quả bao gồm 5 cột, một cột cho giá và 4 cột còn lại đại diện cho 4 khu vực.
  • Ví dụ 2:
  • Một bộ mã hóa nóng chỉ nhận các giá trị phân loại bằng số, do đó bất kỳ giá trị nào của loại chuỗi phải được mã hóa nhãn trước khi mã hóa một nóng.
  • Ví dụ dưới đây có dữ liệu về địa lý và giới tính của khách hàng phải được mã hóa nhãn trước.
  • # importing libraries import numpy as np import pandas as pds # After importing the required data print(data)
  • Một mã hóa nóng các cột giới tính và địa lý

Kết quả bao gồm 5 cột, 2 cột đại diện cho giới tính, nam và nữ, 3 cột còn lại đại diện cho các quốc gia Pháp, Đức và Tây Ban Nha.

Chủ đề