Các phương pháp biểu diễn văn bản bằng trong học máy

Word Embedding Word embedding
Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu thêm]
là một bước quan trọng trong bất kỳ một bài toán nào của NLP. Trong bài này, trituenhantao.io sẽ đưa ra lần lượt theo sự phát triển và cải tiến của các thuật toán Word Embedding Word embedding
Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu thêm]
phổ biến hiện nay.

Nội dung chính Show

Phương pháp Word Embedding cổ điển
Bag of Words (BoW)
Distributional Embedding
Phương pháp Neural Embedding

Đầu tiên, ta hãy đi qua lý do cơ bản ta cần phải Vector hóa văn bản (Word Embedding Word embedding
Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu thêm]
). Thông thường, máy tính không thể hiểu được ý nghĩa các từ. Như vậy, để xử lý được ngôn ngữ tự nhiên, ta cần có một phương pháp để biểu diễn văn bản dưới dạng mà máy tính có thể hiểu được. Phương pháp tiêu chuẩn để biểu diễn văn bản đó là biểu diễn các văn bản theo vector. Trong đó, các từ/cụm từ thuộc kho tài liệu ngôn ngữ được ánh xạ thành những vector trên hệ không gian số thực.

Ta có thể chia các phương pháp Vector hóa văn bản thành hai nhóm chính: Phương pháp Word Embedding Word embedding
Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu thêm]
cổ điển và Neural Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
(Vector hóa văn bản theo phương pháp mạng nơ-ron).

Phương pháp Word Embedding cổ điển

Bag of Words (BoW)

Đây là cách biểu diễn vector truyền thống phổ biến nhất được sử dụng. Mỗi từ hoặc n-gram n-gram
n-gram là một chuỗi các từ xuất hiện trong một cửa sổ nhất định trong đó n đại diện cho kích thước cửa sổ.
từ sẽ được mô tả là một vector có số chiều bằng đúng số từ trong bộ từ vựng. Tại vị trí tương ứng với vị trí của từ đó trong túi từ, phần tử trong vector đó sẽ được đánh dấu là 1. Những vị trí còn lại sẽ được đánh dấu là 0.

Ví dụ biểu diễn One-hot BOW của mỗi từ trong văn bản.

Phương pháp BoW BoW
Phương pháp này yêu cầu một tập hợp các từ cho trước, gọi là túi đựng từ. Đặc trưng của một văn bản sẽ được thể hiện thông qua sự xuất hiện của các từ thuộc văn bản đó trong túi đựng từ. Ví dụ, ta có túi đựng từ là {"vui":0,"mừng":1,"tuyệt vời":2,"không":3}. Hai câu "Hôm nay tôi không vui nhưng anh ta vui" và "Hôm nay thật tuyệt vời" sẽ được biểu diễn là [2,0,0,1] và [0,0,1,0].
thường được sử dụng trong những bài toán phân loại văn bản. Trong đó, tần suất của mỗi từ/ n-gram n-gram
n-gram là một chuỗi các từ xuất hiện trong một cửa sổ nhất định trong đó n đại diện cho kích thước cửa sổ.
sẽ được coi là một feature Feature
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
trong văn bản phân loại.

Nhược điểm của phương pháp này là ta không thể xác định được nghĩa thực của mỗi từ và các từ tương quan với chúng.

Trong phương pháp BoW BoW
Phương pháp này yêu cầu một tập hợp các từ cho trước, gọi là túi đựng từ. Đặc trưng của một văn bản sẽ được thể hiện thông qua sự xuất hiện của các từ thuộc văn bản đó trong túi đựng từ. Ví dụ, ta có túi đựng từ là {"vui":0,"mừng":1,"tuyệt vời":2,"không":3}. Hai câu "Hôm nay tôi không vui nhưng anh ta vui" và "Hôm nay thật tuyệt vời" sẽ được biểu diễn là [2,0,0,1] và [0,0,1,0].
, từ giống nhau sẽ được đánh trọng số như nhau. Phương pháp này không xét đến tần suất xuất hiện của từ hay nhữ cảnh từ. Và trong thực tế, để cần hiểu được nghĩa của mỗi từ, ta cần xác định từ đó trong văn cảnh hơn là xét nghĩa độc lập từ.

TF-IDF

TF- IDF (term frequency–inverse document frequency) – tần suất- tần suất đảo nghịch từ. Đây là một phương pháp thống kê, nhằm phản ánh độ quan trọng của mỗi từ hoặc n-gram n-gram
n-gram là một chuỗi các từ xuất hiện trong một cửa sổ nhất định trong đó n đại diện cho kích thước cửa sổ.
đối với văn bản trên toàn bộ tài liệu đầu vào. TF-IDF thể hiện trọng số của mỗi từ theo ngữ cảnh văn bản. TF-IDF sẽ có giá trị tăng tỷ lệ thuận với số lần xuất hiện của từ trong văn bản và số văn bản có chứa từ đó trên toàn bộ tập tài liệu. Phương pháp này giúp cho TF-IDF có tính phân loại cao hơn so với phương pháp trước.

Tuy nhiên, ngay cả khi phương pháp TF-IDF dựa trên BOW BoW
Phương pháp này yêu cầu một tập hợp các từ cho trước, gọi là túi đựng từ. Đặc trưng của một văn bản sẽ được thể hiện thông qua sự xuất hiện của các từ thuộc văn bản đó trong túi đựng từ. Ví dụ, ta có túi đựng từ là {"vui":0,"mừng":1,"tuyệt vời":2,"không":3}. Hai câu "Hôm nay tôi không vui nhưng anh ta vui" và "Hôm nay thật tuyệt vời" sẽ được biểu diễn là [2,0,0,1] và [0,0,1,0].
thể hiện được trọng số của các từ khác nhau trong văn bản, nhưng phương pháp này vẫn không biểu diễn được nghĩa của từ.

Đây chính là nhược điểm của hai phương pháp này.

Ta có thể trích dẫn câu của nhà ngôn ngữ học J.R. Firth: “The complete meaning of a word is always contextual, and no study of meaning apart from context can be taken seriously.” (tạm dịch: “Muốn hiểu được ý nghĩa thật sự của một từ, bạn phải dựa vào ngữ cảnh của câu nói”)

Distributional Embedding

Là phương pháp mà ta có thể xem xét được tổng quan trong toàn bộ ngữ cảnh. Mỗi từ sẽ được biểu diễn trên các thông tin tương hỗ (Mutual Information) với các từ khác trong tập dữ liệu. Thông tin tương hỗ có thể được biểu diễn dưới dạng tần suất xuất hiện trong ma trận đồng xuất hiện trên toàn bộ tập dữ liệu hoặc xem xét trong giới hạn tập dữ liệu lân cận hoặc xem xét trên giới hạn những từ xung quanh.

Ví dụ ma trận thuật toán Distributional Embedding với mỗi dòng là một văn bản (ngữ cảnh) dựa trên số từ xuất hiện

Phương pháp Distributional Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
ra đời trước phương pháp Neural Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
. Nhưng các phương pháp Distributional Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
giúp ta quan sát được quan trọng của mỗi từ tốt hơn so với Neural Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
. Bạn có thể tham khảo Goldberg and Levy.

Phương pháp Neural Embedding

Word2Vec

Word2vec là thuật toán theo phương pháp dự đoán (Prediction-based embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
). Mô hình dự đoán học biểu diễn vector từ thông qua những từ ngữ cảnh xung quanh nhằm cải thiện khả năng dự đoán ý nghĩa các từ.

Có hai cách xây dựng mô hình Word2vec để biểu diễn sự phân tán của từ trong không gian vector:

Sử dụng ngữ cảnh để dự đoán mục tiêu (CBOW): khi vị trí của các từ ngữ cảnh không ảnh hưởng tới việc dự đoán từ (giả định ban đầu của CBOW). Trong mô hình Skip-gram, mô hình sử dụng từ ngữ hiện tại để dự đoán những từ xung quanh trong ngữ cảnh đó.
Sử dụng một từ để dự đoán ngữ cảnh mục tiêu (Continuous skip-gram) xem xét những từ ngữ cảnh xung quanh sẽ được đánh giá tốt hơn so với những từ trong ngữ cảnh nhưng ở vị trí xa hơn. Mặc dù thứ tự từ vẫn không được xem xét, mỗi vector của từ bối cảnh được xem xét và cân nhắc.

Thuật toán CBOW tốn ít thời gian huyến luyện mô hình hơn Skip-gram. Tuy nhiên, Skip-gram có độ chính xác cao hơn và có chứa cả những từ ít xuất hiện.

GloVe

Cả CBOW và Skip-Gram đều là các mô hình dự đoán. Trong đó, các thuật toán chỉ xem xét được ngữ cảnh xung quanh từ mục tiêu nhưng không đề cập được về ngữ cảnh toàn văn bản. Thuật toán GloVe dựa trên tương phản có lợi với cùng dự đoán của ma trận đồng xuất hiện sử dụng trong thuật toán Distributional Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
, nhưng sử dụng phương pháp Neural Embedding Embedding
Phương pháp chuyển đầu vào thành một biểu diễn khác dễ dàng xử lý hơn đối với máy tính (thường là các véc tơ).
để phân tích ma trận đồng xuất hiện thành những vector có ý nghĩa và tỷ trọng hơn.

Mặc dù thuật toán GloVe nhanh hơn Word2Vec, nhưng cả GloVe và Word2Vec đều không hiển thị để cung cấp kết quả tốt và rõ ràng hơn thay vì cả hai nên được đánh giá cho một tập dữ liệu nhất định.

FastText

FastText, được xây dựng trên Word2Vec bằng cách học các biểu diễn vectơ cho mỗi từ và n-gram n-gram
n-gram là một chuỗi các từ xuất hiện trong một cửa sổ nhất định trong đó n đại diện cho kích thước cửa sổ.
được tìm thấy trong mỗi từ. Các giá trị của các biểu diễn sau đó được tính trung bình thành một vectơ ở mỗi bước đào tạo. Trong khi điều này bổ sung rất nhiều tính toán bổ sung cho việc đào tạo, nó cho phép nhúng từ để mã hóa thông tin từ phụ. Các vectơ FastText đã được chứng minh là chính xác hơn các vectơ Word2Vec bằng một số biện pháp khác nhau

Trên đây, tôi đã giới thiệu cho các bạn những thuật toán Word Embedding Word embedding
Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu thêm]
hiện nay. Với mỗi bài toán khác nhau, ta sẽ nên sử dụng phương pháp khác nhau.

Nguồn: https://towardsdatascience.com