Cùng xem TF-IDF là gì? Code demo thuật toán TF-IDF với dữ liệu tiếng Việt trên youtube.
tf-idf là gì?
tf-idf (tần suất thuật ngữ – tần suất tài liệu nghịch đảo) là một kỹ thuật được sử dụng trong khai thác dữ liệu văn bản. trọng số này được sử dụng để đánh giá mức độ quan trọng của một từ trong văn bản. giá trị cao thể hiện tầm quan trọng cao và phụ thuộc vào số lần từ xuất hiện trong văn bản, nhưng được bù đắp bởi tần suất xuất hiện của từ đó trong tập dữ liệu. Một số biến thể của tf-idf thường được sử dụng trong hệ thống tìm kiếm như một công cụ chính để đánh giá và phân loại văn bản dựa trên các truy vấn của người dùng. tf-idf cũng được sử dụng để lọc các từ dừng trong các vấn đề như trừu tượng hóa và phân loại văn bản.
Tiếp theo, chúng ta sẽ đi vào chi tiết về từng thành phần. và sau đó chúng tôi đi đến công thức tf-idf. cuối cùng là những ví dụ sinh động để bạn hiểu sâu và đầy đủ tf-idf là gì.
tf là gì?
tf : tần suất thuật ngữ là số lần từ xuất hiện trong văn bản. Vì các văn bản có thể có độ dài ngắn khác nhau, một số từ có thể xuất hiện nhiều lần hơn trong một văn bản dài so với một văn bản ngắn. do đó, tần suất thuật ngữ thường được chia cho độ dài của văn bản (tổng số từ trong một tài liệu).
Xem Thêm : 8 hình thức phỏng vấn thông dụng hiện nay và cách áp dụng hiệu quả cho nhà tuyển dụng
ở đâu:
- tf (t, d): tần suất xuất hiện của từ t trong tài liệu d
- f (t, d): số lần xuất hiện của từ t trong tài liệu d
- max ({f (w, d): w ∈ d}): số lần xuất hiện của từ có nhiều lần xuất hiện nhất trong văn bản d
idf là gì?
idf : nghịch đảo tần suất tài liệu, giúp đánh giá tầm quan trọng của một từ. khi tính tf, tất cả các từ được coi là có tầm quan trọng như nhau. nhưng một số từ như “is”, “of”, “that” thường xuất hiện nhiều lần nhưng mức độ quan trọng không cao. vì vậy chúng ta phải giảm bớt tầm quan trọng của những từ này.
Xem Thêm : 8 hình thức phỏng vấn thông dụng hiện nay và cách áp dụng hiệu quả cho nhà tuyển dụng
ở đâu:
- idf (t, d): giá trị idf của từ t trong kho ngữ liệu
- | d |: tổng số tài liệu trong tập d
- | {d ∈ d: t ∈ d} |: đại diện cho số tài liệu trong tập d có chứa từ t.
the
Xem Thêm : Mẫu chữ và cách viết chữ C sáng tạo trong luyện chữ đẹp
cơ số logarit của công thức này không thay đổi giá trị idf của từ, mà chỉ làm giảm thứ hạng của nó. bởi vì thay đổi gốc sẽ dẫn đến giá trị của các từ thay đổi theo một số nhất định và tỷ lệ các trọng số với nhau sẽ không thay đổi. (nói cách khác, việc thay đổi gốc sẽ không ảnh hưởng đến mối quan hệ giữa các giá trị idf). Sử dụng logarit giúp làm cho giá trị tf-idf của một từ nhỏ hơn, vì chúng ta có công thức tính tf-idf của một từ trong tài liệu là tích của tf và idf của từ đó.
Cụ thể, chúng tôi có công thức đầy đủ để tính tf-idf như sau: tfidf (t, d, d) = tf (t, d) x idf (t, d)
sau đó:
Các từ có giá trị tf-idf cao xuất hiện thường xuyên hơn trong văn bản này và ít xuất hiện hơn trong các văn bản khác. điều này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khóa từ văn bản đó).
cài đặt tf-idf bằng python
dưới đây là một chương trình thiết lập tính toán tf-idf với 2 câu thơ. chỉ cần áp dụng công thức hiển thị ở trên.
nếu bạn không thể thấy mã trên trang web, bạn có thể truy cập vào đây.
Nguồn: https://dongnaiart.edu.vn
Danh mục: Tổng hợp
Lời kết: Trên đây là bài viết TF-IDF là gì? Code demo thuật toán TF-IDF với dữ liệu tiếng Việt. Hy vọng với bài viết này bạn có thể giúp ích cho bạn trong cuộc sống, hãy cùng đọc và theo dõi những bài viết hay của chúng tôi hàng ngày trên website: Dongnaiart.edu.vn