CTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>Khái yếu về corpus – Xử lý ngôn ngữ tự nhiên (Trường đại học khoa học kỹ thuật Nagaoka)

*

2. Corpus

2.1 kháiniệm về Corpus

Corpus là 1 dữ liệu tập hợp các văn bản,ngôn ngữ đã được số hoá. Cách dịch thông thường ở VN là “kho ngữ liệu”. Ví dụ vềcorpus như “tuyển tập các tác phẩm của Nam Cao”, hay “tuyển tập ca từ của TrịnhCông Sơn”, …

 

Cáccorpus là 1 tài nguyên quan trọng trong NLP. Từ các corpus, ta có thể rút ra nhữngdữ liệu quan trọng sau :

1. Từ các corpus, ta có thể chiết suất 1cách tự động các qui tắc ngữ pháp “văn mạch tự do”.

Bạn đang xem: Corpus là gì

2. Từ các corpus có thể tính toán được xácsuất, tần suất xuất hiện của các từ.

 

Để đảm bảo tính chính xác cho 2 kết luậntrên, corpus phải đảm bảo 1 số nguyên tắc nhất định :

1. Tính đại diện : các thành phần trongcorpus phải có tính phổ quát, đa dạng và phong phú.

Xem thêm: Stable Là Gì

2. Kích thước : kích thước của corpus cànglớn thì càng được đánh giá cao.

 

Dựa vào mục đích, cách xây dựng corpus, ngườita chia corpus thành các loại sau :

1. Corpus thô (raw corpus): đơn giản chỉ làtập hợp các dữ liệu mà không có xử lý gì thêm.

2. corpus được gắn nhãn (tagged corpus) :các dữ liệu trong corpus đã được xử lý như phân tích từ, phân tích cú pháp, gắnnhãn từ loại, …

3. Parallel Corpus : được sử dụng nhiềutrong ứng dụng máy dịch.

 

Ngoài cách chia trên, ta cũng có thể chiacorpus theo cấu tạo của nó.

1. Corpus biệt lập : dữ liệu lấy vào 1 cáchngẫu nhiên, biệt lập và không phân biệt với nhau.

2. Corpus theo danh mục : dựa vào các danhmục để chia dữ liệu trong corpus thành các nhóm.

Xem thêm: Furnace Là Gì – Nghĩa Của Từ Furnace

3. Corpus trùng lặp : các dữ liệu trongcorpus có thể ở nhiều nhóm cùng lúc.

4. Corpus theo thời gian : các dữ liệu sắpxếp theo thời gian thu thập và thời gian xuất hiện.

 

2.2Thống kê trong corpus

Khái niệm về n-gram : là tần suất xuất hiệncủa n kí tự ( hoặc từ ) liên tiếp nhau có trong dữ liệu của corpus.

 

Với n = 1 và tính trên kí tự, ta có thôngtin về tần suất xuất hiện nhiều nhất của các chữ cái. Điều này ứng dụng để làmkeyboard : các phím hay xuất hiện nhất sẽ ở những vị trí dễ sử dụng nhất.

 

Với n = 2, ta có khái niệm bigram. Ví dụ vớicác chữ cái tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ là các cặp kí tự hay xuất hiệnnhất. Ngoài ra, ta có thể biết thêm rằng sau kí tự ‘q’ thì phần lớn đều là kí tự‘u’.

 

Với n = 3, ta có trigram. Nhưng vì n càng lớnthì số trường hợp càng lớn nên thường người ta chỉ sử dụng với n = 1,2 hoặc đôilúc là 3. Ví dụ với các kí tự tiếng Anh, tiếng Anh sử dụng 26 kí tự, vậy với n= 1 thì số trường hợp là 26, n = 2 thì số trường hợp là 26^2 = 676 trường hợp,n = 3 có 17576 trường hợp.

 

Bigram được sử dụng nhiều trong việc phântích hình thái (từ, cụm từ, từ loại) cho các ngôn ngữ khó phân tích như tiếngViệt, tiếng Nhật, tiếng Trung, … Dựa vào tần suất xuất hiện cạnh nhau của các từ,người ta sẽ tính cách chia 1 câu thành các từ sao cho tổng bigram là cao nhấtcó thể. Với thuật giải phân tích hình thái dựa vào trọng số nhỏ nhất, người tasử dụng n = 1 để xác định tuần suất xuất hiện của các từ và tính trọng số.

 

Để đảm bảo tính thống kê chính xác đòi hỏicác corpus phải lớn và có tính đại diện cao.

Chuyên mục: Hỏi Đáp