Tiếng Việt Có Bao Nhiêu Từ Vựng

Trong nghiên cứu này, chúng tôi sử dụng 2 kho ngữ liệu tiếng Việt (tên là VTB và VCor) do Trung tâm Ngôn ngữ học Tính toán – ĐH Khoa học Tự nhiên – Tp.HCM (viết tắt là sushibarhanoi.com)<1> cung cấp. Ngữ liệu này được thu thập từ các trang báo điện tử (www.tuoitreonline, www.vnexpress.net,…) trong giai đoạn từ năm 2000 trở lại đây. Các ngữ liệu này đã được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ (tag) để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn ngữ (Language) và lĩnh vực (Domain). Ngữ liệu VTB đã được chú thích (annotate) thủ công với nhãn ranh giới từ tiếng Việt, nhãn từ loại (POS) và nhãn thực thể có tên (Named Entity). Còn ngữ liệu VCor chỉ được chú thích tự động nhãn ranh giới từ (do kích thước quá lớn). Xin xem hình 1 minh họa bên dưới:

Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu__bão/Nn/TRM_B Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O Philippines/Nr/LOC_B ./PU/O

Theo/Vv/O ông/Nn/TTL_B Bùi_Minh_Tăng/Nr/PER_B -/PU/O giám_đốc/Nn/DES_B Trung_tâm/Nn/ORG_B Dự_báo/Vv/ORG_I khí_tượng/Nn/ORG_I thuỷ_văn/Nn/ORG_I trung_ương/Aa/ORG_I ,/PU/O bão/Nn/O số/Nn/O 10/An/O có/Ve/O hướng/Nn/O di_chuyển/Vv/O và/Cp/O diễn_biến/Vv/O rất/R/O phức_tạp/Aa/O ,/PU/O có_thể/Aa/O thay_đổi/Vv/O so/Vv/O với/Cp/O nhận_định/Nn/O ban_đầu/Nn/O ./PU/O

VCor:

id=’00001’> Chính_sách của Nhà_nước là đầu_tư xây_dựng nhà chung_cư bán cho người có thu_nhập thấp , nhưng rốt_cục lại không được quản_lý tốt

Hình 1. Ngữ liệu VTB và VCor của sushibarhanoi.com

VTB có 201.594 câu, 5.501.225 lượt từ, độ dài trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác nhau là 118.455. Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), trung bình mỗi câu có khoảng 20 từ, mỗi từ có 1,28 âm tiết và mỗi âm tiết dài 3,27 con chữ. Các âm tiết của từ đa tiết được nối với nhau bằng 1 dấu gạch dưới (vd: nguyên_nhân) và các cụm từ phái sinh được nối với nhau bằng 2 dấu gạch dưới (vd: siêu__bão). Khái niệm “Từ” ở đây là “từ từ điển” (theo từ điển tiếng Việt <2>). Nhãn từ loại và nhãn thực thể có tên kế thừa từ công trình <3>.

Bạn đang xem: Tiếng việt có bao nhiêu từ vựng

1. THỐNG KÊ TRÊN KHO NGỮ LIỆU TIẾNG VIỆT

Từ kho VCor, chúng ta có thể thống kê để rút ra từ điển tần số tiếng và từ điển tần số từ. Từ VTB chúng ta thống kê rút ra tần suất từ theo từ loại của chúng. Dưới đây là một số kết quả thống kê được từ kho VCor và VTB:

1.1. Thống kê tần suất âm tiết tiếng Việt trong VCor:

Trong kho ngữ liệu VCor, các âm tiết xuất hiện với tần suất khác nhau. Tần suất được tính bằng công thức f = –lg (n/N) với n là số lần xuất hiện của âm tiết và N là tổng số âm tiết trong ngữ liệu VCor. Ví dụ: trong 100 triệu âm tiết, âm tiết “và” xuất hiện 1 triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (nhỏ nhất là 0), có nghĩa là âm tiết đó xuất hiện càng nhiều và ngược lại (lớn nhất là 8, nếu âm tiết đó chỉ xuất hiện 1 lần).


Stt

Âm tiết

f

n

1

1,921

5.317.402

2

của

1,923

5.292.970

3

1,946

5.019.951

4

2,029

4.146.670

5

một

2,056

3.896.722

6

các

2,060

3.860.997

7

không

2,082

3.670.282

8

được

2,105

3.480.964

9

trong

2,119

3.370.540

10

cho

2,139

3.218.841

Bảng 1. Tần suất âm tiết trong VCor.

Theo đó, 1% các âm tiết phổ biến nhất (khoảng 70 âm tiết) chiếm hơn 30% số lượt âm tiết xuất hiện trong VCor. 10% các âm tiết phổ biến nhất (khoảng 700 âm tiết) chiếm hơn 80% số lượt âm tiết xuất hiện trong VCor.

Hình 2. Tần suất âm tiết trong VCor.


1.2. Thống kê tần suất từ tiếng Việt trong VCor:

Trong ngữ liệu thực tế VCor, ta thấy các từ xuất hiện nhiều nhất chính là các hư từ, rồi mới đến các thực từ như “người, ở, tôi, năm, làm, ông, anh, việc, …”.


Stt

Từ

f

n

1

1,820

5.243.802

2

của

1,822

5.219.708

3

1,956

3.833.948

4

các

1,959

3.807.556

5

1,968

3.729.463

6

một

1,986

3.578.049

7

được

2,012

3.370.127

8

không

2,031

3.225.865

9

trong

2,043

3.137.952

10

cho

2,050

3.087.779


Bảng 2a. Thống kê tần suất từ trong VCor.

Theo đó, 1% các từ phổ biến nhất (khoảng 330 từ) lại chiếm hơn 55% số lượt từ xuất hiện trong VCor. 10% các từ phổ biến nhất (khoảng 3.300 từ) chiếm hơn 90% số lượt từ sử dụng trong VCor.


Stt

Từ

f

n

..

..

 

14

người

2,160

2.396.880

15

2,210

2.136.221

20

tôi

2,314

1.681.304

31

năm

2,401

1.376.088

32

làm

2,423

1.308.116

33

ông

2,436

1.269.540

36

anh

2,464

1.190.272

44

việc

2,530

1.022.460

55

nước

2,611

848.489

60

có thể

2,660

757.960


Bảng 2b. Thống kê tần suất từ trong VCor

Hình 3. Thống kê tần suất xuất hiện của từ tiếng Việt trong VCor.


So sánh bảng 1 và 2, ta thấy trong VCor số lượng từ “và” xuất hiện (5.243.802 lần) ít hơn số lượng tiếng “và” (5.317.402 lần) vì tiếng “và” có thể xuất hiện trong nhiều đơn vị khác nữa ngoài từ “và”, như: “tù và”, “chà và”,…Tương tự cho các trường hợp còn lại.

1.3. Thống kê tần suất từ tiếng Việt trong VTB:

Trong ngữ liệu VTB, ta có thể thống kê tần suất của từ xuất hiện theo từ loại của chúng.


Stt

Từ

POS

f

n

1

của

Cm

1,820

77.936

2

Cp

1,822

77.360

3

các

Nq

1,956

57.144

4

Ve

1,959

53.614

5

Vc

1,968

52.207

6

trong

Cm

1,986

49.867

7

một

Nq

2,012

47.037

8

đã

R

2,031

45.503

9

những

Nq

2,043

43.878

10

không

R

2,050

42.888


Bảng 3. Thống kê tần suất từ trong VTB.

Xem thêm: Bộ Ảnh Áo Tắm Siêu Đẹp Của Người Mẫu Egg Với Bờ Mông Căng Tròn

Ví dụ: từ “tốt” xuất hiện 3.624 lần với tư cách là “tính từ” (tốt đẹp) và 2 lần với tư cách là danh từ (con tốt). Tương tự cho hệ từ “là” xuất hiện cao hơn nhiều so với từ loại động từ, kết từ, trợ từ của nó.


Stt

Từ

POS

f

n

3.775

của

Nn

4,6789

115

368

M

3,4268

2.059

20.793

Vv

6,1384

4

39.212

các

Vv

6,7405

1

3.224

M

4,5731

147

103

R

2,9803

5.756

19.385

Vv

6,0415

5

5.290

Cs

4,9209

66

143

Cp

3,0857

4.516

1.749

M

4,1842

360

186

tốt

Aa

3,1813

3.624

25.154

tốt

Nn

6,4394

2


Bảng 4. Thống kê tần suất từ trong VTB

Trong đó: Cm: giới từ; Cp: liên từ; Nq: số từ, Ve: động từ tồn tại; Vc: hệ từ; R: trạng từ; Nn: danh từ, Vv: động từ, Aa: tính từ, M: trợ từ.


2. ỨNG DỤNG TRONG GIẢNG DẠY TIẾNG VIỆT

Từ hai kho ngữ liệu VCor và VTB và các kết quả thống kê của nó, chúng ta có thể khai thác để phục vụ cho việc giảng dạy tiếng Việt như sau:

2.1. Xác định vốn từ vựng cơ bản

Trong giảng dạy tiếng, phần từ vựng – ngữ âm chắc chắn phải được thực hiện đầu tiên. Riêng đối với tiếng Việt là thứ tiếng đơn lập, đơn tiết tính và là thứ tiếng ghi âm vị, nên âm tiết sẽ là đơn vị cơ bản cần xem xét khi giảng dạy tiếng Việt.

2.1.1. Xây dựng vốn âm tiết cơ bản:

Chúng ta cần xác định vốn âm tiết cơ bản phù hợp với người học dựa vào cấu trúc (từ dễ phát âm đến khó) và độ thông dụng của âm tiết. Từ kết quả thống kê ở phần 1.1, ta đã rút ra được danh sách 700 âm tiết thông dụng nhất trong tiếng Việt (chiếm 80% lượt âm tiết xuất hiện trong thực tế). Dựa vào danh sách này, ta xây dựng được vốn âm tiết phù hợp cho người học theo trình độ để họ có thể nghe, nói, đọc, viết nhanh chóng tiếng Việt (nhưng chưa hiểu nghĩa).

2.1.2. Xây dựng vốn từ cơ bản:

Tương tự, chúng ta cần xác định vốn từ cơ bản phù hợp với người học dựa vào độ thông dụng của từ. Từ kết quả thống kê ở phần 1.2, ta đã rút ra được danh sách 3.300 từ thông dụng nhất trong tiếng Việt (chiếm hơn 90% lượt từ xuất hiện trong văn bản). Dựa vào danh sách này, chúng ta xây dựng được vốn từ phù hợp cho người học theo trình độ để họ có thể đọc hiểu được văn bản tiếng Việt. Tuy nhiên, tiếng Việt chúng ta có nhiều từ (đơn tiết) đồng âm, nên để xác định được nghĩa của từ, trong đa số các trường hợp ta có thể dựa vào từ loại. Ví dụ: “tốt” (danh từ/tính từ); “tôi” (đại từ/động từ); … Vì vậy, để chọn nghĩa thông dụng cho phù hợp với trình độ người học, ta cần sử dụng danh sách 1.3 đã rút ra được để xây dựng được vốn từ phù hợp cho mỗi trình độ. Ví dụ: trình độ thấp sẽ học từ “tốt” với từ loại tính từ, từ “tôi” với từ loại đại từ.

2.1.3. Xây dựng giáo trình/từ điển theo trình độ:

Từ những kết quả trên, chúng ta có thể xây dựng được giáo trình chứa những từ thông dụng. Tập từ cơ bản này cũng sẽ được dùng để giải thích/định nghĩa những từ khó hơn trong phần từ vựng của giáo trình hay trong từ điển tiếng Việt giải thích. Đây là điều mà từ điển Oxford OALD8 <4> đã áp dụng khi giải thích mọi mục từ chỉ qua 3.000 từ cơ bản. Ví dụ:

Với cách thức này, ta có thể tránh được việc định nghĩa/giải thích một từ trung bình bằng một từ khó hơn mà ta hay gặp trong các từ điển giải thích tiếng Việt. Ví dụ: từ “đường” (sugar) trong từ điển tiếng Việt định nghĩa là “một chất kết tinh có vị ngọt”<2>.

2.2. Quan sát cách dùng từ

Việc học từ vựng không thể tách rời khỏi ngữ cảnh, vì vậy, chúng ta có thể sử dụng ngữ liệu VCor và VTB để học viên quan sát cách dùng từ trong ngữ cảnh thực tế như sau:

2.2.1. Tìm theo hình thái từ:

Do đặc thù của tiếng Việt, nên khi chúng ta sử dụng các công cụ tìm kiếm, thống kê ngôn ngữ của tiếng Anh, chúng ta sẽ không thể xác định đúng được hình thái của chuỗi đang tìm (vì trong công cụ tiếng Anh, mỗi tiếng sẽ được xem từ). Còn trong ngữ liệu VCor, do có gán nhãn hình thái từ, nên việc tìm kiếm tiếng Việt sẽ hiệu quả hơn. Ví dụ ta muốn tìm từ “tin”: máy sẽ tìm ra từ “tin” nằm độc lập (như: “tin điều đó…”, “tin mới nhận”), hoặc từ “tin” trong ngữ: “nhắn tin”, “tin sốt dẻo”, …; chứ máy không bị nhầm lẫn với hình vị “tin” trong các từ “tin mừng”, “tin tức”, “thông tin” hay á-hình vị “tin” trong “căn-tin”, … Tương tự, khi tìm từ “quan tài”, máy sẽ không nhầm với cụm “quan tài” trong câu “một ông quan tài giỏi”.

2.2.2. Khảo sát theo từ loại:

Chúng ta có thể tìm kiếm từ theo từ loại của nó, ví dụ: tìm động từ “tin”: máy sẽ tìm ra đúng động từ “tin” nằm độc lập trong các trường hợp như: “chúng ta tin rằng…”; hoặc tìm danh từ “tin” trong các ngữ: “nhắn tin”, “tin sốt dẻo”, …; Tương tự cho việc tìm tính từ “tốt” thì máy sẽ không nhầm lẫn với danh từ “tốt”.

2.2.3. Khảo sát cách dùng từ qua chuỗi đồng hiện (concordance):

Một từ có thể có nhiều nghĩa khác nhau, nghĩa cụ thể của từ phụ thuộc vào ngữ cảnh của từ (context). Chính vì vậy, khi xem xét nghĩa/cách dùng của một từ nào đó, ta cần xem xét ngữ cảnh tương ứng của nó. Ví dụ: cách chọn âm tiết “máy” thì chương trình sẽ hiện ra tất cả các câu có chứa âm tiết “máy” để học viên thấy được (hình 4) hay từ “sử dụng” (hình 5).

2.2.4. Khảo sát chuỗi ngôn từ (collocation):

Trong thực tế, người nước ngoài rất khó hiểu/khó nhớ những cụm từ mà người Việt dùng chung với nhau, chẳng hạn: đỏ lòm/lè, tím ngắt/lè; gà trống/đực, dê đực/trống; súc miệng/mồm, … Chính vì vậy, với VCor, qua việc khảo sát trực quan các chuỗi ngôn từ này, sẽ giúp người học biết cách dùng từ thích hợp trong ngữ cảnh thích hợp, biết được tính từ nào sẽ dùng với danh từ nào, động từ nào dùng với danh từ nào, trạng từ nào đi với động từ nào, …

 

*

Hình 4. Tìm kiếm theo âm tiết

*

Hình 5. Tìm kiếm theo từ

KẾT LUẬN

Bằng cách khai thác ngữ liệu tiếng Việt, chúng ta có thể xác định được vốn âm tiết và vốn từ cơ bản (theo từ loại thông dụng) để ứng dụng trong việc xây dựng bộ giáo trình, bộ từ vựng phù hợp cho từng cấp độ của người học tiếng Việt. Ngoài ra, qua việc quan sát cách dùng trong thực tế từ kho ngữ liệu này, học viên sẽ tự “nghiệm” ra cách dùng từ, các quy luật của tiếng Việt, nắm bắt được những tri thức ngôn ngữ mà các cách tiếp cận truyền thống khó có thể thể bao quát hết được. Nếu kho ngữ liệu tiếng Việt này được đầu tư để tăng cường số lượng, chủng loại và gán thêm nhiều tri thức ngôn ngữ nữa thì hiệu quả khai thác càng tăng gấp bội.

TÀI LIỆU THAM KHẢO

<1>. https://www.sushibarhanoi.com/resources/.

<2>. Viện Ngôn ngữ học (Hoàng Phê chủ biên), “Từ điển tiếng Việt”, NXB Đà Nẳng, 1980.

<3>. Đinh Điền, “Xây dựng và khai thác ngữ liệu song ngữ Anh-Việt điện tử”, luận án tiến sĩ ngôn ngữ học so sánh, ĐH Khoa học Xã hội & Nhân văn, ĐHQG Tp. HCM, 3/2005.

<4>. A.S.Hornby, “Oxford Advanced Learner’s Dictionary 8th edition with Vietnamese translation” (Đinh Điền chủ biên dịch), NXB Trẻ Tp.HCM, 2014.

 ———————————————-

(*) Nội dung bài viết này được trích từ công trình: Đinh Điền, Hồ Xuân Vinh, “Ứng dụng Kho Ngữ liệu trong việc day tiếng Việt cho người nước ngoài”, hội thảo quốc tế Giảng dạy, Nghiên cứu Việt Nam học và tiếng Việt, 1/2016, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180.