Tiếng việt có bao nhiêu từ vựng

Trong nghiên cứu này, shop chúng tôi sử dụng 2 kho ngữ liệu giờ Việt (tên là VTB với VCor) vì Trung tâm ngôn từ học Tính toán – ĐH Khoa học tự nhiên và thoải mái – tp.hcm (viết tắt là sushibarhanoi.com)<1> cung cấp. Ngữ liệu này được tích lũy từ những trang báo điện tử (www.tuoitreonline, www.vnexpress.net,…) trong giai đoạn từ năm 2000 quay lại đây. Các ngữ liệu này sẽ được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ (tag) để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngữ điệu (Language) và nghành nghề (Domain). Ngữ liệu VTB vẫn được chú thích (annotate) thủ công với nhãn ranh giới từ giờ đồng hồ Việt, nhãn từ các loại (POS) và nhãn thực thể mang tên (Named Entity). Còn ngữ liệu VCor chỉ được chú thích auto nhãn nhãi giới tự (do kích thước quá lớn). Xin xem hình 1 minh họa bên dưới:

Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu__bão/Nn/TRM_B Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O Philippines/Nr/LOC_B ./PU/O

Theo/Vv/O ông/Nn/TTL_B Bùi_Minh_Tăng/Nr/PER_B -/PU/O giám_đốc/Nn/DES_B Trung_tâm/Nn/ORG_B Dự_báo/Vv/ORG_I khí_tượng/Nn/ORG_I thuỷ_văn/Nn/ORG_I trung_ương/Aa/ORG_I ,/PU/O bão/Nn/O số/Nn/O 10/An/O có/Ve/O hướng/Nn/O di_chuyển/Vv/O và/Cp/O diễn_biến/Vv/O rất/R/O phức_tạp/Aa/O ,/PU/O có_thể/Aa/O thay_đổi/Vv/O so/Vv/O với/Cp/O nhận_định/Nn/O ban_đầu/Nn/O ./PU/O

VCor:

id=’00001’> Chính_sách của Nhà_nước là đầu_tư xây_dựng nhà chung_cư xuất bán cho người tất cả thu_nhập thấp , nhưng rốt_cục lại không được quản_lý xuất sắc

Hình 1. Ngữ liệu VTB cùng VCor của sushibarhanoi.com

VTB tất cả 201.594 câu, 5.501.225 lượt từ, độ lâu năm trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác biệt là 118.455. Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), tất cả 346.454.533 từ cùng 443.301.776 chữ (tiếng/âm tiết), trung bình từng câu có khoảng 20 từ, từng từ tất cả 1,28 âm tiết cùng mỗi âm tiết lâu năm 3,27 nhỏ chữ. Những âm tiết của từ đa tiết được nối cùng với nhau bởi 1 dấu gạch dưới (vd: nguyên_nhân) và các cụm trường đoản cú phái sinh được nối cùng với nhau bằng 2 lốt gạch bên dưới (vd: siêu__bão). Có mang “Từ” ở đây là “từ tự điển” (theo từ điển giờ đồng hồ Việt <2>). Nhãn từ nhiều loại và nhãn thực thể mang tên kế thừa từ công trình xây dựng <3>.

Bạn đang xem: Tiếng việt có bao nhiêu từ vựng

1. THỐNG KÊ TRÊN KHO NGỮ LIỆU TIẾNG VIỆT

Từ kho VCor, chúng ta cũng có thể thống kê để rút ra từ điển tần số tiếng cùng từ điển tần số từ. Trường đoản cú VTB chúng ta thống kê rút ra gia tốc từ theo từ loại của chúng. Dưới đấy là một số tác dụng thống kê được từ bỏ kho VCor cùng VTB:

1.1. Thống kê tần suất âm ngày tiết tiếng Việt trong VCor:

Trong kho ngữ liệu VCor, những âm tiết xuất hiện với tần suất khác nhau. Tần suất được tính bằng công thức f = –lg (n/N) cùng với n là số lần xuất hiện thêm của âm tiết với N là tổng thể âm máu trong ngữ liệu VCor. Ví dụ: trong 100 triệu âm tiết, âm tiết “và” xuất hiện thêm 1 triệu lần thì f đang là –lg(10exp6/10exp8) = 2. Nếu con số này càng bé dại (nhỏ độc nhất là 0), tức là âm tiết đó xuất hiện càng các và trái lại (lớn nhất là 8, giả dụ âm tiết đó chỉ xuất hiện thêm 1 lần).


Stt

Âm tiết

f

n

1

1,921

5.317.402

2

của

1,923

5.292.970

3

1,946

5.019.951

4

2,029

4.146.670

5

một

2,056

3.896.722

6

các

2,060

3.860.997

7

không

2,082

3.670.282

8

được

2,105

3.480.964

9

trong

2,119

3.370.540

10

cho

2,139

3.218.841

Bảng 1. Tần suất âm huyết trong VCor.

Theo đó, 1% các âm tiết thịnh hành nhất (khoảng 70 âm tiết) chiếm hơn 30% số lượt âm tiết xuất hiện thêm trong VCor. 10% những âm tiết thông dụng nhất (khoảng 700 âm tiết) chiếm hơn 80% số lượt âm tiết xuất hiện trong VCor.

Hình 2. Tần suất âm tiết trong VCor.


1.2. Thống kê tần suất từ tiếng Việt trong VCor:

Trong ngữ liệu thực tiễn VCor, ta thấy những từ xuất hiện nhiều nhất đó là các lỗi từ, rồi mới đến các thực tự như “người, ở, tôi, năm, làm, ông, anh, việc, …”.


Stt

Từ

f

n

1

1,820

5.243.802

2

của

1,822

5.219.708

3

1,956

3.833.948

4

các

1,959

3.807.556

5

1,968

3.729.463

6

một

1,986

3.578.049

7

được

2,012

3.370.127

8

không

2,031

3.225.865

9

trong

2,043

3.137.952

10

cho

2,050

3.087.779


Bảng 2a. Thống kê gia tốc từ trong VCor.

Theo đó, 1% các từ phổ cập nhất (khoảng 330 từ) lại chỉ chiếm hơn 55% số lượt từ lộ diện trong VCor. 10% những từ thông dụng nhất (khoảng 3.300 từ) chiếm phần hơn 90% số lượt từ thực hiện trong VCor.


Stt

Từ

f

n

..

..

 

14

người

2,160

2.396.880

15

2,210

2.136.221

20

tôi

2,314

1.681.304

31

năm

2,401

1.376.088

32

làm

2,423

1.308.116

33

ông

2,436

1.269.540

36

anh

2,464

1.190.272

44

việc

2,530

1.022.460

55

nước

2,611

848.489

60

có thể

2,660

757.960


Bảng 2b. Thống kê tần suất từ trong VCor

Hình 3. Thống kê tần suất xuất hiện thêm của từ giờ Việt trong VCor.


So sánh bảng 1 cùng 2, ta thấy vào VCor số lượng từ “và” xuất hiện (5.243.802 lần) ít hơn số lượng tiếng “và” (5.317.402 lần) vì tiếng “và” có thể xuất hiện trong nhiều đơn vị khác nữa không tính từ “và”, như: “tù và”, “chà và”,…Tương tự cho các trường thích hợp còn lại.

1.3. Thống kê tần suất từ giờ đồng hồ Việt trong VTB:

Trong ngữ liệu VTB, ta rất có thể thống kê tần suất của từ xuất hiện theo từ nhiều loại của chúng.


Stt

Từ

POS

f

n

1

của

Cm

1,820

77.936

2

Cp

1,822

77.360

3

các

Nq

1,956

57.144

4

Ve

1,959

53.614

5

Vc

1,968

52.207

6

trong

Cm

1,986

49.867

7

một

Nq

2,012

47.037

8

đã

R

2,031

45.503

9

những

Nq

2,043

43.878

10

không

R

2,050

42.888


Bảng 3. Thống kê gia tốc từ vào VTB.

Xem thêm: Bộ Ảnh Áo Tắm Siêu Đẹp Của Người Mẫu Egg Với Bờ Mông Căng Tròn

Ví dụ: từ bỏ “tốt” mở ra 3.624 lần với tư biện pháp là “tính từ” (tốt đẹp) và gấp đôi với tư biện pháp là danh từ bỏ (con tốt). Tương tự như cho hệ trường đoản cú “là” mở ra cao hơn các so với từ loại động từ, kết từ, trợ từ bỏ của nó.


Stt

Từ

POS

f

n

3.775

của

Nn

4,6789

115

368

M

3,4268

2.059

20.793

Vv

6,1384

4

39.212

các

Vv

6,7405

1

3.224

M

4,5731

147

103

R

2,9803

5.756

19.385

Vv

6,0415

5

5.290

Cs

4,9209

66

143

Cp

3,0857

4.516

1.749

M

4,1842

360

186

tốt

Aa

3,1813

3.624

25.154

tốt

Nn

6,4394

2


Bảng 4. Thống kê tần suất từ trong VTB

Trong đó: Cm: giới từ; Cp: liên từ; Nq: số từ, Ve: hễ từ tồn tại; Vc: hệ từ; R: trạng từ; Nn: danh từ, Vv: cồn từ, Aa: tính từ, M: trợ từ.


2. ỨNG DỤNG vào GIẢNG DẠY TIẾNG VIỆT

Từ nhị kho ngữ liệu VCor cùng VTB cùng các công dụng thống kê của nó, chúng ta cũng có thể khai thác để ship hàng cho việc đào tạo và giảng dạy tiếng Việt như sau:

2.1. Xác định vốn từ bỏ vựng cơ bản

Trong đào tạo và huấn luyện tiếng, phần từ bỏ vựng – ngữ âm chắc chắn là phải được thực hiện đầu tiên. Riêng so với tiếng Việt là thiết bị tiếng đối kháng lập, đối kháng tiết tính cùng là sản phẩm tiếng ghi âm vị, nên âm tiết đã là đơn vị cơ bạn dạng cần cẩn thận khi đào tạo và giảng dạy tiếng Việt.

2.1.1. Xây dựng vốn âm huyết cơ bản:

Chúng ta cần khẳng định vốn âm huyết cơ phiên bản phù hợp với người học tập dựa vào kết cấu (từ dễ dàng phát âm cho khó) với độ thịnh hành của âm tiết. Từ kết quả thống kê tại phần 1.1, ta sẽ rút ra được list 700 âm huyết thông dụng độc nhất trong tiếng Việt (chiếm 80% lượt âm tiết xuất hiện trong thực tế). Phụ thuộc danh sách này, ta thi công được vốn âm tiết cân xứng cho fan học theo trình độ để họ có thể nghe, nói, đọc, viết gấp rút tiếng Việt (nhưng chưa hiểu nghĩa).

2.1.2. Xây dựng vốn tự cơ bản:

Tương tự, chúng ta cần khẳng định vốn trường đoản cú cơ bạn dạng phù hợp với người học dựa vào độ phổ biến của từ. Từ tác dụng thống kê ở chỗ 1.2, ta đang rút ra được danh sách 3.300 tự thông dụng độc nhất vô nhị trong giờ Việt (chiếm rộng 90% lượt từ xuất hiện thêm trong văn bản). Dựa vào danh sách này, họ xây dựng được vốn từ phù hợp cho người học theo trình độ để họ hoàn toàn có thể đọc hiểu được văn phiên bản tiếng Việt. Mặc dù nhiên, giờ Việt chúng ta có các từ (đơn tiết) đồng âm, buộc phải để xác định được nghĩa của từ, trong phần lớn các trường vừa lòng ta hoàn toàn có thể dựa vào từ loại. Ví dụ: “tốt” (danh từ/tính từ); “tôi” (đại từ/động từ); … bởi vậy, để chọn nghĩa phổ biến cho tương xứng với trình độ chuyên môn người học, ta đề xuất sử dụng danh sách 1.3 vẫn rút ra được để sản xuất được vốn từ phù hợp cho từng trình độ. Ví dụ: chuyên môn thấp vẫn học tự “tốt” với từ loại tính từ, tự “tôi” với từ một số loại đại từ.

2.1.3. Xây dựng giáo trình/từ điển theo trình độ:

Từ những công dụng trên, chúng ta có thể xây dựng được giáo trình chứa hồ hết từ thông dụng. Tập từ cơ bạn dạng này cũng biến thành được dùng để giải thích/định nghĩa các từ cạnh tranh hơn trong phần từ bỏ vựng của giáo trình hay trong trường đoản cú điển giờ Việt giải thích. Đây là vấn đề mà tự điển Oxford OALD8 <4> đã áp dụng khi phân tích và lý giải mọi mục từ chỉ qua 3.000 trường đoản cú cơ bản. Ví dụ:

Với cách thức này, ta rất có thể tránh được việc định nghĩa/giải ưa thích một tự trung bình bằng một từ cạnh tranh hơn nhưng ta hay chạm chán trong những từ điển giải thích tiếng Việt. Ví dụ: tự “đường” (sugar) vào từ điển giờ Việt quan niệm là “một hóa học kết tinh có vị ngọt”<2>.

2.2. Quan sát biện pháp dùng từ

Việc học từ vựng không thể bóc tách rời khỏi ngữ cảnh, bởi vì vậy, bạn cũng có thể sử dụng ngữ liệu VCor và VTB nhằm học viên quan tiền sát cách dùng từ vào ngữ cảnh thực tiễn như sau:

2.2.1. Tìm theo như hình thái từ:

Do tính chất của giờ đồng hồ Việt, cần khi họ sử dụng những công chũm tìm kiếm, thống kê ngôn từ của giờ đồng hồ Anh, bọn họ sẽ ko thể khẳng định đúng được hình hài của chuỗi đang tìm (vì trong qui định tiếng Anh, mỗi tiếng sẽ tiến hành xem từ). Còn trong ngữ liệu VCor, do có gán nhãn sắc thái từ, nên việc tìm và đào bới kiếm tiếng Việt sẽ kết quả hơn. Lấy một ví dụ ta hy vọng tìm từ “tin”: máy đã tìm ra từ bỏ “tin” nằm hòa bình (như: “tin điều đó…”, “tin new nhận”), hoặc từ “tin” trong ngữ: “nhắn tin”, “tin nóng dẻo”, …; chứ máy không bị nhầm lẫn với hình vị “tin” trong những từ “tin mừng”, “tin tức”, “thông tin” giỏi á-hình vị “tin” trong “căn-tin”, … Tương tự, khi tìm tự “quan tài”, máy sẽ không còn nhầm với các “quan tài” trong câu “một ông áo quan giỏi”.

2.2.2. Khảo tiếp giáp theo tự loại:

Chúng ta rất có thể tìm kiếm từ theo từ các loại của nó, ví dụ: tìm đụng từ “tin”: máy sẽ tìm ra đúng động từ “tin” nằm tự do trong những trường vừa lòng như: “chúng ta tin rằng…”; hoặc tra cứu danh tự “tin” trong số ngữ: “nhắn tin”, “tin nóng dẻo”, …; tựa như cho việc tìm kiếm tính từ “tốt” thì máy sẽ không nhầm lẫn với danh từ bỏ “tốt”.

2.2.3. Khảo sát biện pháp dùng từ bỏ qua chuỗi đồng hiện tại (concordance):

Một từ có thể có không ít nghĩa khác nhau, nghĩa rõ ràng của từ dựa vào vào ngữ cảnh của từ (context). Cũng chính vì vậy, khi chứng kiến tận mắt xét nghĩa/cách sử dụng của một từ làm sao đó, ta bắt buộc xem xét ngữ cảnh tương ứng của nó. Ví dụ: cách chọn âm máu “máy” thì chương trình sẽ hiện ra toàn bộ các câu gồm chứa âm ngày tiết “máy” để học viên tìm tòi (hình 4) tuyệt từ “sử dụng” (hình 5).

2.2.4. Khảo liền kề chuỗi ngữ điệu (collocation):

Trong thực tế, người nước ngoài rất cực nhọc hiểu/khó lưu giữ những các từ mà người việt dùng bình thường với nhau, chẳng hạn: đỏ lòm/lè, tím ngắt/lè; gà trống/đực, dê đực/trống; súc miệng/mồm, … cũng chính vì vậy, cùng với VCor, qua việc điều tra trực quan các chuỗi ngữ điệu này, để giúp người học biết phương pháp dùng từ tương thích trong ngữ cảnh ưng ý hợp, biết được tính từ làm sao sẽ dùng với danh từ bỏ nào, rượu cồn từ nào dùng với danh từ bỏ nào, trạng từ làm sao đi với hễ từ nào, …

 

*

Hình 4. Tra cứu kiếm theo âm tiết

*

Hình 5. Kiếm tìm kiếm theo từ

KẾT LUẬN

Bằng cách khai quật ngữ liệu tiếng Việt, bạn có thể xác định được vốn âm tiết với vốn từ cơ phiên bản (theo từ một số loại thông dụng) để vận dụng trong việc xây dựng bộ giáo trình, cỗ từ vựng phù hợp cho từng lever của tín đồ học tiếng Việt. Ko kể ra, qua câu hỏi quan sát bí quyết dùng trong thực tiễn từ kho ngữ liệu này, học tập viên sẽ tự “nghiệm” ra giải pháp dùng từ, các quy luật của tiếng Việt, nắm bắt được những học thức ngôn ngữ mà những cách tiếp cận truyền thống cuội nguồn khó rất có thể thể bao hàm hết được. Nếu kho ngữ liệu tiếng Việt này được chi tiêu để tăng tốc số lượng, chủng một số loại và gán thêm nhiều tri thức ngôn ngữ nữa thì tác dụng khai thác càng tăng vội bội.

TÀI LIỆU THAM KHẢO

<1>. Https://www.sushibarhanoi.com/resources/.

<2>. Viện ngôn ngữ học (Hoàng Phê chủ biên), “Từ điển giờ Việt”, NXB Đà Nẳng, 1980.

<3>. Đinh Điền, “Xây dựng và khai thác ngữ liệu tuy nhiên ngữ Anh-Việt năng lượng điện tử”, luận án tiến sĩ ngôn ngữ học so sánh, ĐH công nghệ Xã hội và Nhân văn, ĐHQG Tp. HCM, 3/2005.

<4>. A.S.Hornby, “Oxford Advanced Learner’s Dictionary 8th edition with Vietnamese translation” (Đinh Điền công ty biên dịch), NXB trẻ em Tp.HCM, 2014.

 ———————————————-

(*) Nội dung nội dung bài viết này được trích trường đoản cú công trình: Đinh Điền, hồ Xuân Vinh, “Ứng dụng Kho Ngữ liệu trong bài toán day giờ Việt cho tất cả những người nước ngoài”, hội thảo quốc tế Giảng dạy, phân tích Việt nam học cùng tiếng Việt, 1/2016, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180.