ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHUẤT THỊ THỦY
XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2012
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Khuất Thị Thủy
XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG
Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số
: 60.46.35
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Nguyễn Thị Minh Huyền
Hà Nội – 2012
MỤC LỤC
DANH MỤC CHỮ VIẾT TẮT ........................................................................ 2
DANH MỤC HÌNH .......................................................................................... 3
MỞ ĐẦU ........................................................................................................... 4
Chương 1 Hệ hình thức văn phạm TAG ........................................................... 6
1.1. Văn phạm phi ngữ cảnh ......................................................................... 6
1.2. Văn pha ̣m TAG ...................................................................................... 7
1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự
án XTAG ..................................................................................................... 16
1.4. Định dạng TAGML cho cơ sở dữ liệu TAG ........................................ 19
Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp ...... 24
2.1. Giới thiệu về từ điển............................................................................. 24
2.2. Xây dựng cơ sở dữ liệu ........................................................................ 26
Chương 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt .............. 32
3.1. Trích rút tự động văn phạm TAG từ treebank tiếng Việt .................... 32
3.2. Đánh giá kết quả của hai phương pháp ................................................ 39
KẾT LUẬN ..................................................................................................... 42
TÀI LIỆU THAM KHẢO ............................................................................... 43
PHỤ LỤC ........................................................................................................ 45
Luận văn tốt nghiệp
DANH MỤC CHỮ VIẾT TẮT
API
Application Programming Interface
LMF
Lexical Markup Framework
LLP2
Loria LTAG Parser 2
LTAG
Lexicalized Tree Adjoining Grammar
TAG
Tree Adjoining Grammar
TAGML
Tree Adjoining Grammars Markup Language
XML
eXtensible Markup Language
Học viên: Khuất Thị Thủy
2
Luận văn tốt nghiệp
DANH MỤC HÌNH
Hình 1.1
Mô tả cây khởi tạo
9
Hình 1.2
Mô tả cây phụ trợ
9
Hình 1.3
Cây khởi tạo
9
Hình 1.4
Cây phụ trợ
9
Hình 1.5
Phép thế
10
Hình 1.6
Minh họa cho phép thế
10
Hình 1.7
Phép kết nối cây
11
Hình 1.8
Minh họa cho phép kết nối cây
12
Hình 1.9
Sơ đồ phép thế cây với cấu trúc đặc trưng
12
Hình 1.10
Sơ đồ phép kết nối cây với cấu trúc đặc trưng
13
Hình 1.11
Các cây cơ sở của câu “Yesterday John saw
Marry”
13
Hình 1.12
Dẫn xuất của câu “Yesterday John saw Marry”
14
Hình 1.13
Cây cú pháp của câu “Yesterday John saw
Marry”
14
Hình 1.14
cây dẫn xuất của câu “Yesterday John saw
Marry”
15
Hình 1.15
Cây minh họa cho họ cây nội động từ
18
Hình 1.16
Cây minh họa cho họ cây ngoại động từ
18
Hình 1.17
Cây minh họa cho họ cây mà động từ có chính
xác hai bổ ngữ
19
Hình 1.18
Các cây phụ trợ là giới từ
19
Học viên: Khuất Thị Thủy
3
Luận văn tốt nghiệp
MỞ ĐẦU
Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng
trong xử lý ngôn ngữ tự nhiên. Kết quả của phân tích cú pháp được sử
dụng trong rất nhiều ứng dụng như dịch máy, hỏi đáp, trích chọn thông tin…
Phân tích cú pháp đưa ra các mô tả về quan hệ giữa các thành phần
trong câu. Bài toán phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh
thứ nhất là phân tích cú pháp thành phần tức là xác định các thành phần ngữ
đoạn trong câu; khía cạnh thứ hai là phân tích cú pháp phụ thuộc tức là xác
định sự phụ thuộc về ngữ nghĩa giữa các từ trong câu.
Mỗi bộ phân tích cú pháp đều cần tập các quy tắc của ngôn ngữ (chính
là các đặc tả hình thức của ngôn ngữ đang xét), các quy tắc này thì được biểu
diễn bởi một hệ hình thức văn phạm cụ thể nào đó. Các hình thức văn phạm
thường được sử dụng trong phân tích cú pháp là văn phạm phi ngữ cảnh và
các văn phạm hợp nhất. Hợp nhất văn phạm TAG là một trong những văn
phạm được sử dụng phổ biến hiện nay. Đầu vào của bài toán phân tích cú
pháp là câu đã được phân tách thành các từ, trong đó mỗi từ có đặc điểm hình
thái xác định. Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ
ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và
từng bước dựng lên cấu trúc cú pháp (cây cú pháp) của câu. Kết quả cần đạt
được là hình thái của câu. Do đó, để bộ phân tích cú pháp hoạt động được thì
cần có cơ sở dữ liệu là một văn phạm theo một hệ hình thức văn phạm cụ thể
nên việc xây dựng cơ sở dữ liệu cho phân tích cú pháp là việc làm hết sức
quan trọng. Trong khuôn khổ của luận văn tốt nghiệp cao học em xin trình
bày nghiên cứu của mình với đề tài: “Xây dựng cơ sở dữ liệu cho phân tích cú
pháp tiếng Việt với hệ hình thức văn phạm TAG”. Nội dung của luận văn
được bố cục như sau:
Học viên: Khuất Thị Thủy
4
Luận văn tốt nghiệp
Chương 1 trình bày tổng quan về hệ hình thức văn phạm TAG: Các cây
cơ sở, các thao tác trong TAG, cây dẫn xuất; cơ sở dữ liệu cho phân tích cú
pháp tiếng Anh với TAG, chuẩn mã hóa dữ liệu cho TAG.
Đóng góp của luận văn được trình bày ở chương 2. Chương này trình
bày thuật toán để xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với
hệ hình thức văn phạm TAG bằng phương pháp dựa trên từ điển và quy tắc
ngữ pháp.
Chương 3 của luận văn trình bày một phương pháp xây dựng cơ sở dữ
liệu khác là trích rút tự động văn phạm TAG từ Treebank tiếng Việt và đưa ra
các đánh giá đối với kết quả xây dựng cơ sở dữ liệu của hai phương pháp trên.
Học viên: Khuất Thị Thủy
5
Luận văn tốt nghiệp
Chƣơng 1
Hệ hình thức văn phạm TAG
Trước khi trình bày về cơ sở dữ liệu cho phân tích cú pháp với hệ hình
thức TAG thì chương này trình bày các kiến thức cơ sở về hình thức văn
phạm TAG.
1.1. Văn phạm phi ngữ cảnh
Văn phạm hay văn phạm sinh là một bộ bốn (Σ, V, σ, P) trong đó:
- Σ: Bảng chữ cái chính hay bảng chữ cái từ của văn phạm;
- V: Bảng chữ cái phụ hay bảng chữ cái hỗ trợ của văn phạm;
Σ, V là các tập hữu hạn và khác trống;
V’ = Σ V - Bảng chữ cái hỗn hợp hay bảng chữ cái đầy đủ của văn
phạm;
Σ V = Ø;
- σ V và được gọi là tiên đề hay ký hiệu xuất phát của văn phạm;
- P = {φ → ψ | φ (Σ V)+, ψ (Σ V)*, → (Σ V)}: Sơ đồ
hay tập quy tắc của văn phạm;
r = φ → ψ được gọi là quy tắc (hay quy tắc thế hoặc quy tắc sinh) của
văn phạm; φ - vế trái, ψ - vế phải của quy tắc r. Quy tắc r được gọi là quy tắc
kết (hoặc quy tắc kết thúc) nếu ψ và không một ký hiệu nào thuộc ψ mà
lại xuất hiện ở vế trái của quy tắc trong P ([6]).
Văn phạm phi ngữ cảnh là văn phạm mà mọi quy tắc đều có dạng A →
α, trong đó A là ký hiệu không kết và α là xâu bất kỳ.
Văn phạm phi ngữ cảnh thường được lựa chọn để biểu diễn cấu trúc cú
pháp của các ngôn ngữ tự nhiên vì nó đủ mạnh để mô tả hầu hết những cấu trúc
của ngôn ngữ tự nhiên. Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn
cấu trúc cú pháp thì các ký hiệu kết thúc tương ứng với các từ trong ngôn
Học viên: Khuất Thị Thủy
6
Luận văn tốt nghiệp
ngữ, các ký hiệu không kết thúc tương ứng với các phân loại cú pháp (hay từ
loại). Tiên đề biểu diễn phân loại "câu". Các quy tắc sinh biểu diễn các quy
tắc ngữ pháp. Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít nhất
một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc
nào). Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong
vế phải. Tuy nhiên văn phạm phi ngữ cảnh vẫn còn nhiều mặt hạn chế (sẽ được
trình bày rõ trong phần ưu điểm của TAG) nên trên thực tế cần phát triển những
văn phạm có khả năng thể hiện ý nghĩa ngôn ngữ học tốt hơn. TAG là một hình
thức văn phạm như thế.
1.2. Văn pha ̣m TAG
Văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là hệ hình
thức viết lại dạng cây, được đưa ra nửa cuối thập kỷ 80. Khác với văn phạm
phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với các đối tượng
cơ bản là các đối tượng có cấu trúc (cây). Vì vậy, TAG cho phép sinh ra các
mô tả cấu trúc chứ không phải tập các xâu. TAG sử dụng hai loại cây cơ bản
để biểu diễn các cấu trúc tương ứng với các đơn vị ngôn ngữ: Cây khởi tạo
biểu diễn thành phần bắt buộc của câu; Cây phụ trợ biểu diễn cấu trúc cho
phép thêm vào các thành phần phụ của câu.
1.2.1. Đinh
̣ nghiã hình thức của văn pham
̣ TAG
Văn phạm TAG gồm 5 thành phần (N, Σ, I, A, S) trong đó ([7]):
N: tập hữu hạn các kí hiệu không kết thúc
Σ: tập hữu hạn các kí hiệu kết thúc
I: tập hữu hạn các cây khởi tạo. Trong cây khởi tạo thì các nút lá được
đánh nhãn là kí hiệu kết thúc hoặc không kết thúc. Các nút mà tại đó có nhãn
là kí hiệu không kết thúc thì được đánh dấu thêm kí hiệu thay thế, kí hiệu thay
thế này được đánh dấu trên cây bằng một dấu mũi tên đi xuống (xem hình
1.1).
Học viên: Khuất Thị Thủy
7
Luận văn tốt nghiệp
Hình 1.1: Mô tả cây khởi tạo
A: tập hữu hạn các cây phụ trợ. Cây phụ trợ có chứa một nút lá trùng
tên với nút gốc (mang kí hiệu không kết thúc). Ở nút lá này được đánh dấu
với kí hiệu * ở bên cạnh và được gọi là nút chân của cây phụ trợ (xem hình
1.2). Mỗi cây phụ trợ chỉ có một nút chân.
Hình 1.2 : Mô tả cây phụ trợ
Ví dụ cây khởi tạo (xem hình 1.3)
NP
V
S
NP↓
Harry
likes
VP
V
NP↓
peanuts
Hình 1.3: Cây khởi ta ̣o
Ví dụ cây phụ trợ (xem hình 1.4)
S
S
NP↓
V
VP
S*
V
does
think
Hình 1.4: Cây phu ̣ trơ ̣
Học viên: Khuất Thị Thủy
8
S*↓
Luận văn tốt nghiệp
S: tiên đề, S N.
Tập các cây thuộc tập I A được gọi là cây cơ sở.
1.2.2. Các phép toán của TAG
Một cây (tương ứng với một cấu trúc câu) trong văn phạm TAG được
tạo thành từ sự kết hợp các cây cơ sở của TAG bằng hai phép toán là phép thế
và phép kết nố i cây, trong đó phép kết nố i cây giữ vai trò quan trọng trong
TAG.
1.2.2.1 Phép thế
Các nút tại đó thực hiện phép thế được bổ sung thêm ký hiệu ↓. Phép
thế thực hiê ̣n viê ̣c thay t hế một cây có nhãn Y vào một cây có nhãn Y ↓. Phép
thế là bắt buộc tại các nút có ký hiệu thế. Phép thế được minh họa bởi hình
1.5
Hinh 1.5: Phép thế
Ví dụ:
NP
S
John
S
NP↓
VP
V
NP
NP↓
John
V
saw
saw
Hình 1.6: Minh ho ̣a cho phép thế
Học viên: Khuất Thị Thủy
VP
9
NP↓
Luận văn tốt nghiệp
1.2.2.2. Phép kết nố i cây
Phép kết nố i cây dùng để xây dựng một cây mới γ từ một cây phụ trợ β
(nút gốc của β được đánh nhãn là X) và một cây α khác (cây α có thể là cây
khởi tạo, hoặc cây phụ trợ hoặc cây dẫn được từ các cây ban đầu bằng các
phép toán). Phép toán có thể xem như là hai lần thực hiện sự thay thế như sau:
Cây con tại nút X của cây α bị gỡ bỏ, cây β được thay thế vào nút X và cây
con gỡ bỏ lúc trước thì được thế vào nút chân của cây β. Phép toán được minh
họa như trong hình 1.7
Hình 1.7: Phép kết nố i cây
Ví dụ được minh họa trong hình 1.8.
Khả năng thực hiện của hai phép toán kết nối và thế trên các cây còn bị
ràng buộc bởi cấu trúc đặc trưng gắn trên mỗi nút của cây. Cấu trúc đặc trưng
của một đối tượng là một tập hợp các cặp thuộc tính và giá trị thuộc tính gắn
với đối tượng đó. Trong TAG thì các thuộc tính được phân thành hai loại:
thuộc tính trên và thuộc tính dưới. Các thuộc tính trên chứa các thông tin liên
quan tới nút cha, các thuộc tính dưới chứa các thông tin liên quan tới các nút
con. Khi thực hiện phép kết nối hay phép thế thì phép hợp nhất các cấu trúc
đặc trưng cũng được thực hiện trên các nút mà tại đó phép thế và phép kết nối
được thực hiện. Nếu phép hợp nhất không thực hiện được (khi các thuộc tính
Học viên: Khuất Thị Thủy
10
Luận văn tốt nghiệp
sinh ra không thống nhất) thì thao tác (kết nối hoặc thế) không được phép
thực hiện. Phép thế, phép kết nối với các nút được gắn thêm cấu trúc đặc
trưng lần lượt được minh họa trong hình 1.9 và 1.10.
S
ADV
S
NP↓
S*
VP
Yesterday
V
saw
S
ADV
Yesterday
S
VP
NP↓
V
NP↓
saw
Hình 1.8: Minh ho ̣a cho phép kết nố i cây
Hình 1.9: Sơ đồ phép thế cây với cấu trúc đặc trƣng
Học viên: Khuất Thị Thủy
11
NP↓
Luận văn tốt nghiệp
Hình 1.10: Sơ đồ phép kết nối cây với cấu trúc đặc trƣng
1.2.3. Cây dẫn xuấ t trong TAG
Sự tạo thành một cây từ các cây cơ sở thông qua 2 phép toán thế và kết
nố i cây được go ̣i là một cây dẫn được. Cây cú pháp là cây dẫn được mà mọi
nút lá đều là kí hiệu kết. Ví dụ, cho các cây cơ sở sau:
S
S
ADV
NP↓
S*
Yesterday
VP
V
NP↓
saw
NP
NP
John
Marry
Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry”
Thực hiện quá trình dẫn xuất để được cây cú pháp của câu “Yesterday
John saw Marry” được minh họa trong hình với
nối,
biểu diễn cho phép thế
Học viên: Khuất Thị Thủy
12
biểu diễn cho phép
Luận văn tốt nghiệp
S
ADV
S
S*
NP↓
VP
Yesterday
NP
NP↓
V
John
NP
saw
Marry
Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry”
Và cây cú pháp của câu trên là cây sau:
S
ADV
S
VP
NP
Yesterday
V
NP
saw
Marry
John
Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry”
Đối với văn phạm phi ngữ cảnh, cho một cây dẫn được ở một thời điểm
là đủ để xác định ngay các quy tắc dẫn xuất đã thực hiện. Ví dụ với cây ở
hình 1.13 ta suy ra dẫn xuất thực hiện là:
Học viên: Khuất Thị Thủy
13
Luận văn tốt nghiệp
S ADV S
VP V NP
ADV yesterday
V saw
S NP VP
NP Marry
NP John
Còn với TAG thì không đúng thế nữa (xem hình 1.12), từ cây phân
tích chúng ta không thể biết nó được tạo thành từ bao nhiêu cây cơ sở và
những cây đó là cây nào cũng như các cây đó được kết hợp với nhau tại
những nút nào. Để giải quyết vấn đề này trong TAG đưa ra một khái niệm là
cây dẫn xuất. Cây này cho phép xem xét và lưu giữ mọi thông tin về việc sử
dụng phép thay thế, phép kết nối trong quá trình dẫn xuất cây trong TAG. Cây
dẫn xuất có cấu tạo như sau:
Mỗi nút là tên của một cây cơ sở
Các cung biểu diễn phép toán: nét liền biểu diễn phép nối, nét đứt
biểu diễn phép thế
Mỗi nút gán một địa chỉ: Nút gốc có địa chỉ 0, nút con thứ k của
nút có địa chỉ j thì sẽ có địa chỉ là j.k
Ví dụ cây dẫn xuất của câu “Yesterday John saw Marry” được biểu
diễn trong hình 1.14
saw
John (1.1)
Marry (2.2)
Yesterday (0)
Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry”
1.2.4. Ưu điểm của văn phạm TAG
Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ
(domain of locality), đó là phạm vi mà trong đó các phụ thuộc khác nhau (về
Học viên: Khuất Thị Thủy
14
Luận văn tốt nghiệp
cú pháp và ngữ nghĩa) có thể được mô tả. Trong văn phạm phi ngữ cảnh thì
miền xác định phụ thuộc là một mức trên cây tương ứng với một quy tắc sinh.
Xét văn phạm G:
S → NP VP (1)
NP → Harry (4)
VP → V NP (2)
NP → peanuts (5)
VP → VP ADV (3)
V → likes (6)
ADV → passionately (7)
Dễ thấ y các tham tố của vị từ không thuô ̣c cùng mô ̣t miề n xác đinh
̣ phu ̣
thuô ̣c. Trong văn pha ̣m G ở trên hai tham tố của vị từ likes nằ m trên hai miề n
xác định phụ thuộc: S NP VP và VP V NP. Hai tham tố này có thể đươ ̣c
phân bố trên cùng mô ̣t pha ̣m vi nế u ta sử du ̣ng luâ ̣t S NP V NP thay cho hai
luâ ̣t trên. Tuy nhiên nế u làm như vâ ̣y thì cấ u trúc của nút VP sẽ bi ̣mấ t đi.
Một hệ hình thức gồm các quy tắc cú pháp từ vựng hoá sẽ có tính mô tả
ngôn ngữ học cao, làm cho các quy tắc gắn với các từ mô tả được đặc trưng
riêng của từ đó. Cần chú ý rằng không phải tất cả các quy tắc của CFG đều từ
vựng hoá được. Trong ví dụ trên, bốn quy tắc (4), (5), (6), (7) đã được từ
vựng hóa vì chúng là các quy tắc si nh từ vựng. Ba quy tắc (1), (2), (3) không
phải là các quy tắc sinh từ vựng . Nhưng hai quy tắc (2), (3) sẽ được từ vựng
hóa khi thay thế V bởi likes và thay ADV bởi passionately, còn quy tắc (1) thì
không thể từ vựng hóa đươ ̣c.
Như vậy, so với văn phạm phi ngữ cảnh thì văn phạm TAG có những
ưu điểm sau:
Miền phụ thuộc được mở rộng do đó TAG có khả năng mô tả phụ
thuộc ngữ nghĩa giữa các thành phần.
Văn phạm TAG có khả năng biểu diễn mạnh hơn văn phạm phi
ngữ cảnh. Tất cả các văn phạm phi ngữ cảnh đều có thể chuyển
thành TAG, điều ngược lại không đúng.
Học viên: Khuất Thị Thủy
15
Luận văn tốt nghiệp
Văn phạm TAG có thể từ vựng hóa được còn văn phạm phi ngữ
cảnh thì không.
Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi. Phần tiếp
theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân
tích cú pháp tiếng Anh dựa trên hệ hình thức TAG. Việc tìm hiểu cơ sở dữ
liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho
phân tích cú pháp của một ngôn ngữ.
1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh
của dự án XTAG
XTAG là một dự án sử dụng hệ hình thức văn phạm TAG dùng cho
tiếng Anh, được nghiên cứu bởi các nhà khoa học thuộc Viện Nghiên cứu
khoa học nhận dạng, Đại học Pennsylvania (Institute for Research in
Cognitive Science, University of Pennsylvania).
Nhóm XTAG đã xây dựng được một lượng lớn các cây cơ sở dùng cho
phân tích cú pháp tiế ng Anh . Các cây này được đặt trong cơ sở dữ liệu cây
trong hê ̣ thố ng phân tích XTAG . Cơ sở dữ liệu này chứa các cây đã đươ ̣c từ
vựng hóa với các nút neo và quy tắ c ngữ pháp có thể kế t hơ ̣p với cây khác
.
Tuy nhiên để giảm bớt công việc tìm kiếm khi phân tích thì các cây có đặc
điểm chung được xếp thành một nhóm. Mỗi nhóm này gọi là một họ cây . Các
cây này đươ ̣c phân xế p thành các họ cây theo các khung phân loại và quy tắc
ngữ pháp , ví dụ như ho ̣ các cây ngoa ̣i đô ̣ng từ chỉ có mô ̣t đố i số là cu ̣m danh
từ làm bổ ngữ , họ cây ngoại động từ có hai đối số là hai cụm danh từ làm bổ
ngữ, họ cây nội động từ không có bổ ngữ, …
Với tiếng Anh thì cấu trúc cú pháp của câu là có động từ làm trung tâm
nên các tập các cây khởi tạo chứa cấu trúc cú pháp của câu sẽ là cây có gắn
với một nút neo là động từ. Các cây phụ trợ được xây dựng có thể từ danh từ,
bổ ngữ, định ngữ, giới từ ,....
Học viên: Khuất Thị Thủy
16
Luận văn tốt nghiệp
Ví dụ về một số họ cây thuộc lớp động từ:
Nội động từ: Tnx0V
Đây là họ cây của các động từ mà không cần có bổ ngữ. Cụm trạng từ,
cụm giới từ và các định ngữ khác có thể được thêm vào trong câu nhưng
không nhất thiết phải có. Ví dụ như eat, sleep, dance,…. Cây mô tả cho lớp
động từ này minh họa trong hình 1.15.
Hình 1.15: Cây minh họa cho họ cây nội động từ
Ngoại động từ: Tnx0Vnx1
Đây là họ cây được chọn bởi các động từ mà chỉ yêu cầu một đối tượng
NP làm bổ ngữ. NP có thể là một cấu trúc đầy đủ, bao gồm các danh động từ
hay là một câu đầy đủ. Điều này không bao gồm quan điểm xây dựng động
từ. Ví dụ eat, dance, take, …Cây mô tả lớp động từ này minh họa trong hình
1.16
Hình 1.16: Cây minh họa cho họ cây ngoại động từ
Học viên: Khuất Thị Thủy
17
Luận văn tốt nghiệp
Lớp có 2 bổ ngữ: Tnx0Vnx2nx1
Đây là họ cây được chọn bởi các động từ có chính xác 2 bổ ngữ NP.
Cây minh họa cho các động từ thuộc lớp này
Hình 1.17: Cây minh họa cho họ cây mà động từ có chính xác hai
bổ ngữ
Ví dụ với họ các cây phụ trợ là giới từ
Hình 1.18: Các cây phụ trợ là giới từ
Như vậy, với cú pháp tiếng Anh thì nhóm XTAG đã dựa trên quy tắc
ngữ pháp để xây dựng cơ sở dữ liệu. Vận dụng cách xây dựng của họ thì đối
với tiếng Việt cũng xây dựng tập các cây khởi tạo là các thành phần chính
(nòng cốt) của câu, cây phụ trợ là các thành phần tham gia làm phụ tố cho
nòng cốt. Nhưng khác với tiếng Anh thì tiếng Việt ngoài cú pháp câu với
Học viên: Khuất Thị Thủy
18
- Xem thêm -