I H¯C QU¨C GIA H N¸I
TR×˝NG
I H¯C C˘NG NGH
TR N H˙NG VI T
C ITI NCH TL×ÑNGDÀCHM Y
TH¨NG K ANH-VI T DÜA V O
O TR T TÜ TØ
THEO C Y CÓ PH P PHÖ THU¸C
LU N NTI NS KHOAH¯CM YTNH
H Nºi - 2019
I H¯C QU¨C GIA H N¸I
TR×˝NG
I H¯C C˘NG NGH
TR N H˙NG VI T
C ITI NCH TL×ÑNGDÀCHM Y TH¨NG K ANH-VI T DÜA V O
O TR T TÜ TØ THEO C Y CÓ PH P PHÖ THU¸C
Chuy¶n ng nh: Khoa håc m¡y t‰nh
M¢ sŁ: 9 48 01 01 01
LU N NTI NS KHOAH¯CM YTNH
NG×˝I HײNG D N KHOA H¯C:
1. TS. Nguy„n V«n Vinh
2. PGS.TS. Nguy„n L¶ Minh
H Nºi - 2019
Líi cam
oan
Tæi xin cam oan lu“n ¡n n y l k‚t qu£ nghi¶n cøu cıa tæi, ÷æc thüc hi»n
d÷îi sü h÷îng d¤n cıa TS. Nguy„n V«n Vinh v PGS.TS. Nguy„n L¶ Minh.
C¡c nºi dung tr‰ch d¤n tł c¡c nghi¶n cøu cıa c¡c t¡c gi£ kh¡c tr…nh b y
trong lu“n ¡n n y ÷æc ghi rª nguçn trong phƒn t i li»u tham kh£o.
Trƒn Hçng Vi»t
T´MT T
£o tr“t tü tł l mºt trong c¡c v§n • quan trång cıa dàch m¡y li¶n quan ‚n
vi»c l m th‚ n o ” sinh ra thø tü c¡c tł (cöm tł) ch‰nh x¡c trong ngæn ngœ
‰ch. Trong h» dàch m¡y thŁng k¶ düa tr¶n cöm tł (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn v cºng sü, 2003; Och v
Ney, 2004) [59,89], vi»c £o cöm tł v¤n cÆn ìn gi£n v ch§t l÷æng ch÷a cao.
B¶n c⁄nh â, do c¡c ngæn ngœ câ nhi•u °c i”m kh¡c nhau ( °c bi»t sü kh¡c
nhau v• thø tü tł trong c¡c ngæn ngœ) d¤n tîi khæng th” mæ h…nh hâa ch
‰nh x¡c trong qu¡ tr…nh dàch [89]. Nhi•u h÷îng nghi¶n cøu gi£i quy‚t v§n •
s›p x‚p l⁄i tr“t tü tł b¶n trong h» thŁng dàch m¡y thŁng k¶ düa tr¶n cöm tł.
Mºt sŁ nghi¶n cøu theo h÷îng ti‚p c“n ti•n xß lþ cho v§n • s›p x‚p l⁄i tr“t tü tł
cho k‚t qu£ tŁt, £m b£o c¥n b‹ng giœa ch§t l÷æng dàch v thíi gian gi£i m¢
qua thüc hi»n ti•n xß lþ qu¡ tr…nh s›p x‚p l⁄i.
Vîi ÷u i”m cıa c§u tróc c¥y có ph¡p phö thuºc: k‚t nŁi t§t c£ c¡c tł trong
mºt c¥u vîi kh£ n«ng n›m b›t phö thuºc giœa c¡c tł xa nhau vîi c¡c c§u tróc
phö thuºc àa ph÷ìng công nh÷ sü t÷ìng øng ch°t ch‡ vîi ngœ ngh¾a, lu“n
¡n t“p trung nghi¶n cøu • t i: "C£i ti‚n ch§t l÷æng dàch m¡y thŁng k¶ AnhVi»t düa v o £o tr“t tü tł theo c¥y có ph¡p phö thuºc".
Lu“n ¡n t“p trung gi£i quy‚t c¡c tçn t⁄i ¢ n¶u thæng qua b i to¡n: s›p x‚p l⁄i
c¡c tł cıa c¥u cƒn dàch trong ngæn ngœ nguçn theo thø tü gƒn nh§t câ th”
vîi c¥u ÷æc dàch trong ngæn ngœ ‰ch. C¡c • xu§t n y thüc hi»n nh÷ b÷îc
ti•n xß lþ sß döng c¥y có ph¡p phö thuºc Łi vîi ngæn ngœ nguçn ” ÷a v o h»
dàch thŁng k¶ düa tr¶n cöm tł nh‹m c£i ti‚n ch§t l÷æng dàch m¡y. K‚t qu£
dàch tł ti‚ng Anh sang ti‚ng Vi»t vîi bº dœ li»u IWSLT 2015 tr¶n h» thŁng
cıa chóng tæi tŁt hìn hai h» thŁng dàch phŒ bi‚n nh§t hi»n nay l NMT
v PBSMT.
âng gâp cıa lu“n ¡n cö th” nh÷ sau:
2
Thø nh§t, lu“n ¡n • xu§t c¡c lu“t £o tr“t tü tł thı cæng tł vi»c lüa chån
c¡c °c tr÷ng v• ngæn ngœ tr¶n c¥y có ph¡p phö thuºc. Tł â ¡p
döng ph÷ìng ph¡p £o tr“t tü tł ” n¥ng cao ch§t l÷æng h» thŁng dàch
m¡y Anh-Vi»t.
Thø hai, lu“n ¡n • xu§t ph÷ìng ph¡p x¥y düng lu“t £o tr“t tü tł tü ºng.
Chóng tæi coi vi»c x¥y düng lu“t £o tr“t tü tł nh÷ v§n • håc
m¡y trong vi»c dü o¡n ch‰nh x¡c và tr‰ c¡c th nh phƒn cıa lu“t ” o¡n
thø tü óng c¡c c¥u trong ngæn ngœ nguçn t÷ìng øng vîi thø tü c¥u ð
ngæn ngœ ‰ch. Vîi hai • xu§t gçm:
Khai th¡c c¡c °c tr÷ng v• ngæn ngœ v • xu§t ph÷ìng ph¡p sß döng
c¡c bº ph¥n lîp ” gi£i quy‚t b i to¡n £o tr“t tü tł. Cö th” l x¡c ành thø
tü óng cıa c¡c ph¥n lîp quan h» giœa cöm cha-con tr¶n c¥y ph¥n
t‰ch phö thuºc bi”u di„n c¥u ƒu v o.
B‹ng vi»c khai th¡c quan h» c¡c c°p tł tr¶n c¥y ph¥n t‰ch phö thuºc
v ÷u i”m cıa vi»c bi”u di„n d÷îi d⁄ng word embedding, lu“n ¡n
• xu§t ph÷ìng ph¡p sß döng m⁄ng nì-ron ” gi£i quy‚t b i to¡n £o tr“t
tü tł c¥u nguçn theo thø tü tł c¥u ‰ch tr÷îc khi ÷a v o h» dàch ”
n¥ng cao ch§t l÷æng dàch.
Thø ba, lu“n ¡n ÷a ra ph¥n t‰ch £nh h÷ðng cıa c¡c lØi ph¥n t‰ch có
ph¡p ‚n ch§t l÷æng dàch qua vi»c ¡p döng c¡c lu“t £o tr“t tü tł Łi
vîi c¥u nguçn. C¡c ph¥n t‰ch n y mang l⁄i læi ‰ch cho vi»c c£i ti‚n
c¡c ph÷ìng ph¡p £o tr“t tü tł düa tr¶n có ph¡p v ph¡t tri”n vi»c ph¥n t
‰ch có ph¡p phö thuºc, °c bi»t vîi ngæn ngœ ti‚ng Vi»t.
Tł khâa: dàch m¡y, dàch m¡y thŁng k¶, ti•n xß lþ có ph¡p, có ph¡p phö
thuºc, dàch m¡y thŁng k¶ düa tr¶n cöm tł.
3
Möc löc
Líi c£m ìn
Danh möc c¡c chœ vi‚t t›t
8
9
Danh s¡ch h…nh v‡
10
Danh s¡ch b£ng
13
Líi mð ƒu
16
1 TŒng quan c¡c v§n • li¶n quan lu“n ¡n
22
1.1 TŒng quan v• dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . .
22
1.2 Dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . . . . . . .
25
1.2.1 Cì sð to¡n håc . . . . . . . . . . . . . . . . . . . . . . . .
25
1.2.2 C§u tróc h» thŁng dàch m¡y . . . . . . . . . . . . . . . . .
27
1.3 Dàch m¡y m⁄ng nì-ron . . . . . . . . . . . . . . . . . . . . . . . .
29
1.4 Ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . . . . . . . . . .
31
1.5 V§n • £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . .
35
1.5.1 Sü kh¡c nhau v• thø tü tł giœa c¡c ngæn ngœ . . . . . . .
35
1.5.2 £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . .
36
1.6 B i to¡n £o tr“t tü tł trong mæ h…nh dàch m¡y düa tr¶n cöm tł
37
1.6.1 Mæ h…nh dàch m¡y düa tr¶n cöm tł . . . . . . . . . . . .
37
1.6.2 B i to¡n £o tr“t tł tü düa tr¶n ti•n xß lþ . . . . . . . .
39
4
1.7 C¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . . . . . . . . . .
1.7.1 Sß döng c¡c lu“t thı cæng cho v§n • ti•n xß lþ . . . . .
1.7.2 Sß döng c¡c lu“t tü ºng cho v§n • ti•n xß lþ . . . . . .
1.8 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
44
45
46
2 Ph÷ìng ph¡p düa v o lu“t thı cæng cho b i to¡n £o tr“t tü
tł trong dàch m¡y thŁng k¶
48
2.1 Ph÷ìng ph¡p ti•n xß lþ cho b i to¡n £o tr“t tü tł trong dàch
m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
2.2 C¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . . . . . . . . . .
50
2.3 Ti•n xß lþ có ph¡p phö thuºc cho dàch m¡y thŁng k¶ . . . . . .
52
2.3.1 Ph¥n t‰ch hi»n t÷æng ngæn ngœ v v§n • s›p x‚p l⁄i . . 52
2.3.2 Lu“t chuy”n Œi tr“t tü tł . . . . . . . . . . . . . . . . . .
55
2.3.3 T“p c¡c lu“t £o tr“t tü tł thı cæng . . . . . . . . . . . .
57
2.3.4 T“p dœ li»u v c i °t thüc nghi»m . . . . . . . . . . . . .
59
2.3.5 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . .
62
2.4 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3 Ph÷ìng ph¡p sß döng lu“t tr‰ch xu§t tü ºng b‹ng c¡c bº
ph¥n lîp quan h»
65
3.1 Ti•n xß lþ düa tr¶n ph¥n lîp cho dàch m¡y düa tr¶n cöm tł . .
65
3.1.1 V§n • ti•n xß lþ düa tr¶n ph¥n lîp . . . . . . . . . . . .
66
3.1.2 °c tr÷ng . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
3.1.3 Mæ h…nh ph¥n lîp . . . . . . . . . . . . . . . . . . . . . . .
70
3.2 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3.2.1 T“p dœ li»u v c§u h…nh thüc nghi»m . . . . . . . . . . . .
73
3.2.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . .
74
3.3 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
76
4 Ph÷ìng ph¡p sß döng m⁄ng nì-ron k‚t hæp c¡c thæng tin ngœ
c£nh
4.1 Thæng tin ngœ c£nh tł word embedding . . . . . . . . . . . . . .
79
79
4.2 Mæ h…nh £o düa tr¶n m⁄ng nì-ron sß döng c¥y có ph¡p phö
thuºc cho dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . .
81
4.2.1 °c tr÷ng cho ph¥n lîp v hu§n luy»n mæ h…nh . . . . .
82
4.2.2 Khung l m vi»c cho £o tr“t tü tł . . . . . . . . . . . . .
87
4.3 Thüc nghi»m v• ph÷ìng ph¡p sß döng m⁄ng nì-ron k‚t hæp
5
thæng tin ngœ c£nh . . . . . . . . . . . . . . . . . . . . . . . . . .
90
4.4 Ph¥n t‰ch v th£o lu“n . . . . . . . . . . . . . . . . . . . . . . . .
93
4.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
nh h÷ðng cıa c¥y có ph¡p phö thuºc
‚n ch§t l÷æng dàch
m¡y Anh-Vi»t
5.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
96
5.2 Ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . . . . . . . . . .
97
5.2.1 B i to¡n ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . .
98
5.2.2 ành d⁄ng dœ li»u theo chu'n CoNLL . . . . . . . . . . .
98
5.2.3 Sß döng t“p nh¢n cho có ph¡p phö thuºc . . . . . . . . .
100
5.3 nh h÷ðng cıa lØi ph¥n t‰ch có ph¡p phö thuºc tîi ch§t l÷æng
dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
5.3.1 Ph÷ìng ph¡p ph¥n t‰ch lØi . . . . . . . . . . . . . . . . . .
102
5.3.2 ¡nh gi¡ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104
5.3.3 Ph¥n t‰ch nguy¶n nh¥n g¥y lØi £o tr“t tü tł . . . . . . .
108
5.4 ¡nh gi¡ k‚t qu£ dàch v º ch‰nh x¡c c¥y có ph¡p phö thuºc .
110
5.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
K‚t lu“n
114
6
Danh möc cæng tr…nh khoa håc cıa t¡c gi£ li¶n quan ‚n lu“n ¡n117
T i li»u tham kh£o
119
7
L˝IC MÌN
Tæi xin gßi líi c£m ìn s¥u s›c ‚n TS. Nguy„n V«n Vinh v PGS.TS. Nguy„n
L¶ Minh, hai Thƒy ¢ trüc ti‚p h÷îng d¤n, ch¿ b£o t“n t…nh, luæn hØ træ v t⁄o
nhœng i•u ki»n tŁt nh§t cho tæi trong qu¡ tr…nh håc t“p v nghi¶n cøu.
Tæi xin gßi líi c£m ìn ‚n c¡c Thƒy/Cæ gi¡o ð Khoa Cæng ngh» thæng
tin, Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia H Nºi, °c bi»t l c¡c Thƒy/Cæ
gi¡o ð Bº mæn Khoa håc m¡y t‰nh, nhœng ng÷íi ¢ trüc ti‚p gi£ng d⁄y v gióp
ï tæi trong qu¡ tr…nh håc t“p v nghi¶n cøu ð tr÷íng.
Tæi xin gßi c£m ìn ‚n GS.TS. Nguy„n Thanh Thıy, PGS. TS. L¶ Sÿ Vinh,
PGS.TS. Nguy„n Ph÷ìng Th¡i, PGS.TS. Phan Xu¥n Hi‚u, TS. Trƒn QuŁc
Long, TS. Bòi Ngåc Th«ng (Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia H
Nºi), PGS.TS. L¶ Thanh H÷ìng (Tr÷íng ⁄i håc B¡ch khoa H Nºi), TS. Nguy„n
Thà Minh Huy•n (Tr÷íng ⁄i håc Khoa håc Tü nhi¶n, ⁄i håc QuŁc gia H Nºi),
TS. Ngæ Xu¥n B¡ch (Håc vi»n Cæng ngh» B÷u ch‰nh Vi„n thæng), TS.
Nguy„n Vi»t Anh (Vi»n Cæng ngh» thæng tin, Vi»n H n l¥m Khoa håc v
Cæng ngh» Vi»t Nam) c¡c Thƒy/Cæ ¢ câ nhœng gâp þ ch¿nh sßa ” tæi ho
n thi»n lu“n ¡n.
Tæi xin gßi líi c£m ìn ‚n t§t c£ anh, chà, em v b⁄n b– çng nghi»p ð Bº
mæn Khoa håc m¡y t‰nh (Khoa Cæng ngh» thæng tin, Tr÷íng ⁄i håc
Cæng ngh», ⁄i håc QuŁc gia H Nºi) ¢ gióp ï tæi trong thíi gian l m nghi¶n
cøu sinh.
CuŁi còng, tæi xin gßi líi c£m ìn ‚n t§t c£ c¡c th nh vi¶n trong gia …nh ¢
luæn ıng hº, chia s·, ºng vi¶n v kh‰ch l» tæi håc t“p, nghi¶n cøu.
8
Danh möc c¡c chœ vi‚t t›t
MT
Machine Translation (Dàch m¡y)
NLP
Natural Language Processing (Xß lþ ngæn ngœ tü nhi¶n)
POS-tags Part Of Speech tags (Nh¢n tł lo⁄i)
SMT
Statistical Machine Translation (Dàch m¡y thŁng k¶)
PBSMT
Phrase-Based Statistical Machine Translation
(Dàch m¡y düa tr¶n cöm tł)
NMT
Neural Machine Translation (Dàch m¡y m⁄ng nì-ron)
BLEU
BiLingual Evaluation Understudy ( ¡nh gi¡ º hi”u ngœ li»u)
SVM
Support Vector Machine (M¡y v†c-tì hØ træ)
ME
Maximum Entropy ( º hØn lo⁄n cüc ⁄i)
WEKA
Waikato Environment for Knowledge Analysis
(Mæi tr÷íng Waikato cho ph¥n t‰ch tri thøc)
9
Danh s¡ch h…nh v‡
1.1 Sì ç h…nh th¡p th” hi»n c¡c h» thŁng dàch m¡y kh¡c nhau. . .
1.2 Ki‚n tróc cì b£n cıa h» thŁng dàch m¡y thŁng k¶ . . . . . . . .
23
27
1.3 C¡c b÷îc x¥y düng h» thŁng dàch m¡y thŁng k¶ düa tr¶n cöm tł 28
1.4 H» thŁng dàch m¡y m⁄ng nì-ron . . . . . . . . . . . . . . . . . .
30
1.5 Bi”u di„n ç thà c¥y ph¥n t‰ch phö thuºc vîi c¡c nh¢n quan h». 33
1.6 Bi”u di„n d⁄ng c¥y vîi dœ li»u phö thuºc ành d⁄ng CoNLL. . .
33
1.7 V‰ dö v• mæ h…nh dàch m¡y düa tr¶n cöm tł cho dàch tł ngæn
ngœ ti‚ng Ph¡p sang ti‚ng Anh. . . . . . . . . . . . . . . . . . . .
37
1.8 Ki‚n tróc cıa mæ h…nh dàch düa tr¶n cöm tł . . . . . . . . . . .
38
1.9 V‰ dö v• vi»c chuy”n Œi c¡c giâng h ng tł vîi vi»c £o tr“t tü tł.
40
1.10 C¡c b÷îc thüc hi»n trong h» thŁng ¡p döng ph÷ìng ph¡p ti•n
xß lþ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
1.11 Ki‚n tróc h» thŁng trong lu“n ¡n. . . . . . . . . . . . . . . . . . .
43
2.1 V‰ dö v• ti•n xß lþ cho c°p ngæn ngœ Anh-Vi»t. . . . . . . . . .
49
2.2 V‰ dö v• POS tags v ph¥n t‰ch có ph¡p phö thuºc cho ti‚ng Anh. 50
2.3 V‰ dö v• POS tags v ph¥n t‰ch có ph¡p phö thuºc cho ti‚ng Vi»t. 51
2.4 V‰ dö v• ph¥n t‰ch có ph¡p phö thuºc cho c¥u ti‚ng Anh sß
döng cæng cö ph¥n t‰ch cıa Stanford. . . . . . . . . . . . . . . .
51
2.5 Mºt sŁ v‰ dö v• °c tr÷ng ngæn ngœ ti‚ng Vi»t. . . . . . . . . . .
53
10
2.6 V‰ dö v• hi»n t÷æng ngæn ngœ trong cöm danh tł vîi amod v
det. Trong v‰ dö n y, danh tł computer ÷æc £o vîi t‰nh tł
personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
2.7 V‰ dö v• hi»n t÷æng ngæn ngœ trong cöm t‰nh tł vîi advmod v
det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.8 V‰ dö c¥y ph¥n t‰ch ti‚ng Vi»t vîi thæng tin tł lo⁄i POS tags,
c¡c nh¢n phö thuºc v giâng h ng tł. . . . . . . . . . . . . . . .
55
2.9 V‰ dö ¡p döng lu“t £o tr“t tü tł thı cæng trong vi»c s›p x‚p
l⁄i thø tü tł trong c¥u. . . . . . . . . . . . . . . . . . . . . . . . .
57
2.10 Mºt phƒn kh£o s¡t v• và tr‰ tł lo⁄i v c¡c nh¢n trong vi»c s›p
x‚p l⁄i thø tü tł . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
2.11 Thu“t to¡n sinh lu“t £o tr“t tü tł sß döng Pos-tags v nh¢n
phö thuºc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
2.12 C¡c lu“t thı cæng cho vi»c £o tr“t tü tł ti‚ng Anh sang ti‚ng
Vi»t sß döng ti•n xß lþ tr¶n c¥y có ph¡p phö thuºc. . . . . . . .
3.1 V‰ dö v• mæ h…nh håc m¡y düa tr¶n ph¥n lîp. . . . . . . . . . .
61
66
3.2 Mºt v‰ dö v• quan h» giœa c¡c cöm tr¶n c¥y ph¥n t‰ch phö thuºc. 67
3.3 C¥y ph¥n t‰ch phö thuºc ti‚ng Anh. . . . . . . . . . . . . . . . .
68
3.4 Thu“t to¡n tr‰ch xu§t tü ºng c¡c lu“t sß döng c¥y có ph¡p phö
thuºc c¡c c¥u nguçn v c°p giâng h ng tł . . . . . . . . . . . . .
72
3.5 Thu“t to¡n s›p x‚p l⁄i c¥u nguçn sß döng c¡c lu“t tr‰ch xu§t
tü ºng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
3.6 ThŁng k¶ v• quan h» giœa nót cha vîi nót con tr¶n ngœ li»u song
ngœ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.7 ThŁng k¶ v• quan h» giœa nót cha vîi hai nót con tr¶n ngœ li»u
song ngœ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Mºt v‰ dö v• v• bi”u di„n word embedding . . . . . . . . . . . .
11
77
80
4.2 V‰ dö v• mæ h…nh ph¥n lîp quan h». . . . . . . . . . . . . . . . .
4.3 Mæ h…nh £o cho dàch m¡y thŁng k¶ Anh-Vi»t sß döng m⁄ng
82
nì-ron vîi c¥y ph¥n t‰ch phö thuºc . . . . . . . . . . . . . . . . .
83
4.4 C¡c °c tr÷ng cho quan h» head-child trong mæ h…nh ph¥n lîp . 84
4.5 C¡c °c tr÷ng cho quan h» sibling trong mæ h…nh ph¥n lîp . . . 85
4.6 Khung l m vi»c cho qu¡ tr…nh ti•n xß lþ c¥u nguçn tł dœ li»u
song ngœ Anh-Vi»t. . . . . . . . . . . . . . . . . . . . . . . . . . .
86
4.7 Thu“t to¡n x¥y düng mæ h…nh hu§n luy»n cho m⁄ng. . . . . . .
88
4.8 Thu“t to¡n s›p x‚p l⁄i ” x¥y düng £o tr“t tü tł c¥u nguçn. .
89
4.9 Qu¡ tr…nh s›p x‚p l⁄i sau khi ¡p döng ph÷ìng ph¡p ph¥n lîp. .
90
5.1 Mæ h…nh b i to¡n tŒng qu¡t v• ph¥n t‰ch có ph¡p phö thuºc . . 98
5.2 So s¡nh t“p nh¢n phö thuºc giœa ti‚ng Vi»t v ti‚ng Anh. . . .
103
5.3 Mæ t£ ph÷ìng ph¡p ph¥n t‰ch lØi. . . . . . . . . . . . . . . . . . .
104
5.4 K‚t qu£ ¡nh gi¡ düa tr¶n º o Kendall’s tau . . . . . . . . . .
107
5.5 B£ng thŁng k¶ º ch‰nh x¡c ph¥n t‰ch có ph¡p phö thuºc ti‚ng
Vi»t sß döng cæng cö ph¥n t‰ch có ph¡p phö thuºc JPTDP. . . 109
5.6 V‰ dö v• lØi tł lo⁄i khi so s¡nh dœ li»u thŁng k¶ giœa c¥y ÷æc
sinh ra vîi c¥y ÷æc sinh tł dœ li»u chu'n. . . . . . . . . . . . .
110
5.7 V‰ dö v• lØi do x¡c ành sai lo⁄i phö thuºc nót gŁc khi so s¡nh
dœ li»u thŁng k¶ giœa c¥y ÷æc sinh ra vîi c¥y ÷æc sinh tł dœ
li»u chu'n. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
110
5.8 nh h÷ðng cıa c¥y có ph¡p phö thuºc ‚n ch§t l÷æng h» dàch
tr¶n kho ngœ li»u song ngœ Anh-Vi»t. . . . . . . . . . . . . . . . .
112
5.9 ThŁng k¶ c¡c ngæn ngœ SVO (chı ngœ, ºng tł, t¥n ngœ) . . . . 134
5.10 ThŁng k¶ c¡c ngæn ngœ vîi tł lo⁄i T‰nh tł, Danh tł . . . . . . .
135
5.11 ThŁng k¶ c¡c ngæn ngœ vîi cöm tł bŒ ngh¾a, cöm danh tł . . . 136
5.12 ThŁng k¶ c¡c ngæn ngœ vîi Danh tł, m»nh • quan h» . . . . .
12
136
5.13 Ph†p phi chi‚u trong ngæn ngœ Latinh . . . . . . . . . . . . . . . 137
5.14 Dàch tł ngæn ngœ ti‚ng
øc sang ngæn ngœ ti‚ng Anh . . . . . . 137
5.15 Dàch tł ngæn ngœ ti‚ng Trung sang ngæn ngœ ti‚ng Anh . . . . . 138
5.16 Dàch tł ngæn ngœ ti‚ng H n sang ngæn ngœ ti‚ng Anh . . . . . . 139
5.17 Dàch tł ngæn ngœ ti‚ng
r“p sang ngæn ngœ ti‚ng Anh . . . . . 140
5.18 Mæ t£ c¡c lu“t s›p x‚p l⁄i . . . . . . . . . . . . . . . . . . . . . . 141
13
Danh s¡ch b£ng
2.1 Ph¥n t‰ch có ph¡p phö thuºc cho c¥u ti‚ng Vi»t bi”u di„n d÷îi
d⁄ng chu'n CoNLL. . . . . . . . . . . . . . . . . . . . . . . . . . .
52
2.2 ThŁng k¶ ngœ li»u song ngœ Anh-Vi»t . . . . . . . . . . . . . . .
62
2.3 Thüc nghi»m sß döng c¡c lu“t thı cæng cho kho ngœ li»u song
ngœ Anh-Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 V‰ dö v• c¡c lu“t v £o tr“t tü tł trong c¥u nguçn. . . . . . . .
63
69
3.2 T“p °c tr÷ng ÷æc sß döng trong dœ li»u hu§n luy»n tł kho
ngœ li»u song ngœ Anh Vi»t . . . . . . . . . . . . . . . . . . . .
71
3.3 ThŁng k¶ sŁ lu“t tü ºng tr‰ch xu§t theo ph÷ìng ph¡p sß döng
bº ph¥n lîp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
3.4 K‰ch cï b£ng cöm tł . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.5 ¡nh gi¡ k‚t qu£ tr¶n h» thŁng dàch m¡y Anh- Vi»t . . . . . . .
78
4.1 H» thŁng thüc nghi»m tr¶n kho ngœ li»u song ngœ Anh-Vi»t . . 92
4.2 ¡nh gi¡ h» thŁng cho chi•u dàch Anh- Vi»t . . . . . . . . . . . .
93
5.1 C¡c tr÷íng dœ li»u theo ành d⁄ng cıa CoNLL cho ngæn ngœ
ti‚ng Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
5.2 Bi”u di„n theo ành d⁄ng chu'n CoNLL cho c¥u ƒu v o ti‚ng
Vi»t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
100
5.3 Nh¢n cöm tł . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
5.4 Nh¢n m»nh • . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
14
5.5
5.6
Nh¢n chøc n«ng có ph¡p . . . . . . . . . . . . . . . . . . . . . . . 143
Nhâm c¡c nh¢n
a ngæn ngœ . . . . . . . . . . . . . . . . . . . . . 144
15
Mð ƒu
1. T‰nh c§p thi‚t cıa lu“n ¡n
Dàch m¡y l mºt trong nhœng v§n • khâ v l¥u íi nh§t trong tr‰ tu» nh¥n
t⁄o. ¢ câ nhi•u nØ lüc ” gi£i quy‚t v§n • n y tł nhœng giai o⁄n ƒu ti¶n khi sß
döng m¡y t‰nh. Dò dàch m¡y câ làch sß l¥u íi, vi»c dàch tü ºng to n bº v«n
b£n vîi ch§t l÷æng cao v¤n cÆn l th¡ch thøc. C¡c v§n • dàch thu“t câ li¶n
quan ‚n nhi•u ngæn ngœ v c¡c v§n • v«n hâa trð n¶n khâ kh«n.
Dàch m¡y düa tr¶n c¡ch ti‚p c“n thŁng k¶ v gƒn ¥y dàch m¡y m⁄ng nì-ron
ang l mºt h÷îng ph¡t tri”n ti•m n«ng bði nhœng ÷u i”m so vîi c¡c c¡ch ti‚p c“n
kh¡c. Nhi•u s£n ph'm th÷ìng m⁄i ÷æc sß döng rºng r¢i tr¶n th‚ giîi (h» dàch
1
2
cıa Google ; M icrosof t : : :).
C¡c mæ h…nh dàch m¡y ÷æc sß döng nhi•u nh§t l dàch m¡y thŁng k¶ düa
tr¶n cöm tł (PBSMT) (Koehn v cºng sü, 2003; Och v Ney, 2004) [59,89] v
dàch m¡y nì-ron (Neural MT) (Bahdanau v cºng sü, 2014; Sutskever v cºng
sü, 2014; Cho v cºng sü, 2014) [4, 20, 98]. Trong th“p k qua, b¶n c⁄nh dàch
m¡y düa tr¶n cöm tł vîi c¡c ÷u i”m dàch ƒy ı, d„ can thi»p xß lþ gï lØi trong
qu¡ tr…nh dàch, gƒn ¥y dàch m¡y m⁄ng nì-ron ¢ cho th§y ti•m n«ng lîn
v trong nhi•u tr÷íng hæp ¢ v÷æt qua dàch m¡y düa tr¶n cöm tł (Bentivogli
v cºng sü, 2016; Junczys-Dowmunt v cºng sü, 2016; Chung v cºng sü, 2016;
Shterionov v cºng sü, 2017) [9, 21, 48, 94]. C¡c ÷u i”m cıa dàch m¡y nì-ron l
: dàch træi ch£y hìn, s¡t ngh¾a hìn. Tuy nhi¶n, nhi•u tr÷íng hæp dàch
khæng ƒy ı, hi»n t÷æng khæng rª tł (unkown word) nhi•u, qu¡ tr…nh dàch
nh÷ hºp en l¶n khâ can thi»p xß lþ v gï lØi. Nhœng v§n • cıa dàch m¡y
m⁄ng nì-ron ÷æc ch¿ ra trong c¡c nghi¶n cøu gƒn ¥y nh÷ (Zheng v cºng sü,
2018; Ott v cºng sü, 2018; Koehn v cºng sü, 2017) [58,91,112].
1https://translate.google.com
2
http://www.microsofttranslator.com
16
T÷ìng tü nh÷ dàch m¡y thŁng k¶ düa tr¶n cöm tł, dàch m¡y düa tr¶n m⁄ng
nì-ron l mæ h…nh dàch m¡y theo h÷îng dœ li»u, phö thuºc v o dœ li»u song
ngœ ÷æc sß döng ” hu§n luy»n. Ch§t l÷æng dàch cıa mºt h» thŁng li¶n quan
‚n sŁ l÷æng v ch§t l÷æng cıa t“p dœ li»u hu§n luy»n. Dàch m¡y thŁng k¶ düa
tr¶n cöm tł v °c bi»t v§n • £o tr“t tü tł v¤n th” hi»n c¡c ÷u i”m
trong c¡c tr÷íng hæp c¡c ngæn ngœ vîi nguçn t i nguy¶n h⁄n ch‚ (Koehn v cºng
3
sü, 2017) [58], c¡c c¥u ng›n . Trong dü ¡n v• dàch m¡y cho c¡c ngæn ngœ h⁄n
4
ch‚ v• t i nguy¶n n«m 2018, Philip Koehn v nhâm nghi¶n cøu ¢ gi nh ÷æc
kho£n t i træ 10,7 tri»u æ la ” dàch c¡c ngæn ngœ câ nguçn t i nguy¶n
h⁄n ch‚, ¢ • c“p: "Th¡ch thøc lîn nh§t Łi vîi chóng ta l vi»c câ ‰t dœ li»u. i•u
n y Æi häi cƒn nhi•u v r§t nhi•u dœ li»u". Vîi nhœng ngæn ngœ n y, h»
dàch düa tr¶n m⁄ng nì-ron ch÷a th” hi»n ÷æc c¡c ÷u i”m so vîi dàch m¡y
thŁng k¶ düa tr¶n cöm tł. C¡c ÷u i”m cıa dàch thŁng k¶ düa tr¶n cöm tł v¤n
l h÷îng nghi¶n cøu ÷æc quan t¥m ” k‚t hæp vîi i”m m⁄nh trong dàch m¡y
m⁄ng nì-ron.
V§n • quan trång cıa dàch m¡y li¶n quan ‚n vi»c l m th‚ n o ” sinh ra thø
tü c¡c tł (cöm tł) ch‰nh x¡c trong ngæn ngœ ‰ch. Trong dàch m¡y thŁng
k¶ düa tr¶n cöm tł (PBSMT), vi»c £o cöm tł v¤n cÆn ìn gi£n v ch§t l÷æng
ch÷a cao. B¶n c⁄nh â, do c¡c ngæn ngœ câ nhi•u °c i”m kh¡c nhau ( °c bi»t
sü kh¡c nhau v• thø tü tł trong c¡c ngæn ngœ, v‰ dö: Anh - Vi»t) d¤n tîi
khæng th” mæ h…nh hâa ch‰nh x¡c trong qu¡ tr…nh dàch [89]. i•u n y
d¤n ‚n câ nhi•u h÷îng quan t¥m nghi¶n cøu ” gi£i quy‚t v§n • £o tr“t tü tł b¶n
trong h» thŁng dàch m¡y thŁng k¶ düa v o cöm ang l th¡ch thøc Łi vîi c¡c nh
nghi¶n cøu v• dàch m¡y trong nhi•u n«m qua. C¡c nghi¶n cøu theo h÷îng
ti‚p c“n ti•n xß lþ qu¡ tr…nh s›p x‚p l⁄i [108], [33], [65] mºt c¡ch hi»u
3
https://yandex.com/company/blog/one-model-is-better-than-two-yu-yandex-translate-
launches-a-hybrid-machine-translation-system/
4
http://www.baltimoresun.com/news/breaking/bs-md-hopkins-language-grant-20171011-story.html
17
qu£ (c£i thi»n so vîi c¡c h» thŁng dàch m¡y düa tr¶n cöm v ph¥n c§p), ch§t
l÷æng ÷æc ¡nh gi¡ kh£ quan trong c¡c mæ h…nh s›p x‚p l⁄i.
Sß döng ph÷ìng ph¡p ti•n xß lþ câ ÷u i”m l giœ ÷æc i”m m⁄nh cıa h»
thŁng dàch m¡y düa tr¶n cöm tł, gi£m thi”u thíi gian gi£i m¢, công nh÷ giœ
i”m m⁄nh cıa dàch m¡y theo có ph¡p trong b i to¡n £o tr“t tü tł.
Hi»n nay, ¢ câ nghi¶n cøu v• h» thŁng dàch m¡y thŁng k¶ düa tr¶n cöm
tł cho c°p ngæn ngœ Anh-Vi»t. Tuy nhi¶n, nghi¶n cøu v• dàch m¡y thŁng
k¶ düa tr¶n cöm tł sß döng ti•n xß lþ vîi c¥y có ph¡p phö thuºc ch÷a nhi•u.
B¶n c⁄nh â, có ph¡p phö thuºc câ ÷u i”m trong vi»c th” hi»n quan h» phö
thuºc tł, tŁc º nhanh, phò hæp vîi v§n • s›p x‚p l⁄i tr“t tü tł (mºt trong nhœng
v§n • quan trång trong b i to¡n dàch). Nhœng v§n • th¡ch thøc °t ra:
- C¡c nghi¶n cøu chı y‚u ¡p döng cho chi•u dàch Anh-Vi»t, ch÷a câ
chi•u dàch Vi»t-Anh.
- Mºt sŁ nghi¶n cøu ¢ ¡p döng £o tr“t tü tł düa tr¶n c¥y có ph¡p phö
thuºc cho chi•u Anh-Vi»t. Tuy nhi¶n nhœng nghi¶n cøu n y chı y‚u
dòng c¡c lu“t b‹ng tay, ch÷a ¡p döng c¡c lu“t tü ºng trong b i to¡n dàch.
- Câ ‰t nghi¶n cøu sß döng ti•n xß lþ düa v o c¥y có ph¡p phö thuºc
cho chi•u Vi»t-Anh v tçn t⁄i nhi•u h⁄n ch‚ cƒn c£i ti‚n ” n¥ng cao ch§t
l־ng.
” gi£i quy‚t th¡ch thøc tr¶n nh‹m c£i ti‚n ch§t l÷æng dàch m¡y thŁng k¶,
nhi•u nØ lüc nghi¶n cøu theo h÷îng sß döng c¥y ph¥n t‰ch có ph¡p phö thuºc
v o dàch thŁng k¶ ¢ ÷æc ¡p döng. Ch‰nh i•u n y ¢ gæi þ v thóc 'y chóng
tæi lüa chån nghi¶n cøu • t i: "C£i ti‚n ch§t l÷æng dàch m¡y thŁng k¶ AnhVi»t düa v o £o tr“t tü tł theo c¥y có ph¡p phö thuºc".
2. Möc ti¶u cıa lu“n ¡n
Nghi¶n cøu • xu§t c¡c ph÷ìng ph¡p gi£i quy‚t b i to¡n £o cöm tł
18
- Xem thêm -