Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Khoa học xã hội Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây...

Tài liệu Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

.DOC
148
2
78

Mô tả:

I H¯C QU¨C GIA H N¸I TR×˝NG I H¯C C˘NG NGH TR N H˙NG VI T C ITI NCH TL×ÑNGDÀCHM Y TH¨NG K ANH-VI T DÜA V O O TR T TÜ TØ THEO C Y CÓ PH P PHÖ THU¸C LU N NTI NS KHOAH¯CM YTNH H Nºi - 2019 I H¯C QU¨C GIA H N¸I TR×˝NG I H¯C C˘NG NGH TR N H˙NG VI T C ITI NCH TL×ÑNGDÀCHM Y TH¨NG K ANH-VI T DÜA V O O TR T TÜ TØ THEO C Y CÓ PH P PHÖ THU¸C Chuy¶n ng nh: Khoa håc m¡y t‰nh M¢ sŁ: 9 48 01 01 01 LU N NTI NS KHOAH¯CM YTNH NG×˝I HײNG D N KHOA H¯C: 1. TS. Nguy„n V«n Vinh 2. PGS.TS. Nguy„n L¶ Minh H Nºi - 2019 Líi cam oan Tæi xin cam oan lu“n ¡n n y l k‚t qu£ nghi¶n cøu cıa tæi, ÷æc thüc hi»n d÷îi sü h÷îng d¤n cıa TS. Nguy„n V«n Vinh v PGS.TS. Nguy„n L¶ Minh. C¡c nºi dung tr‰ch d¤n tł c¡c nghi¶n cøu cıa c¡c t¡c gi£ kh¡c tr…nh b y trong lu“n ¡n n y ÷æc ghi rª nguçn trong phƒn t i li»u tham kh£o. Trƒn Hçng Vi»t T´MT T £o tr“t tü tł l mºt trong c¡c v§n • quan trång cıa dàch m¡y li¶n quan ‚n vi»c l m th‚ n o ” sinh ra thø tü c¡c tł (cöm tł) ch‰nh x¡c trong ngæn ngœ ‰ch. Trong h» dàch m¡y thŁng k¶ düa tr¶n cöm tł (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn v cºng sü, 2003; Och v Ney, 2004) [59,89], vi»c £o cöm tł v¤n cÆn ìn gi£n v ch§t l÷æng ch÷a cao. B¶n c⁄nh â, do c¡c ngæn ngœ câ nhi•u °c i”m kh¡c nhau ( °c bi»t sü kh¡c nhau v• thø tü tł trong c¡c ngæn ngœ) d¤n tîi khæng th” mæ h…nh hâa ch ‰nh x¡c trong qu¡ tr…nh dàch [89]. Nhi•u h÷îng nghi¶n cøu gi£i quy‚t v§n • s›p x‚p l⁄i tr“t tü tł b¶n trong h» thŁng dàch m¡y thŁng k¶ düa tr¶n cöm tł. Mºt sŁ nghi¶n cøu theo h÷îng ti‚p c“n ti•n xß lþ cho v§n • s›p x‚p l⁄i tr“t tü tł cho k‚t qu£ tŁt, £m b£o c¥n b‹ng giœa ch§t l÷æng dàch v thíi gian gi£i m¢ qua thüc hi»n ti•n xß lþ qu¡ tr…nh s›p x‚p l⁄i. Vîi ÷u i”m cıa c§u tróc c¥y có ph¡p phö thuºc: k‚t nŁi t§t c£ c¡c tł trong mºt c¥u vîi kh£ n«ng n›m b›t phö thuºc giœa c¡c tł xa nhau vîi c¡c c§u tróc phö thuºc àa ph÷ìng công nh÷ sü t÷ìng øng ch°t ch‡ vîi ngœ ngh¾a, lu“n ¡n t“p trung nghi¶n cøu • t i: "C£i ti‚n ch§t l÷æng dàch m¡y thŁng k¶ AnhVi»t düa v o £o tr“t tü tł theo c¥y có ph¡p phö thuºc". Lu“n ¡n t“p trung gi£i quy‚t c¡c tçn t⁄i ¢ n¶u thæng qua b i to¡n: s›p x‚p l⁄i c¡c tł cıa c¥u cƒn dàch trong ngæn ngœ nguçn theo thø tü gƒn nh§t câ th” vîi c¥u ÷æc dàch trong ngæn ngœ ‰ch. C¡c • xu§t n y thüc hi»n nh÷ b÷îc ti•n xß lþ sß döng c¥y có ph¡p phö thuºc Łi vîi ngæn ngœ nguçn ” ÷a v o h» dàch thŁng k¶ düa tr¶n cöm tł nh‹m c£i ti‚n ch§t l÷æng dàch m¡y. K‚t qu£ dàch tł ti‚ng Anh sang ti‚ng Vi»t vîi bº dœ li»u IWSLT 2015 tr¶n h» thŁng cıa chóng tæi tŁt hìn hai h» thŁng dàch phŒ bi‚n nh§t hi»n nay l NMT v PBSMT. âng gâp cıa lu“n ¡n cö th” nh÷ sau: 2 Thø nh§t, lu“n ¡n • xu§t c¡c lu“t £o tr“t tü tł thı cæng tł vi»c lüa chån c¡c °c tr÷ng v• ngæn ngœ tr¶n c¥y có ph¡p phö thuºc. Tł â ¡p döng ph÷ìng ph¡p £o tr“t tü tł ” n¥ng cao ch§t l÷æng h» thŁng dàch m¡y Anh-Vi»t. Thø hai, lu“n ¡n • xu§t ph÷ìng ph¡p x¥y düng lu“t £o tr“t tü tł tü ºng. Chóng tæi coi vi»c x¥y düng lu“t £o tr“t tü tł nh÷ v§n • håc m¡y trong vi»c dü o¡n ch‰nh x¡c và tr‰ c¡c th nh phƒn cıa lu“t ” o¡n thø tü óng c¡c c¥u trong ngæn ngœ nguçn t÷ìng øng vîi thø tü c¥u ð ngæn ngœ ‰ch. Vîi hai • xu§t gçm: Khai th¡c c¡c °c tr÷ng v• ngæn ngœ v • xu§t ph÷ìng ph¡p sß döng c¡c bº ph¥n lîp ” gi£i quy‚t b i to¡n £o tr“t tü tł. Cö th” l x¡c ành thø tü óng cıa c¡c ph¥n lîp quan h» giœa cöm cha-con tr¶n c¥y ph¥n t‰ch phö thuºc bi”u di„n c¥u ƒu v o. B‹ng vi»c khai th¡c quan h» c¡c c°p tł tr¶n c¥y ph¥n t‰ch phö thuºc v ÷u i”m cıa vi»c bi”u di„n d÷îi d⁄ng word embedding, lu“n ¡n • xu§t ph÷ìng ph¡p sß döng m⁄ng nì-ron ” gi£i quy‚t b i to¡n £o tr“t tü tł c¥u nguçn theo thø tü tł c¥u ‰ch tr÷îc khi ÷a v o h» dàch ” n¥ng cao ch§t l÷æng dàch. Thø ba, lu“n ¡n ÷a ra ph¥n t‰ch £nh h÷ðng cıa c¡c lØi ph¥n t‰ch có ph¡p ‚n ch§t l÷æng dàch qua vi»c ¡p döng c¡c lu“t £o tr“t tü tł Łi vîi c¥u nguçn. C¡c ph¥n t‰ch n y mang l⁄i læi ‰ch cho vi»c c£i ti‚n c¡c ph÷ìng ph¡p £o tr“t tü tł düa tr¶n có ph¡p v ph¡t tri”n vi»c ph¥n t ‰ch có ph¡p phö thuºc, °c bi»t vîi ngæn ngœ ti‚ng Vi»t. Tł khâa: dàch m¡y, dàch m¡y thŁng k¶, ti•n xß lþ có ph¡p, có ph¡p phö thuºc, dàch m¡y thŁng k¶ düa tr¶n cöm tł. 3 Möc löc Líi c£m ìn Danh möc c¡c chœ vi‚t t›t 8 9 Danh s¡ch h…nh v‡ 10 Danh s¡ch b£ng 13 Líi mð ƒu 16 1 TŒng quan c¡c v§n • li¶n quan lu“n ¡n 22 1.1 TŒng quan v• dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . 22 1.2 Dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2.1 Cì sð to¡n håc . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2.2 C§u tróc h» thŁng dàch m¡y . . . . . . . . . . . . . . . . . 27 1.3 Dàch m¡y m⁄ng nì-ron . . . . . . . . . . . . . . . . . . . . . . . . 29 1.4 Ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . . . . . . . . . . 31 1.5 V§n • £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . . 35 1.5.1 Sü kh¡c nhau v• thø tü tł giœa c¡c ngæn ngœ . . . . . . . 35 1.5.2 £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . . 36 1.6 B i to¡n £o tr“t tü tł trong mæ h…nh dàch m¡y düa tr¶n cöm tł 37 1.6.1 Mæ h…nh dàch m¡y düa tr¶n cöm tł . . . . . . . . . . . . 37 1.6.2 B i to¡n £o tr“t tł tü düa tr¶n ti•n xß lþ . . . . . . . . 39 4 1.7 C¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . . . . . . . . . . 1.7.1 Sß döng c¡c lu“t thı cæng cho v§n • ti•n xß lþ . . . . . 1.7.2 Sß döng c¡c lu“t tü ºng cho v§n • ti•n xß lþ . . . . . . 1.8 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 44 45 46 2 Ph÷ìng ph¡p düa v o lu“t thı cæng cho b i to¡n £o tr“t tü tł trong dàch m¡y thŁng k¶ 48 2.1 Ph÷ìng ph¡p ti•n xß lþ cho b i to¡n £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2 C¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . . . . . . . . . . 50 2.3 Ti•n xß lþ có ph¡p phö thuºc cho dàch m¡y thŁng k¶ . . . . . . 52 2.3.1 Ph¥n t‰ch hi»n t÷æng ngæn ngœ v v§n • s›p x‚p l⁄i . . 52 2.3.2 Lu“t chuy”n Œi tr“t tü tł . . . . . . . . . . . . . . . . . . 55 2.3.3 T“p c¡c lu“t £o tr“t tü tł thı cæng . . . . . . . . . . . . 57 2.3.4 T“p dœ li»u v c i °t thüc nghi»m . . . . . . . . . . . . . 59 2.3.5 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . . 62 2.4 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3 Ph÷ìng ph¡p sß döng lu“t tr‰ch xu§t tü ºng b‹ng c¡c bº ph¥n lîp quan h» 65 3.1 Ti•n xß lþ düa tr¶n ph¥n lîp cho dàch m¡y düa tr¶n cöm tł . . 65 3.1.1 V§n • ti•n xß lþ düa tr¶n ph¥n lîp . . . . . . . . . . . . 66 3.1.2 °c tr÷ng . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.1.3 Mæ h…nh ph¥n lîp . . . . . . . . . . . . . . . . . . . . . . . 70 3.2 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.1 T“p dœ li»u v c§u h…nh thüc nghi»m . . . . . . . . . . . . 73 3.2.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . . 74 3.3 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 76 4 Ph÷ìng ph¡p sß döng m⁄ng nì-ron k‚t hæp c¡c thæng tin ngœ c£nh 4.1 Thæng tin ngœ c£nh tł word embedding . . . . . . . . . . . . . . 79 79 4.2 Mæ h…nh £o düa tr¶n m⁄ng nì-ron sß döng c¥y có ph¡p phö thuºc cho dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . . 81 4.2.1 °c tr÷ng cho ph¥n lîp v hu§n luy»n mæ h…nh . . . . . 82 4.2.2 Khung l m vi»c cho £o tr“t tü tł . . . . . . . . . . . . . 87 4.3 Thüc nghi»m v• ph÷ìng ph¡p sß döng m⁄ng nì-ron k‚t hæp 5 thæng tin ngœ c£nh . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.4 Ph¥n t‰ch v th£o lu“n . . . . . . . . . . . . . . . . . . . . . . . . 93 4.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 nh h÷ðng cıa c¥y có ph¡p phö thuºc ‚n ch§t l÷æng dàch m¡y Anh-Vi»t 5.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 96 5.2 Ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . . . . . . . . . . 97 5.2.1 B i to¡n ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . 98 5.2.2 ành d⁄ng dœ li»u theo chu'n CoNLL . . . . . . . . . . . 98 5.2.3 Sß döng t“p nh¢n cho có ph¡p phö thuºc . . . . . . . . . 100 5.3 nh h÷ðng cıa lØi ph¥n t‰ch có ph¡p phö thuºc tîi ch§t l÷æng dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.3.1 Ph÷ìng ph¡p ph¥n t‰ch lØi . . . . . . . . . . . . . . . . . . 102 5.3.2 ¡nh gi¡ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.3.3 Ph¥n t‰ch nguy¶n nh¥n g¥y lØi £o tr“t tü tł . . . . . . . 108 5.4 ¡nh gi¡ k‚t qu£ dàch v º ch‰nh x¡c c¥y có ph¡p phö thuºc . 110 5.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 K‚t lu“n 114 6 Danh möc cæng tr…nh khoa håc cıa t¡c gi£ li¶n quan ‚n lu“n ¡n117 T i li»u tham kh£o 119 7 L˝IC MÌN Tæi xin gßi líi c£m ìn s¥u s›c ‚n TS. Nguy„n V«n Vinh v PGS.TS. Nguy„n L¶ Minh, hai Thƒy ¢ trüc ti‚p h÷îng d¤n, ch¿ b£o t“n t…nh, luæn hØ træ v t⁄o nhœng i•u ki»n tŁt nh§t cho tæi trong qu¡ tr…nh håc t“p v nghi¶n cøu. Tæi xin gßi líi c£m ìn ‚n c¡c Thƒy/Cæ gi¡o ð Khoa Cæng ngh» thæng tin, Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia H Nºi, °c bi»t l c¡c Thƒy/Cæ gi¡o ð Bº mæn Khoa håc m¡y t‰nh, nhœng ng÷íi ¢ trüc ti‚p gi£ng d⁄y v gióp ï tæi trong qu¡ tr…nh håc t“p v nghi¶n cøu ð tr÷íng. Tæi xin gßi c£m ìn ‚n GS.TS. Nguy„n Thanh Thıy, PGS. TS. L¶ Sÿ Vinh, PGS.TS. Nguy„n Ph÷ìng Th¡i, PGS.TS. Phan Xu¥n Hi‚u, TS. Trƒn QuŁc Long, TS. Bòi Ngåc Th«ng (Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia H Nºi), PGS.TS. L¶ Thanh H÷ìng (Tr÷íng ⁄i håc B¡ch khoa H Nºi), TS. Nguy„n Thà Minh Huy•n (Tr÷íng ⁄i håc Khoa håc Tü nhi¶n, ⁄i håc QuŁc gia H Nºi), TS. Ngæ Xu¥n B¡ch (Håc vi»n Cæng ngh» B÷u ch‰nh Vi„n thæng), TS. Nguy„n Vi»t Anh (Vi»n Cæng ngh» thæng tin, Vi»n H n l¥m Khoa håc v Cæng ngh» Vi»t Nam) c¡c Thƒy/Cæ ¢ câ nhœng gâp þ ch¿nh sßa ” tæi ho n thi»n lu“n ¡n. Tæi xin gßi líi c£m ìn ‚n t§t c£ anh, chà, em v b⁄n b– çng nghi»p ð Bº mæn Khoa håc m¡y t‰nh (Khoa Cæng ngh» thæng tin, Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia H Nºi) ¢ gióp ï tæi trong thíi gian l m nghi¶n cøu sinh. CuŁi còng, tæi xin gßi líi c£m ìn ‚n t§t c£ c¡c th nh vi¶n trong gia …nh ¢ luæn ıng hº, chia s·, ºng vi¶n v kh‰ch l» tæi håc t“p, nghi¶n cøu. 8 Danh möc c¡c chœ vi‚t t›t MT Machine Translation (Dàch m¡y) NLP Natural Language Processing (Xß lþ ngæn ngœ tü nhi¶n) POS-tags Part Of Speech tags (Nh¢n tł lo⁄i) SMT Statistical Machine Translation (Dàch m¡y thŁng k¶) PBSMT Phrase-Based Statistical Machine Translation (Dàch m¡y düa tr¶n cöm tł) NMT Neural Machine Translation (Dàch m¡y m⁄ng nì-ron) BLEU BiLingual Evaluation Understudy ( ¡nh gi¡ º hi”u ngœ li»u) SVM Support Vector Machine (M¡y v†c-tì hØ træ) ME Maximum Entropy ( º hØn lo⁄n cüc ⁄i) WEKA Waikato Environment for Knowledge Analysis (Mæi tr÷íng Waikato cho ph¥n t‰ch tri thøc) 9 Danh s¡ch h…nh v‡ 1.1 Sì ç h…nh th¡p th” hi»n c¡c h» thŁng dàch m¡y kh¡c nhau. . . 1.2 Ki‚n tróc cì b£n cıa h» thŁng dàch m¡y thŁng k¶ . . . . . . . . 23 27 1.3 C¡c b÷îc x¥y düng h» thŁng dàch m¡y thŁng k¶ düa tr¶n cöm tł 28 1.4 H» thŁng dàch m¡y m⁄ng nì-ron . . . . . . . . . . . . . . . . . . 30 1.5 Bi”u di„n ç thà c¥y ph¥n t‰ch phö thuºc vîi c¡c nh¢n quan h». 33 1.6 Bi”u di„n d⁄ng c¥y vîi dœ li»u phö thuºc ành d⁄ng CoNLL. . . 33 1.7 V‰ dö v• mæ h…nh dàch m¡y düa tr¶n cöm tł cho dàch tł ngæn ngœ ti‚ng Ph¡p sang ti‚ng Anh. . . . . . . . . . . . . . . . . . . . 37 1.8 Ki‚n tróc cıa mæ h…nh dàch düa tr¶n cöm tł . . . . . . . . . . . 38 1.9 V‰ dö v• vi»c chuy”n Œi c¡c giâng h ng tł vîi vi»c £o tr“t tü tł. 40 1.10 C¡c b÷îc thüc hi»n trong h» thŁng ¡p döng ph÷ìng ph¡p ti•n xß lþ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 1.11 Ki‚n tróc h» thŁng trong lu“n ¡n. . . . . . . . . . . . . . . . . . . 43 2.1 V‰ dö v• ti•n xß lþ cho c°p ngæn ngœ Anh-Vi»t. . . . . . . . . . 49 2.2 V‰ dö v• POS tags v ph¥n t‰ch có ph¡p phö thuºc cho ti‚ng Anh. 50 2.3 V‰ dö v• POS tags v ph¥n t‰ch có ph¡p phö thuºc cho ti‚ng Vi»t. 51 2.4 V‰ dö v• ph¥n t‰ch có ph¡p phö thuºc cho c¥u ti‚ng Anh sß döng cæng cö ph¥n t‰ch cıa Stanford. . . . . . . . . . . . . . . . 51 2.5 Mºt sŁ v‰ dö v• °c tr÷ng ngæn ngœ ti‚ng Vi»t. . . . . . . . . . . 53 10 2.6 V‰ dö v• hi»n t÷æng ngæn ngœ trong cöm danh tł vîi amod v det. Trong v‰ dö n y, danh tł computer ÷æc £o vîi t‰nh tł personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.7 V‰ dö v• hi»n t÷æng ngæn ngœ trong cöm t‰nh tł vîi advmod v det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.8 V‰ dö c¥y ph¥n t‰ch ti‚ng Vi»t vîi thæng tin tł lo⁄i POS tags, c¡c nh¢n phö thuºc v giâng h ng tł. . . . . . . . . . . . . . . . 55 2.9 V‰ dö ¡p döng lu“t £o tr“t tü tł thı cæng trong vi»c s›p x‚p l⁄i thø tü tł trong c¥u. . . . . . . . . . . . . . . . . . . . . . . . . 57 2.10 Mºt phƒn kh£o s¡t v• và tr‰ tł lo⁄i v c¡c nh¢n trong vi»c s›p x‚p l⁄i thø tü tł . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.11 Thu“t to¡n sinh lu“t £o tr“t tü tł sß döng Pos-tags v nh¢n phö thuºc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.12 C¡c lu“t thı cæng cho vi»c £o tr“t tü tł ti‚ng Anh sang ti‚ng Vi»t sß döng ti•n xß lþ tr¶n c¥y có ph¡p phö thuºc. . . . . . . . 3.1 V‰ dö v• mæ h…nh håc m¡y düa tr¶n ph¥n lîp. . . . . . . . . . . 61 66 3.2 Mºt v‰ dö v• quan h» giœa c¡c cöm tr¶n c¥y ph¥n t‰ch phö thuºc. 67 3.3 C¥y ph¥n t‰ch phö thuºc ti‚ng Anh. . . . . . . . . . . . . . . . . 68 3.4 Thu“t to¡n tr‰ch xu§t tü ºng c¡c lu“t sß döng c¥y có ph¡p phö thuºc c¡c c¥u nguçn v c°p giâng h ng tł . . . . . . . . . . . . . 72 3.5 Thu“t to¡n s›p x‚p l⁄i c¥u nguçn sß döng c¡c lu“t tr‰ch xu§t tü ºng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.6 ThŁng k¶ v• quan h» giœa nót cha vîi nót con tr¶n ngœ li»u song ngœ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.7 ThŁng k¶ v• quan h» giœa nót cha vîi hai nót con tr¶n ngœ li»u song ngœ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Mºt v‰ dö v• v• bi”u di„n word embedding . . . . . . . . . . . . 11 77 80 4.2 V‰ dö v• mæ h…nh ph¥n lîp quan h». . . . . . . . . . . . . . . . . 4.3 Mæ h…nh £o cho dàch m¡y thŁng k¶ Anh-Vi»t sß döng m⁄ng 82 nì-ron vîi c¥y ph¥n t‰ch phö thuºc . . . . . . . . . . . . . . . . . 83 4.4 C¡c °c tr÷ng cho quan h» head-child trong mæ h…nh ph¥n lîp . 84 4.5 C¡c °c tr÷ng cho quan h» sibling trong mæ h…nh ph¥n lîp . . . 85 4.6 Khung l m vi»c cho qu¡ tr…nh ti•n xß lþ c¥u nguçn tł dœ li»u song ngœ Anh-Vi»t. . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.7 Thu“t to¡n x¥y düng mæ h…nh hu§n luy»n cho m⁄ng. . . . . . . 88 4.8 Thu“t to¡n s›p x‚p l⁄i ” x¥y düng £o tr“t tü tł c¥u nguçn. . 89 4.9 Qu¡ tr…nh s›p x‚p l⁄i sau khi ¡p döng ph÷ìng ph¡p ph¥n lîp. . 90 5.1 Mæ h…nh b i to¡n tŒng qu¡t v• ph¥n t‰ch có ph¡p phö thuºc . . 98 5.2 So s¡nh t“p nh¢n phö thuºc giœa ti‚ng Vi»t v ti‚ng Anh. . . . 103 5.3 Mæ t£ ph÷ìng ph¡p ph¥n t‰ch lØi. . . . . . . . . . . . . . . . . . . 104 5.4 K‚t qu£ ¡nh gi¡ düa tr¶n º o Kendall’s tau . . . . . . . . . . 107 5.5 B£ng thŁng k¶ º ch‰nh x¡c ph¥n t‰ch có ph¡p phö thuºc ti‚ng Vi»t sß döng cæng cö ph¥n t‰ch có ph¡p phö thuºc JPTDP. . . 109 5.6 V‰ dö v• lØi tł lo⁄i khi so s¡nh dœ li»u thŁng k¶ giœa c¥y ÷æc sinh ra vîi c¥y ÷æc sinh tł dœ li»u chu'n. . . . . . . . . . . . . 110 5.7 V‰ dö v• lØi do x¡c ành sai lo⁄i phö thuºc nót gŁc khi so s¡nh dœ li»u thŁng k¶ giœa c¥y ÷æc sinh ra vîi c¥y ÷æc sinh tł dœ li»u chu'n. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.8 nh h÷ðng cıa c¥y có ph¡p phö thuºc ‚n ch§t l÷æng h» dàch tr¶n kho ngœ li»u song ngœ Anh-Vi»t. . . . . . . . . . . . . . . . . 112 5.9 ThŁng k¶ c¡c ngæn ngœ SVO (chı ngœ, ºng tł, t¥n ngœ) . . . . 134 5.10 ThŁng k¶ c¡c ngæn ngœ vîi tł lo⁄i T‰nh tł, Danh tł . . . . . . . 135 5.11 ThŁng k¶ c¡c ngæn ngœ vîi cöm tł bŒ ngh¾a, cöm danh tł . . . 136 5.12 ThŁng k¶ c¡c ngæn ngœ vîi Danh tł, m»nh • quan h» . . . . . 12 136 5.13 Ph†p phi chi‚u trong ngæn ngœ Latinh . . . . . . . . . . . . . . . 137 5.14 Dàch tł ngæn ngœ ti‚ng øc sang ngæn ngœ ti‚ng Anh . . . . . . 137 5.15 Dàch tł ngæn ngœ ti‚ng Trung sang ngæn ngœ ti‚ng Anh . . . . . 138 5.16 Dàch tł ngæn ngœ ti‚ng H n sang ngæn ngœ ti‚ng Anh . . . . . . 139 5.17 Dàch tł ngæn ngœ ti‚ng r“p sang ngæn ngœ ti‚ng Anh . . . . . 140 5.18 Mæ t£ c¡c lu“t s›p x‚p l⁄i . . . . . . . . . . . . . . . . . . . . . . 141 13 Danh s¡ch b£ng 2.1 Ph¥n t‰ch có ph¡p phö thuºc cho c¥u ti‚ng Vi»t bi”u di„n d÷îi d⁄ng chu'n CoNLL. . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.2 ThŁng k¶ ngœ li»u song ngœ Anh-Vi»t . . . . . . . . . . . . . . . 62 2.3 Thüc nghi»m sß döng c¡c lu“t thı cæng cho kho ngœ li»u song ngœ Anh-Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 V‰ dö v• c¡c lu“t v £o tr“t tü tł trong c¥u nguçn. . . . . . . . 63 69 3.2 T“p °c tr÷ng ÷æc sß döng trong dœ li»u hu§n luy»n tł kho ngœ li»u song ngœ Anh Vi»t . . . . . . . . . . . . . . . . . . . . 71 3.3 ThŁng k¶ sŁ lu“t tü ºng tr‰ch xu§t theo ph÷ìng ph¡p sß döng bº ph¥n lîp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4 K‰ch cï b£ng cöm tł . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.5 ¡nh gi¡ k‚t qu£ tr¶n h» thŁng dàch m¡y Anh- Vi»t . . . . . . . 78 4.1 H» thŁng thüc nghi»m tr¶n kho ngœ li»u song ngœ Anh-Vi»t . . 92 4.2 ¡nh gi¡ h» thŁng cho chi•u dàch Anh- Vi»t . . . . . . . . . . . . 93 5.1 C¡c tr÷íng dœ li»u theo ành d⁄ng cıa CoNLL cho ngæn ngœ ti‚ng Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.2 Bi”u di„n theo ành d⁄ng chu'n CoNLL cho c¥u ƒu v o ti‚ng Vi»t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3 Nh¢n cöm tł . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.4 Nh¢n m»nh • . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 14 5.5 5.6 Nh¢n chøc n«ng có ph¡p . . . . . . . . . . . . . . . . . . . . . . . 143 Nhâm c¡c nh¢n a ngæn ngœ . . . . . . . . . . . . . . . . . . . . . 144 15 Mð ƒu 1. T‰nh c§p thi‚t cıa lu“n ¡n Dàch m¡y l mºt trong nhœng v§n • khâ v l¥u íi nh§t trong tr‰ tu» nh¥n t⁄o. ¢ câ nhi•u nØ lüc ” gi£i quy‚t v§n • n y tł nhœng giai o⁄n ƒu ti¶n khi sß döng m¡y t‰nh. Dò dàch m¡y câ làch sß l¥u íi, vi»c dàch tü ºng to n bº v«n b£n vîi ch§t l÷æng cao v¤n cÆn l th¡ch thøc. C¡c v§n • dàch thu“t câ li¶n quan ‚n nhi•u ngæn ngœ v c¡c v§n • v«n hâa trð n¶n khâ kh«n. Dàch m¡y düa tr¶n c¡ch ti‚p c“n thŁng k¶ v gƒn ¥y dàch m¡y m⁄ng nì-ron ang l mºt h÷îng ph¡t tri”n ti•m n«ng bði nhœng ÷u i”m so vîi c¡c c¡ch ti‚p c“n kh¡c. Nhi•u s£n ph'm th÷ìng m⁄i ÷æc sß döng rºng r¢i tr¶n th‚ giîi (h» dàch 1 2 cıa Google ; M icrosof t : : :). C¡c mæ h…nh dàch m¡y ÷æc sß döng nhi•u nh§t l dàch m¡y thŁng k¶ düa tr¶n cöm tł (PBSMT) (Koehn v cºng sü, 2003; Och v Ney, 2004) [59,89] v dàch m¡y nì-ron (Neural MT) (Bahdanau v cºng sü, 2014; Sutskever v cºng sü, 2014; Cho v cºng sü, 2014) [4, 20, 98]. Trong th“p k qua, b¶n c⁄nh dàch m¡y düa tr¶n cöm tł vîi c¡c ÷u i”m dàch ƒy ı, d„ can thi»p xß lþ gï lØi trong qu¡ tr…nh dàch, gƒn ¥y dàch m¡y m⁄ng nì-ron ¢ cho th§y ti•m n«ng lîn v trong nhi•u tr÷íng hæp ¢ v÷æt qua dàch m¡y düa tr¶n cöm tł (Bentivogli v cºng sü, 2016; Junczys-Dowmunt v cºng sü, 2016; Chung v cºng sü, 2016; Shterionov v cºng sü, 2017) [9, 21, 48, 94]. C¡c ÷u i”m cıa dàch m¡y nì-ron l : dàch træi ch£y hìn, s¡t ngh¾a hìn. Tuy nhi¶n, nhi•u tr÷íng hæp dàch khæng ƒy ı, hi»n t÷æng khæng rª tł (unkown word) nhi•u, qu¡ tr…nh dàch nh÷ hºp en l¶n khâ can thi»p xß lþ v gï lØi. Nhœng v§n • cıa dàch m¡y m⁄ng nì-ron ÷æc ch¿ ra trong c¡c nghi¶n cøu gƒn ¥y nh÷ (Zheng v cºng sü, 2018; Ott v cºng sü, 2018; Koehn v cºng sü, 2017) [58,91,112]. 1https://translate.google.com 2 http://www.microsofttranslator.com 16 T÷ìng tü nh÷ dàch m¡y thŁng k¶ düa tr¶n cöm tł, dàch m¡y düa tr¶n m⁄ng nì-ron l mæ h…nh dàch m¡y theo h÷îng dœ li»u, phö thuºc v o dœ li»u song ngœ ÷æc sß döng ” hu§n luy»n. Ch§t l÷æng dàch cıa mºt h» thŁng li¶n quan ‚n sŁ l÷æng v ch§t l÷æng cıa t“p dœ li»u hu§n luy»n. Dàch m¡y thŁng k¶ düa tr¶n cöm tł v °c bi»t v§n • £o tr“t tü tł v¤n th” hi»n c¡c ÷u i”m trong c¡c tr÷íng hæp c¡c ngæn ngœ vîi nguçn t i nguy¶n h⁄n ch‚ (Koehn v cºng 3 sü, 2017) [58], c¡c c¥u ng›n . Trong dü ¡n v• dàch m¡y cho c¡c ngæn ngœ h⁄n 4 ch‚ v• t i nguy¶n n«m 2018, Philip Koehn v nhâm nghi¶n cøu ¢ gi nh ÷æc kho£n t i træ 10,7 tri»u æ la ” dàch c¡c ngæn ngœ câ nguçn t i nguy¶n h⁄n ch‚, ¢ • c“p: "Th¡ch thøc lîn nh§t Łi vîi chóng ta l vi»c câ ‰t dœ li»u. i•u n y Æi häi cƒn nhi•u v r§t nhi•u dœ li»u". Vîi nhœng ngæn ngœ n y, h» dàch düa tr¶n m⁄ng nì-ron ch÷a th” hi»n ÷æc c¡c ÷u i”m so vîi dàch m¡y thŁng k¶ düa tr¶n cöm tł. C¡c ÷u i”m cıa dàch thŁng k¶ düa tr¶n cöm tł v¤n l h÷îng nghi¶n cøu ÷æc quan t¥m ” k‚t hæp vîi i”m m⁄nh trong dàch m¡y m⁄ng nì-ron. V§n • quan trång cıa dàch m¡y li¶n quan ‚n vi»c l m th‚ n o ” sinh ra thø tü c¡c tł (cöm tł) ch‰nh x¡c trong ngæn ngœ ‰ch. Trong dàch m¡y thŁng k¶ düa tr¶n cöm tł (PBSMT), vi»c £o cöm tł v¤n cÆn ìn gi£n v ch§t l÷æng ch÷a cao. B¶n c⁄nh â, do c¡c ngæn ngœ câ nhi•u °c i”m kh¡c nhau ( °c bi»t sü kh¡c nhau v• thø tü tł trong c¡c ngæn ngœ, v‰ dö: Anh - Vi»t) d¤n tîi khæng th” mæ h…nh hâa ch‰nh x¡c trong qu¡ tr…nh dàch [89]. i•u n y d¤n ‚n câ nhi•u h÷îng quan t¥m nghi¶n cøu ” gi£i quy‚t v§n • £o tr“t tü tł b¶n trong h» thŁng dàch m¡y thŁng k¶ düa v o cöm ang l th¡ch thøc Łi vîi c¡c nh nghi¶n cøu v• dàch m¡y trong nhi•u n«m qua. C¡c nghi¶n cøu theo h÷îng ti‚p c“n ti•n xß lþ qu¡ tr…nh s›p x‚p l⁄i [108], [33], [65] mºt c¡ch hi»u 3 https://yandex.com/company/blog/one-model-is-better-than-two-yu-yandex-translate- launches-a-hybrid-machine-translation-system/ 4 http://www.baltimoresun.com/news/breaking/bs-md-hopkins-language-grant-20171011-story.html 17 qu£ (c£i thi»n so vîi c¡c h» thŁng dàch m¡y düa tr¶n cöm v ph¥n c§p), ch§t l÷æng ÷æc ¡nh gi¡ kh£ quan trong c¡c mæ h…nh s›p x‚p l⁄i. Sß döng ph÷ìng ph¡p ti•n xß lþ câ ÷u i”m l giœ ÷æc i”m m⁄nh cıa h» thŁng dàch m¡y düa tr¶n cöm tł, gi£m thi”u thíi gian gi£i m¢, công nh÷ giœ i”m m⁄nh cıa dàch m¡y theo có ph¡p trong b i to¡n £o tr“t tü tł. Hi»n nay, ¢ câ nghi¶n cøu v• h» thŁng dàch m¡y thŁng k¶ düa tr¶n cöm tł cho c°p ngæn ngœ Anh-Vi»t. Tuy nhi¶n, nghi¶n cøu v• dàch m¡y thŁng k¶ düa tr¶n cöm tł sß döng ti•n xß lþ vîi c¥y có ph¡p phö thuºc ch÷a nhi•u. B¶n c⁄nh â, có ph¡p phö thuºc câ ÷u i”m trong vi»c th” hi»n quan h» phö thuºc tł, tŁc º nhanh, phò hæp vîi v§n • s›p x‚p l⁄i tr“t tü tł (mºt trong nhœng v§n • quan trång trong b i to¡n dàch). Nhœng v§n • th¡ch thøc °t ra: - C¡c nghi¶n cøu chı y‚u ¡p döng cho chi•u dàch Anh-Vi»t, ch÷a câ chi•u dàch Vi»t-Anh. - Mºt sŁ nghi¶n cøu ¢ ¡p döng £o tr“t tü tł düa tr¶n c¥y có ph¡p phö thuºc cho chi•u Anh-Vi»t. Tuy nhi¶n nhœng nghi¶n cøu n y chı y‚u dòng c¡c lu“t b‹ng tay, ch÷a ¡p döng c¡c lu“t tü ºng trong b i to¡n dàch. - Câ ‰t nghi¶n cøu sß döng ti•n xß lþ düa v o c¥y có ph¡p phö thuºc cho chi•u Vi»t-Anh v tçn t⁄i nhi•u h⁄n ch‚ cƒn c£i ti‚n ” n¥ng cao ch§t l÷æng. ” gi£i quy‚t th¡ch thøc tr¶n nh‹m c£i ti‚n ch§t l÷æng dàch m¡y thŁng k¶, nhi•u nØ lüc nghi¶n cøu theo h÷îng sß döng c¥y ph¥n t‰ch có ph¡p phö thuºc v o dàch thŁng k¶ ¢ ÷æc ¡p döng. Ch‰nh i•u n y ¢ gæi þ v thóc 'y chóng tæi lüa chån nghi¶n cøu • t i: "C£i ti‚n ch§t l÷æng dàch m¡y thŁng k¶ AnhVi»t düa v o £o tr“t tü tł theo c¥y có ph¡p phö thuºc". 2. Möc ti¶u cıa lu“n ¡n Nghi¶n cøu • xu§t c¡c ph÷ìng ph¡p gi£i quy‚t b i to¡n £o cöm tł 18
- Xem thêm -

Tài liệu liên quan