ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HUYỀN TRANG
MỘT MÔ HÌNH SỬ DỤNG TWITTER VÀ MỘT SỐ
PHƢƠNG TIỆN XÃ HỘI KHÁC DỰ BÁO XU HƢỚNG
GIÁ CỔ PHIẾU CỦA APPLE
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HUYỀN TRANG
MỘT MÔ HÌNH SỬ DỤNG TWITTER VÀ MỘT SỐ
PHƢƠNG TIỆN XÃ HỘI KHÁC DỰ BÁO XU HƢỚNG
GIÁ CỔ PHIẾU CỦA APPLE
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã Số: 60480104
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. HÀ QUANG THỤY
HÀ NỘI - 2014
Lời cam đoan
Tôi xin cam đoan luận văn “Một mô hình sử dụng Twitter và một số phương tiện xã
hội khác dự báo xu hướng giá cổ phiếu của Apple" là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực. Tôi đã trích
dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan. Ngoại trừ các tài liệu
tham khảo này, luận văn hoàn toàn là công việc của riêng tôi.
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ Thông
tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Hà Nội, ngày 09 tháng 06 năm 2014
Học viên
Phạm Huyền Trang
4
Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Hà
Quang Thụy đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi
học tập và nghiên cứu tại trường Đại học Công Nghệ.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp cao học K18 đã ủng hộ, khuyến khích
tôi trong suốt quá trình học tập tại trường.
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văn tốt
nghiệp.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 09 tháng 06 năm 2014
Học viên
Phạm Huyền Trang
5
Tóm tắt nội dung
Dự đoán thị trường chứng khoán đang gây được sự chú ý không chỉ bởi giới học
thuật mà còn trong cả giới kinh doanh. Đối với các nhà đầu tư, việc dự đoán giá cổ phiếu
đặc biệt quan trọng trong việc giảm thiểu rủi ro đầu tư, đồng thời tối đa hóa lợi nhuận.
Các nghiên cứu gần đây cũng đã chứng minh được rằng xu hướng giá cổ phiếu có thể
đoán được ở một mức độ nào đó dựa trên việc kết hợp giá cổ phiếu trong quá khứ và các
chỉ số tâm trạng, cảm xúc của cộng đồng được lấy ra từ các trang mạng xã hội trực tuyến
như blogs, Twitter feeds,...
Luận văn tập trung nghiên cứu một mô hình dự báo xu hướng giá cổ phiếu của Tập
đoàn Công nghệ máy tính Apple sử dụng nguồn dữ liệu Twitter và một số phương tiện xã
hội khác, cụ thể là nguồn tin tức trên các trang tin có uy tín và nguồn blog của các chuyên
gia phân tích tài chính trên thế giới.
Thực nghiệm ban đầu trên ba miền dữ liệu: các tweet trên mạng xã hội Twitter, các
tin bài trên trang tin tức, các bài viết trên trang blog cho thấy mô hình dự báo xu hướng
giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple với độ đo Accuracy cao nhất là
0.75 trên miền dữ liệu tin tức. Kết quả trên đã cho thấy phương pháp dự đoán xu hướng
giá cổ phiếu dựa trên một số phương tiện xã hội được luận văn đề xuất và triển khai là
khả quan.
6
Mở đầu
Việc dự đoán các chỉ số và xu hướng của thị trường chứng khoán nhận đang nhận
được sự quan tâm lớn của các nhà nghiên cứu, đầu tư, chuyên gia tài chính và giới môi
giới chứng khoán [2, 7, 14, 16, 23, 25]. Lợi ích của việc đánh giá tốt các diễn biến của thị
trường chứng khoán mang lại là khá rõ ràng, nó giúp giảm thiểu rủi ro cho các nhà đầu tư,
và tối đa hóa lợi nhuận. Không chỉ vậy, bài toán dự đoán thị trường chứng khoán còn
mang lại những thách thức lớn trong việc chứng minh liệu thị trường tài chính có thể dự
đoán hay không? Trong những năm gần đây, các mô hình toán học và tính toán từ trí tuệ
nhân tạo đã được sử dụng cho mục đích này.
Bài toán dự báo thị trường chứng khoán trên cơ sở theo dõi tình cảm, tâm trạng của
cộng đồng trên Twitter đã thu hút được nhiều sự chú ý gần đây. Bài toán thực hiện xác
định tâm trạng chung của cộng đồng, kết hợp với giá cổ phiếu của các ngày trong quá
khứ, từ đó đưa ra dự đoán về xu hướng của thị trường trong tương lai. Việc mở rộng dữ
liệu, không chỉ trên Twitter mà còn trên một số phương tiện xã hội khác cũng đang được
các nhà nghiên cứu trên thế giới quan tâm.
Trong những năm gần đây, trên thế giới, có khá nhiều nghiên cứu và ý tưởng đưa
ra các giải pháp nhằm giải quyết bài toán dự báo thị trường chứng khoán [2, 14, 16, 25,
30]. Trong luận văn này, chúng tôi áp dụng kỹ thuật học bán giám sát để giải quyết bài
toán dự báo thị trường chứng khoán, cụ thể là luận văn tập trung vào giá cổ phiếu của Tập
đoàn Công nghệ máy tính Apple kết hợp trên ba miền dữ liệu chính là: Twitter, các trang
tin tức và các blog. Chúng tôi sử dụng kỹ thuật phân lớp bán giám sát SVM-kNN dựa trên
việc kết hợp giữa đánh giá tâm trạng, thái độ của cộng đồng và giá cổ phiếu các ngày
trong quá khứ để giải quyết bài toán. Đây là một phương pháp phân lớp bán giám sát cho
kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh, do Kunlun Li,
Xuerong Luo and Ming Jin đề xuất năm 2010 [18]. Luận văn đã thực nghiệm mô hình đối
với giá cổ phiếu của Tập đoàn Apple với kết quả đạt mức khá khả quan so với kết quả của
thế giới.
Nội dung của luận văn được chia thành các chương như sau:
Chƣơng 1: Luận văn giới thiệu khái quát về dự đoán thị trường chứng khoán cũng
như một số phương pháp trong việc dự báo xu hướng của thị trường chứng khoán.
Chƣơng 2: Luận văn đưa ra một số giới thiệu chung về bài toán dự đoán thị
trường chứng khoán dựa trên Twitter, cũng như đã nêu lên chứng minh của Johan Bollen
về việc có thể dự báo được thị trường chứng khoán dựa trên tâm trạng chung của cộng
đồng. Ngoài ra, một số nghiên cứu liên quan cũng được trình bày tại chương này.
7
Chƣơng 3: Luận văn giới thiệu về thuật toán phân lớp SVM, kNN. Từ đó, trình
bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN được sử dụng để giải quyết
bài toán dự báo chứng khoán.
Chƣơng 4: Luận văn đề xuất một mô hình giải quyết vấn đề dự báo xu hướng của
giá cổ phiếu của Apple dựa trên phân lớp bán giám sát SVM-kNN trên ba miền dữ liệu:
mạng xã hội Twitter, các trang tin tức và weblog. Tư tưởng chính của mô hình sẽ được
thể hiện trong chương này. Đồng thời, luận văn cũng trình bày chi tiết các pha cũng
những các bước trong mô hình.
Chƣơng 5: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm theo mô
hình đã đề xuất trong chương 4.
Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triển
tương lai.
8
Mục Lục
Danh mục hình vẽ ............................................................................................................... 10
Danh mục bảng biểu ........................................................................................................... 11
Danh mục tóm tắt ............................................................................................................... 12
1.
Chương 1. Bài toán dự đoán thị trường chứng khoán ................................................ 13
1.1. Khái quát về bài toán dự đoán thị trường chứng khoán........................................ 13
1.1.1.
Một số khái niệm trong thị trường chứng khoán ........................................ 13
1.1.2.
Có thực sự dự đoán được thị trường chứng khoán? ................................... 14
1.2. Các phương pháp dự báo thị trường chứng khoán................................................ 15
2.
Chương 2. Dự đoán thị trường chứng khoán dựa trên Twitter................................... 17
2.1. Giới thiệu chung .................................................................................................... 17
2.2. Dự đoán thị trường chứng khoán dựa trên tâm trạng cộng đồng và chứng minh
của J.Bollen cùng cộng sự .............................................................................................. 18
2.3. Một số nghiên cứu liên quan trên thế giới ............................................................ 22
3.
Chương 3. Phân lớp bán giám sát SVM-kNN ............................................................ 24
3.1. Một số nội dung cơ bản về phân lớp bán giám sát .................................................. 24
3.1.1.Khái niệm .......................................................................................................... 24
3.1.2. Các phương pháp phân lớp bán giám sát điển hình ......................................... 25
3.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát ....................................... 26
3.2.1. Thuật toán học máy vector hỗ trợ (SVM) ........................................................ 26
3.2.2. Thuật toán K người láng giềng gần nhất (kNN)............................................... 28
3.2.3. Phương pháp phân lớp bán giám sát SVM-kNN .............................................. 30
3.2.4. Phương pháp phân lớp bán giám sát SVM-kNN do nhóm nghiên cứu đề xuất
.................................................................................................................................... 32
4. Chương 4. Đề xuất một mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Apple
sử dụng Twitter và một số phương tiện xã hội khác .......................................................... 36
4.1. Tư tưởng chính của giải pháp đề xuất ..................................................................... 36
4.2. Mô hình đề xuất ....................................................................................................... 38
4.2.1. Pha 1: Tiền xử lý .............................................................................................. 39
9
4.2.2. Pha 2: Xác định quan điểm............................................................................... 40
4.2.3. Pha 3: Dự đoán xu hướng của chỉ số APPL ..................................................... 42
Tóm tắt chương 4: .......................................................................................................... 43
5.
Chương 5. Thực nghiệm và đánh giá ......................................................................... 44
5.1. Môi trường và các công cụ sử dụng thực nghiệm ................................................... 44
5.2. Xây dựng tập dữ liệu ............................................................................................... 45
5.3. Thực nghiệm ............................................................................................................ 47
5.3.1. Tiền xử lý.......................................................................................................... 48
5.3.2. Xác định quan điểm của cộng đồng, các chuyên gia........................................ 48
5.3.3. Dự đoán xu hướng của chỉ số APPL ................................................................ 51
Tóm tắt chương 5............................................................................................................ 54
Kết luận............................................................................................................................... 55
Tài liệu tham khảo .............................................................................................................. 56
10
Danh mục hình vẽ
Hình 2.1: Kết quả tâm trạng theo chuỗi thời gian trong khoảng thời gian 2 tháng từ
5/10/2008 tới 05/12/2008 theo nghiên cứu của J.Bollen và cộng sự [16] .......................... 20
Hình 2.2: Bảng thể hiện tương quan giữa xu hướng thu được từ bộ từ điển của OF đối với
6 chiều tâm trạng của GPOMS theo nghiên cứu của J.Bollen và cộng sự [16] ................. 21
Hình 2.3: Bảng thể hiện Kết quả phân tích nhân quả Granger theo nghiên cứu của
J.Bollen và cộng sự [16] ..................................................................................................... 22
Hình 3.1: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm ...................................... 27
Hình 3.2: Ví dụ về thuật toán kNN..................................................................................... 29
Hình 3.3: Minh họa vector hỗ trợ và vector biên ............................................................... 31
Hình 3.4: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo và Ming
Jin[18] ................................................................................................................................. 32
Hình 4.1: Mô hình dự báo xu hướng chỉ số APPL đề xuất ................................................ 39
Hình 5.1: Chỉ số đóng cửa đã điều chỉnh trong khoảng thời gian 01/01/2014 đến
01/05/2014 .......................................................................................................................... 47
Hình 5.2: Kết quả xác định quan điểm trên miền dữ liệu Twitter trong khoảng thời gian
01/01/2014 đến 01/05/2014 ................................................................................................ 49
Hình 5.3: Kết quả xác định quan điểm trên miền dữ liệu tin tức trong khoảng thời gian
01/01/2014 đến 01/05/2014 ................................................................................................ 49
Hình 5.4: Kết quả xác định quan điểm trên miền dữ liệu blog trong khoảng thời gian
01/01/2014 đến 01/05/2014 ................................................................................................ 50
Hình 5.5: Kết quả xác định quan điểm trên 3 miền dữ liệu trong khoảng thời gian
01/01/2014 đến 01/05/2014 ................................................................................................ 50
11
Danh mục bảng biểu
Bảng 5.1: Cấu hình hệ thống thử nghiệm ........................................................................... 44
Bảng 5.2: Công cụ phần mềm sử dụng............................................................................... 44
Bảng 5.3: Dữ liệu Tweet crawl được trong khoảng thời gian 4 tháng đầu năm ................ 45
Bảng 5.4: Dữ liệu tin tức crawl được trong khoảng thời gian 4 tháng đầu năm ................ 46
Bảng 5.5: Dữ liệu blog crawl được trong khoảng thời gian 4 tháng đầu năm ................... 46
Bảng 5.6: Chỉ số đóng cửa đã điều chỉnh trong khoảng thời gian 01/01/2014 đến
01/05/2014 .......................................................................................................................... 47
Bảng 5.7: Dữ liệu được crawl sau khi lọc những mẫu dữ liệu liên quan ........................... 48
Bảng 5.8: Số lượng mẫu dữ liệu dùng cho phân lớp SVM-KNN ...................................... 51
Bảng 5.9: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 với độ trễ cảm xúc
là 2 ngày.............................................................................................................................. 53
Bảng 5.10: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 với độ trễ cảm xúc
là 3 ngày.............................................................................................................................. 53
12
Danh mục tóm tắt
STT
1
2
3
4
5
6
Thuật ngữ
Bước Đi Ngẫu Nhiên - Walk Random
Giả thuyết Thị trường hiệu quả Efficient Market
Hypothesis
Lý thuyết kinh tế xã hội Socionomic Theory of
Finance
Công cụ OpinionFinder
Công cụ Google-Profile of Mood States
Chỉ số trung bình công nghiệp Dow Jones
Từ viết tắt
WR
EMH
STF
OF
GPOMS
DJIA
13
1. Chƣơng 1. Bài toán dự đoán thị trƣờng chứng khoán
1.1.
Khái quát về bài toán dự đoán thị trƣờng chứng khoán
Bài toán dự đoán biến động của thị trường chứng khoán được đặt ra với động cơ là
dự đoán được giá cổ phiếu trong tương lai nhằm giúp các nhà đầu tư đưa ra các quyết
định mua và bán tức thời, mang lại lợi nhuận cao cho các nhà đầu tư. Đây là bài toán đặt
ra nhiều thách thức, bởi lẽ giá cả thị trường chứng khoán là không tuyến tính [23, 24].
Vậy, một số câu hỏi được đặt ra là Có thực sự dự đoán được thị trường chứng khoán
không? Nếu có thì dựa trên những thông tin nào để có thể dự đoán được? Chương 1 của
luận văn sẽ trả lời những câu hỏi trên một cách khái quát nhất. Trước khi đưa ra các câu
trả lời, tôi xin trình bày về một số khái niệm liên quan đến bài toán sẽ được sử dụng trong
luận văn này
1.1.1. Một số khái niệm trong thị trƣờng chứng khoán
Thị trường chứng khoán trong điều kiện của nền kinh tế hiện đại, được quan niệm
là nơi diễn ra các hoạt động giao dịch mua bán các loại chứng khoán trung và dài hạn.
Việc mua bán này được tiến hành ở thị trường sơ cấp khi người mua mua được chứng
khoán lần đầu từ những người phát hành, và ở thị trường thứ cấp khi có sự mua đi bán lại
các chứng khoán đã được phát hành ở thị trường sơ cấp. Như vậy, xét về mặt hình thức,
thị trường chứng khoán chỉ là nơi diễn ra các hoạt động trao đổi, mua bán, chuyển
nhượng các loại chứng khoán, qua đó thay đổi các chủ thể nắm giữ chứng khoán. Thị
trường chứng khoán thực chất là quá trình vận động của tư bản tiền tệ. Các chứng khoán
mua bán trên thị trường chứng khoán có thể đem lại thu nhập cho người nắm giữ nó sau
một thời gian nhất định và được lưu thông trên thị trường chứng khoán theo giá cả thị
trường, do đó bề ngoài nó được coi như là một tư bản hàng hoá.
Các chủ thể tham gia vào thị trường chứng khoán được chia thành 3 nhóm sau:
nhà phát hành, nhà đầu tư và các tổ chức có liên quan đến chứng khoán:
-
-
Nhà phát hành là các tổ chức thực hiện huy động vốn thông qua thị trường
chứng khoán. Nhà phát hành là người cung cấp các chứng khoán - hàng hoá
của thị trường chứng khoán. Công ty là nhà phát hành các cổ phiếu và trái
phiếu công ty. Ví du: Tập đoàn Apple, Google là các nhà phát hành cổ phiếu.
Nhà đầu tư là những người thực sự mua và bán chứng khoán trên thị trường
chứng khoán. Nhà đầu tư có thể được chia thành 2 loại: nhà đầu tư cá nhân và
nhà đầu tư có tổ chức
14
Căn cứ vào hàng hóa trên thị trường, thị trường chứng khoán cũng có thể được
phân thành các thị trường: thị trường cổ phiếu, thị trường trái phiếu, thị trường các công
cụ chứng khoán phát sinh; trong đó Thị trường cổ phiếu là thị trường giao dịch mua và
bán các loại cổ phiếu. Cổ phiếu là một loại chứng khoán được phát hành dưới dạng chứng
chỉ hoặc bút toán ghi sổ, xác nhận quyền sở hữu và lợi ích hợp pháp của người sở hữu cổ
phiếu đối với tài sản hoặc vốn của một công ty cổ phần.
Niêm yết chứng khoán là thủ tục cho phép một chứng khoán nhất định được phép
giao dịch trên Sở giao dịch chứng khoán. Cụ thể, đây là quá trình mà Sở giao dịch chứng
khoán chấp thuận cho công ty phát hành có chứng khoán được phép niêm yết và giao dịch
trên Sở giao dịch chứng khoán nếu công ty đó đáp ứng đầy đủ các tiêu chuẩn về định
lượng cũng như định tính mà Sở giao dịch chứng khoán đề ra.
Thời gian giao dịch: tại hầu hết các Sở giao dịch chứng khoán trên thế giới, giao
dịch chứng khoán thường diễn ra trong các ngày làm việc trong tuần.
-
Giá mở cửa: là giá thực hiện tại lần khớp lệnh đầu tiên của chứng khoán trong
ngày giao dịch.
Giá đóng cửa: bao gồm giá đóng cửa chưa điều chỉnh và giá đóng cửa điều
chỉnh
o Giá đóng cửa chưa điều chỉnh: là giá được đăng trên bảng niêm yết giá
tại sàn chứng khoán, hoặc được cung cấp bởi các công ty chứng khoán.
o Giá đóng cửa điều chỉnh: là giá đóng cửa chưa điều chỉnh và lợi nhuận
mà nhà đầu tư thu được từ cổ tức và việc tách/thưởng cổ phiếu, vốn.
1.1.2. Có thực sự dự đoán đƣợc thị trƣờng chứng khoán?
Bài toán dự đoán thị trường chứng khoán gần đây được chú ý nhiều bởi cả giới học
thuật cũng như kinh doanh. Nhưng có một câu hỏi đã được đặt ra là liệu giá trị cổ phiếu
có thực sự dự đoán được không?
Những nghiên cứu trước đây về việc dự đoán thị trường chứng khoán dựa trên lý
thuyết Bước Đi Ngẫu Nhiên (Walk Random - WR) và Giả thuyết Thị trường hiệu quả
(Efficient Market Hypothesis - EMH). Lý thuyết "Bước Đi Ngẫu Nhiên" nói rằng sự vận
động của giá cả trên thị trường chứng khoán sẽ không đi theo bất kì một khuôn mẫu hay
một xu hướng nào đã từng có trước đây. Và do đó những biến động giá trong quá khứ sẽ
không thể sử dụng được trong việc dự đoán những bước đi tiếp theo của nó trong tương
lai. Theo như EMH, sẽ có một số lượng lớn các thành viên tham gia thị trường cạnh tranh,
mỗi thành viên phân tích và định giá độc lập nhằm tối ưu hóa lợi nhuận của mình. Các
nhà đầu tư điều chỉnh giá cổ phiếu ngay tức khắc với tất cả các thông tin liên quan sẵn có
nhằm phản hồi được ảnh hưởng của thông tin. Giá cả thị trường chứng khoán bị điều phối
15
chính bởi các thông tin mới, ví dụ như tin tức, hơn là phụ thuộc vào giá cả hiện tại và quá
khứ của cổ phiếu. Do tin tức là không thể dự đoán được, do đó giá chứng khoán sẽ đi theo
một mẫu bước nhảy ngẫu nhiên và không thể đoán định được chính xác trên 50%.
Tuy nhiên, theo một quan điểm hoàn toàn ngược lại, lý thuyết Down đã chỉ ra rằng
những biến động thị trường với mọi xu hướng đều có thể được dự đoán trước trên cơ sở
biến động giá trên các biểu đồ. Charles. H. Dow đưa ra khái niệm về “chỉ số giá bình
quân” nhằm phản ánh xu thế chung của một số cổ phiếu đại diện cho thị trường. Theo Lý
thuyết Dow, chỉ số bình quân thị trường phản ánh tất cả. Bởi vì nó phản ánh những hoạt
động có liên kết với nhau của hàng nghìn nhà đầu tư, gồm cả những người có kinh
nghiệm dự đoán thị trường giỏi nhất, có những thông tin tốt nhất về xu hướng và các sự
kiện, những gì có thể nhận thấy trước và tất cả những gì có thể ảnh hưởng đến cung và
cầu của các loại chứng khoán. Thậm chí cả những thiên tai hay thảm họa không dự tính
được thì ngay khi xảy ra chúng đã được thị trường phản ánh ngay vào giá của các loại
chứng khoán. Cũng trong lý thuyết Down bao gồm ba xu thế là - xu thế gốc hay xu thế cơ
bản (primary trend), xu thế thứ 2 (second trend), và những xu thế nhỏ (minor trends). Xu
thế cơ bản (primary trend) là lực lượng chính đằng sau xu thế và giống như một dòng
chảy của sông theo một hướng cơ bản. Xu thế thứ 2 giống như một nhánh của xu thế
chính. Nhánh này có thể rẽ ra một lúc nhưng cuối cùng cũng quay lại đi theo dòng của
dòng sông chính. Xu thế nhỏ thì giống như một dòng suối nhỏ, có lúc chạy theo hướng
này và hướng kia nhưng vẫn được dẫn dắt theo một hướng chung của dòng sông.
Xu thế cơ bản có thể mất nhiều năm để kết thúc và phát triển theo thời gian. Xu thế thứ 2
có thể xảy ra bất cứ ở đâu từ một vài tuần tới một vài tháng nếu tính theo thời gian và xu
thế nhỏ có thể đi theo hướng ngược lại của xu thế cơ bản. Những xu thế nhỏ như là xu thế
hàng ngày kéo dài một vài ngày hoặc tương tự và thường không có gì quá nổi bật. Xu thế
thứ 2 cũng có thể nghiêng về việc bị lôi kéo bởi các mánh khóe hay tin đồn, nhưng xu thế
cơ bản thì hoàn toàn lãnh đạm với các yếu tố đó. Theo lý thuyết này thì thị trường bị ảnh
hưởng bởi cảm xúc và nghiêng về phản ứng thái quá cả theo hướng lên hoặc xuống. Do
đó, việc có thể dự báo được xu hướng của thị trường chứng khoán là hoàn toàn có thể.
1.2.
Các phƣơng pháp dự báo thị trƣờng chứng khoán
Căn cứ vào nội dung phương pháp và mục đích của dự báo, người ta chia dự báo
thành hai loại [17]: Phương pháp định tính và phương pháp định lượng:
Phương pháp định tính thường phụ thuộc rất nhiều vào kinh nghiệm của một hay
nhiều chuyên gia trong lĩnh vực liên quan. Phương pháp này thường được áp dụng, kết
quả dự báo sẽ được các chuyên gia trong lĩnh vực liên quan nhận xét, đánh giá và đưa ra
kết luận cuối.
16
Phương pháp định lượng dựa trên mô hình toán với giả thiết rằng mối liên hệ giữa
các yếu tố được thiết lập trong quá khứ sẽ lặp lại trong tương lai. Nói cách khác, phương
pháp định lượng dựa trên dữ liệu quá khứ để phát hiện xu thế thị trường trong tương lai
theo một quy luật nào đó. Để dự báo xu thế thị trường chứng khoán, người ta có thể sử
dụng mô hình chuỗi thời gian, hoặc sử dụng biến nhân quả. Ưu điểm của phương pháp
này là tín hiệu đưa ra khá khách quan, dựa và tiêu chí của những chỉ tiêu thống kê từ mô
hình. Những tín hiệu mua bán được đưa ra dựa trên những phân tích khách quan nên giảm
thiểu sự sai sót do yếu tố con người. Tuy nhiên, phương pháp này có nhược điểm là
không dự báo được trong những trường hợp thị trường có một diễn biến đột ngột khiến
cho mô hình dự báo có một sự đảo chiều đột ngột. Ngoài ra, nếu nguồn dữ liệu đầu vào
không được thu thập một cách khoa học, chính xác cũng có thể làm cho tính dự báo thiếu
chính xác.
Như đã biết, trong thị trường chứng khoán, có rất nhiều yếu tố có thể ảnh hưởng
đến giá cổ phiếu. Những yếu tố này có thể được bắt nguồn từ việc phát hành tin tức về các
công ty hoặc những tin tức về nền kinh tế của các quốc gia lớn. Lý do chính của việc kết
hợp các thông tin sự kiện nào đó diễn ra trong dự báo thị trường chứng khoán dựa trên
một giả định rằng giá trong tương lai của một cổ phiếu một phần phụ thuộc vào các sự
kiện chính trị và quốc tế diễn ra. Vì vậy, nhiều nghiên cứu đã sử dụng thông tin, tin tức sự
kiện (yếu tố định tính) như là các dữ liệu định lượng trong việc dự đoán thị trường chứng
khoán.
Tóm tắt chƣơng một:
Chương một đã trình bày một cách tổng quan về bài toán dự báo thị trường chứng
khoán. Có một số cách cơ bản các nhà đầu tư sử dụng để phân tích, từ đó đưa ra những dự
đoán cho xu hướng của thị trường chứng khoán, trong đó không thể không nói đến
phương pháp kỹ thuật được áp dụng cho bài toán dự đoán thị trường chứng khoán.
Chương hai của luận văn sẽ trình bày chi tiết về một trong những cách được sử
dụng để dự đoán xu hướng giá cổ phiếu – đó là phương pháp dự đoán dựa trên mạng xã
hội Twitter.
17
2. Chƣơng 2. Dự đoán thị trƣờng chứng khoán dựa trên Twitter
2.1.
Giới thiệu chung
Các nhà đầu tư thường sử dụng hai phương pháp cơ bản để phân tích giá cả cổ
phiếu và đưa ra các quyết định đầu tư, là: phân tích theo nguyên tắc cơ bản và phương
pháp kỹ thuật. Phân tích cơ bản là phương pháp truyền thống, liên quan đến việc nghiên
cứu các thông tin cơ bản về một công ty cụ thể muốn theo dõi giá cổ phiếu như doanh thu,
chi phí, vị trí thị trường, tốc độ tăng trưởng hàng năm [22]. Mặt khác, phương pháp phân
tích kỹ thuật, là hoàn toàn dựa trên các nghiên cứu về lịch sử biến động giá cả, từ đó đưa
ra mô hình giá để dự báo biến động giá trong tương lai [29]. Lý do căn bản của phân tích
kỹ thuật dựa trên ba giả thuyết cơ bản: (1) Giá phản ánh tất cả hành động thị trường; (2)
Giá dịch chuyển theo xu hướng; (3) Quá khứ tự nó sẽ lặp lại. Thứ nhất, phân tích kỹ thuật
được tiến hành dựa trên giả định nền tảng là giá phản ánh tất cả hành động thị trường, chỉ
cần bất cứ một thông tin gì mới được đưa ra là nó được phản ánh ngay vào trong giá.
Không chỉ phản ánh mọi thông tin, giá còn phản ánh tất cả các kiến thức của tất cả những
người tham gia vào thị trường, bao gồm các nhà giao dịch, các nhà đầu tư, các nhà quản
trị danh mục đầu tư, các nhà phân tích của phía người bán và người mua, các nhà lập
chiến lược thị trường, các nhà phân tích cơ bản, phân tích kỹ thuật và nhiều nhà giao dịch
khác. Phân tích kỹ thuật là sử dụng tất cả các thông tin có trong giá để lý giải về các biểu
hiện của thị trường nhằm hình thành nên dự đoán cho tương lai. Thứ hai, biến động giá
không ngẫu nhiên hoàn toàn mà theo xu hướng. Thứ ba, quá khứ tự nó sẽ lặp lại. Mục
đích của phân tích là dự đoán xu hướng giá trong tương lai. Bằng cách chú trọng vào giá
và chỉ duy nhất giá, các nhà phân tích kỹ thuật đã sử dụng phương pháp trực tiếp.
Cả hai phương pháp dự báo thị trường đều nhắm vào việc giải quyết cùng một vấn
đề đó là xác định chiều hướng giá cả thị trường có khả năng dịch chuyển thế nào. Hai
phương pháp này tiếp cận vấn đề từ hai hướng khác nhau. Phân tích cơ bản nghiên cứu
nguyên nhân của sự dịch chuyển thị trường trong khi phân tích kỹ thuật thì nghiên cứu tác
động của các sự dịch chuyển này.
Một trong những tác động ảnh hưởng rất lớn đến sự dịch chuyển của thị trường, đó
chính là tâm trạng, thái độ của cộng đồng trước một tin tức, một sự kiện nào đó diễn ra.
Một bộ phận nghiên cứu chuyên sâu vào EMH, cụ thể là từ khía cạnh lý thuyết kinh tế xã
hội Socionomic Theory of Finance (STF), kinh tế học hành vi và tài chính hành vi đã có
một loạt các nghiên cứu chỉ ra rằng giá cổ phiếu có thể dự đoán được ở một mức độ nào
đó dựa trên cảm xúc, trạng thái tâm trạng, suy nghĩ của cộng đồng. Một vài nghiên cứu
gần đây cũng gợi ý rằng tin tức là không đoán định được nhưng có những chỉ số được lấy
18
ra từ các trang mạng xã hội trực tuyến (blogs,Twitter feeds,...) được dùng để dự đoán sự
thay đổi trong những chỉ số kinh tế và thương mại.
Bài toán dự đoán thị trường chứng khoán dựa trên Twitter là bài toán sử dụng dữ
liệu là các tweet trên trang mạng xã hội trực tuyến Twitter để dự báo xu hướng của thị
trường chứng khoán. Theo kinh tế học hành vi, những hành vi (hành động có nhận thức)
của các chủ thể kinh tế (người tiêu dùng, người phân phối, bán hay hay người sản xuất) có
thể ảnh hưởng đến việc ra các quyết định kinh tế cũng như giá cả thị trường ra sao, hay
nói cách khác, kinh tế học hành vi đã chỉ ra rằng cảm xúc có thể gây ảnh hưởng sâu sắc
đến những hành vi và các quyết định của mỗi cá nhân, đặc biệt là các quyết định liên quan
đến tài chính, kinh tế. Từ đó, một câu hỏi đã được đặt ra là Liệu các trạng thái tâm trạng,
cảm xúc của cả cộng đồng có tương quan hay thậm chí là yếu tố dự đoán được các chỉ số
kinh tế không? Giả thuyết “Tâm trạng cộng đồng có thể dự đoán được thị trường chứng
khoán” đã được nêu ra và chứng minh bởi J.Bollen cùng các cộng sự. Tôi xin trình bày
một cách khái quát về chứng minh của J.Bollen và cộng sự cho giả thuyết “Tâm trạng
cộng đồng có thể dự đoán được thị trường chứng khoán” trong phần tiếp theo của luận
văn.
2.2.
Dự đoán thị trƣờng chứng khoán dựa trên tâm trạng cộng đồng và
chứng minh của J.Bollen cùng cộng sự
Các tác giả đã nêu lên giả thuyết “Tâm trạng của cộng đồng có thể dự đoán được
giá cả của thị trường chứng khoán”. Để chứng minh giả thuyết đó, các tác giả thực hiện 3
pha chính sau:
Đầu tiên, đánh giá tâm trạng dựa trên các công cụ đánh giá tâm trạng OF và
GPOMS. Các tác giả đưa các tweet lấy được sau khi đã được lọc và xử lý các dấu chấm
câu trong giai đoạn từ 28/2/2008 đến 19/12/2008 vào 2 công cụ đánh giá tâm trạng: (1)
OpinionFinder (OF) đo tâm trạng tích cực và tiêu cực, (2) Google-Profile of Mood States
(GPOMS) đánh giá theo 6 chiều tâm trạng. Đồng thời trích ra các giá trị đóng DJIA theo
thời gian từ trang Yahoo Finance. Đối với công cụ OF, chọn ra các từ tích cực và tiêu cực
mà được đánh dấu là “strong” hoặc “weak” trong bộ từ điển cảm xúc của OF. Với mỗi
tweet, xác định chúng chứa bao nhiêu từ tích cực và tiêu cực. Đối với mỗi lần xuất hiện,
thì tăng điểm số tích cực (tiêu cực) tương ứng lên 1. Sau đó, trong mỗi ngày, tính tỉ số tích
cực/tiêu cực trên các tweet đã thu được trong ngày. Để có thể lấy được ra những chiều
cảm nghĩ khác, các tác giả đã tạo ra công cụ phân tích tâm trạng khác, tên là GPOMS, có
thể đo được các tâm trạng của con người theo 6 chiều khác nhau, đó là Calm, Alert, Sure,
Vital , Kind và Happy. Điểm số của mỗi chiều tâm trạng POMS được xác định là tổng
của các trọng số co-occurrence của mỗi từ trong tweet mà trùng với một từ trong bộ từ
điển POMS.
19
Để có thể so sánh được OF và GPOMS, J.Bollen và cộng sự đã chuẩn hóa chúng
về z-score dựa trên một tâm cục bộ và một độ lệch chuẩn trong một cửa sổ k ngày trước
và sau một ngày cụ thể nào đó. Việc chuẩn hóa này sẽ làm cho các chuỗi thời gian dao
động xung quanh mốc trung bình là 0 và có thể được diễn tả theo độ lệch chuẩn là 1. Tác
giả kiểm tra khả năng của OF và GPOMS trong việc nắm bắt được các khía cạnh khác
nhau của tâm trạng cộng đồng bằng cách áp dụng chúng cho các tweet được đăng tải lên
trong khoảng thời gian 2 tháng từ 5/10/2008 tới 05/12/2008. Giai đoạn này được chọn vì
diễn ra một vài sự kiện văn hóa xã hội lớn mà có thể có những ảnh hưởng quan trọng và
phức tạp tới tâm trạng của cộng đồng, đó là cuộc bầu cử tổng thống Mỹ (04/11/2008) và
Ngày lễ Phục Sinh (27/11/2008). Kết quả tâm trạng theo chuỗi thời gian như trong hình
dưới và được mô phỏng theo chuẩn hóa z-score:
20
Hình 2.1: Kết quả tâm trạng theo chuỗi thời gian trong khoảng thời gian 2 tháng từ
5/10/2008 tới 05/12/2008 theo nghiên cứu của J.Bollen và cộng sự [16]
Hình trên cho thấy OF thành công trong việc xác định cảm xúc của cộng đồng đối
với việc bầu cử Tổng thống vào 04/11/2008 và lễ phục sinh 27/11/2008. Kết quả của
GPOMS cho thấy sự khác biệt của tâm trạng cộng đồng đối với các ngày lễ trên trong
khoảng thời gian 3 ngày xung quanh ngày bầu cử (4/11/2008). Ngày 03/11/2008 đặc
trưng bởi 1 sự đi xuống mạnh của Calm cho thấy sự lo lắng của cộng đồng tăng lên.
Trong khi đó ngày bầu cử thì được đặc trưng bởi sự đảo ngược chiều điểm số của Calm
cho thấy sự lo lắng giảm đi một cách đảng kể trong cộng đồng, cùng với đó là sự tăng lên
đáng kể về điểm số của Vital, Happy cùng Kind. Điều này cho thấy một cộng đồng tràn
đầy năng lượng, hạnh phúc và thân thiện trong ngày bầu cử. Vào ngày 05/11/2008, những
chiều trạng thái POMS tiếp tục cho thấy tâm trạng tích cực của cộng đồng, cụ thể là mức
điểm của Calm, Sure, Vital và Happy vẫn cao. Sau ngày 05/11, tất cả các chiều tâm trạng
tiến dần trở về đường cơ sở. Tâm trạng của cộng đồng đối với ngày Lễ Phục sinh
27/11/08 cũng có sự khác biệt tương ứng giống như trong ngày bầu cử. Vào ngày lễ phục
sinh, điểm nhọn đối với giá trị Happy cho thấy mức độ cao đối với sự hạnh phúc của cộng
đồng. Mặc dù vậy, những chiều trạng thái khác đều không có sự tăng lên trong ngày
27/11. Hơn nữa, giá trị đỉnh của Happy cũng chỉ kéo dài trong 1 ngày, và không thấy có
sự phản ứng đặc biệt nào ngày trước đó.
Để xác định mối quan hệ giữa các chiều trạng thái GPOMS với xu hướng tâm
trạng của OF, tác giả tiếp tục kiểm tra sự tương quan giữa xu hướng thu được từ bộ từ
điển của OF đối với 6 chiều tâm trạng của GPOMS sử dụng hồi quy đa biến. Kết quả thu
được như sau:
- Xem thêm -