Tài liệu Xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter

  • Số trang: 65 |
  • Loại file: PDF |
  • Lượt xem: 149 |
  • Lượt tải: 0

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------- NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------- NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. TỪ MINH PHƯƠNG HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu và tìm hiểu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tác giả luận văn Nguyễn Nam Trung ii MỤC LỤC LỜI CAM ĐOAN ........................................................................................................i MỤC LỤC.................................................................................................................. ii DANH MỤC BẢNG..................................................................................................iv DANH MỤC HÌNH VẼ..............................................................................................v MỞ ĐẦU.....................................................................................................................1 CHƯƠNG 1 - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER ...............................................................................................................3 1.1 Giới thiệu về mạng xã hội Twitter .............................................................3 1.2 Các đặc trưng thông tin của Twitter ..........................................................4 1.3 Các vấn đề của trích xuất sự kiện từ Twitter .............................................8 1.3.1 Xác định vấn đề ............................................................................8 1.3.2 Những khó khăn khi trích xuất thông tin từ Twitter...................10 1.3.3 Ưu điểm của việc trích xuất thông tin từ Twitter .......................11 1.4 Những hướng tiếp cận trích xuất sự kiện từ Twitter ............................... 12 1.4.1 Cách tiếp cận miền tri thức cụ thể và với miền tri thức mở .......12 1.4.2 Phương pháp tiếp cận không giám sát, phương pháp tiếp cận giám sát và phương pháp tiếp cận bán giám sát ..........................................14 1.5 Các vấn đề về phân loại sự kiện từ Twitter .............................................15 1.6 Kết luận chương.......................................................................................17 CHƯƠNG 2 - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER ......18 2.1 Trích xuất thông tin sự kiện từ nội dung tweet ........................................18 2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) bằng mô hình trường ngẫu nhiên có điều kiện ......................................................................18 iii 2.1.2 Kỹ thuật nhận dạng thực thể có tên trong văn bản (NER) .........25 2.1.3 Trích xuất mối quan hệ ............................................................... 30 2.1.4 Trích xuất thời gian ....................................................................34 2.2 Phân lớp sự kiện sử dụng phương pháp Naive Bayes ............................. 35 2.2.1 Tiền xử lý ....................................................................................36 2.2.2 Phân loại tweet sử dụng phân phối Naive Bayes........................40 2.3 Kết luận chương.......................................................................................42 CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ ......................................................43 3.1 Thu thập dữ liệu thử nghiệm ...................................................................43 3.2 Thực nghiệm trích xuất sự kiện từ tweet .................................................46 3.3 Thực nghiệm phương pháp phân lớp .......................................................48 3.3.1 Tiền xử lý dữ liệu .......................................................................49 3.3.2 Thực nghiệm phân lớp ................................................................ 50 3.3.3 Đánh giá kết quả thực nghiệm phân lớp .....................................51 3.3.4 Kết quả thực nghiệm phân lớp....................................................52 3.4 Kết luận chương.......................................................................................55 KẾT LUẬN VÀ KIẾN NGHỊ ..................................................................................56 TÀI LIỆU THAM KHẢO ........................................................................................57 iv DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Thông tin sự kiện trích xuất theo thành phần 8 1.2 Ví dụ tính hỗn tạp của nội dung Tweet 10 2.1 Ví dụ các loại thực thể có tên riêng 26 2.2 Đánh giá ưu nhược điểm của các phương pháp trích xuất mối quan hệ 33 2.3 Biểu thức thời gian 35 3.1 Danh sách tài khoản lấy dữ liệu theo chủ đề 44 3.2 Phân bố các lớp trong tập dữ liệu 46 3.3 Phân phối tập huấn luyện và đánh giá 49 v DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 3.1 3.2 3.3 3.4 3.5 3.6 Tên hình vẽ Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó Tweet có chứa hashtag trong nội dung Người dùng Twitter mention một người Hành động reply nếu ký hiệu mention được sử dụng ở đầu tweet Tweet có nội dung thông báo ra mắt sản phẩm Tweet có nội dung ra mắt film Tổng hợp hướng nghiên cứu trích xuất dữ liệu từ Twitter hiện nay Mô hình bài toán phân loại sự kiện trong nội dung tweet Danh sách 8 thành phần cơ bản trong câu Danh sách nhãn của từ điển Penn TreeBank Sơ đồ cửa sổ trượt lựa chọn đặc trưng trong CRF Ví dụ Nhận dạng thực thể có tên Ví dụ ký pháp nhãn IOB Mô hình tổng quát Labeled Latent Dirichlet Allocation Ví dụ biểu thức chủ vị tân Từ điển mối quan hệ Freebase Biểu thức thời gian được gắn nhãn IOB Thuật toán phân lớp Multinomial Naive Bayes (huấn luyện và kiểm thử) Cấu trúc dữ liệu của một tweet dạng JSON Tổ chức dữ liệu huấn luyện Tổ chức dữ liệu huấn luyện Xác định thành phần ngữ nghĩa trong câu Mô hình phân loại tweet bằng thuật toán Naive Bayes Kết quả đánh giá phương pháp Trang 4 5 6 7 8 8 12 16 19 19 23 26 28 30 31 32 35 41 43 45 45 47 49 52 1 MỞ ĐẦU Ngày nay, mạng xã hội ngày càng phát triển và đi sâu vào cuộc sống của con người. Có thể nói, đây là mô hình mới nhất trong quá trình phát triển giao tiếp trên mạng, đơn giản hoá các phương thức tương tác và kết nối giữa con người với nhau. Mạng xã hội như Twitter, Facebook, Sina Weibo đã trở thành nguồn thông tin thời gian thực và chứa một lượng lớn nội dung người dùng tự tạo. Sự phát triển nhanh chóng của những nền tảng đa phương tiện dẫn tới việc dữ liệu ngày càng tăng đồng thời giữ vai trò quan trọng trong việc chia sẻ và khuếch tán thông tin. Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, trong đó một trong mạng xã hội phát triển nhanh nhất và thành công nhất mặc dù có mặt khá muộn, đó là Twitter. Các chủ đề trên Twitter trải dài trên nhiều lĩnh vực từ vấn đề cá nhân cho đến những sự kiện quan trọng trong xã hội. Những tin nhắn này thậm chí còn có độ lan truyền và bao phủ nhanh hơn nhiều so với phương tiện truyền thông truyền thống. Việc trích xuất được thông tin hữu ích này có thể giúp ích trong nhiều lĩnh vực như xây dựng những hệ thống nghiên cứu phân tích thông tin trước và sau sự kiện hay các ứng dụng thực tế như xác định thảm họa tự nhiên, dự đoán sự kiện. Mặt khác do số lượng tweet được chia sẻ hằng ngày là cực lớn thì vấn đề gặp phải chính là sự quá tải về mặt thông tin. Do vậy những thông tin sự kiện này cần được phân loại theo các chủ đề, hướng quan tâm phù hợp với những đối tượng khác nhau. Chính vì vậy, việc đưa ra một hệ thống cung cấp thông tin về các sự kiện quan trọng đã, đang và sắp diễn ra từ những tweet hữu dụng đặt ra một hướng nghiên cứu khả thi, quan trọng và có ý nghĩa thực tiễn. Mục tiêu của đề tài luận văn này của em sẽ tập trung vào việc xây dựng hệ thống trích trọn sự kiện quan trọng với số đông người sử dụng theo mốc thời gian từ mạng xã hội Twitter thể hiện qua một số đặc trưng như thời gian, địa điểm, người liên quan sử dụng các tweet tiếng Anh. Nghiên cứu này có thể hỗ trợ phóng viên chuyên nghiệp tận dụng mạng xã hội trở thành nguồn thông tin hữu ích trước vấn đề quá tải thông tin. 2 Nội dung của luận văn được bố cục thành 3 chương như sau:  Chương 1 – TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Giới thiệu chương: Trình bày tổng quan phương pháp trích xuất sự kiện từ Twitter, những ưu điểm và khó khăn gặp phải khi thực hiện. Trình bày về mô hình chung của bài toán phân loại sự kiện.  Chương 2 – TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan về các vấn đề liên quan đến tiền xử lý dữ liệu, trích xuất sự kiện và phương pháp phân lớp sự kiện cho các tweet sử dụng thuật toán Naive Bayes  Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ Giới thiệu chương: Sử dụng các thư viện có sẵn do Twitter cung cấp, thực hiện xây dựng bộ dữ liệu từ dữ liệu thực tế hiện có của Twitter cho một số lượng người dùng, sử dụng kỹ thuật trích xuất và phân lớp đã đề xuất ở chương 2 để đưa ra kết quả thông tin phân lớp của sự kiện trong nội dung tweet. Đánh giá kết quả so với các phương pháp phân lớp khác. 3 CHƯƠNG 1 - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Hiện nay mạng xã hội đã thu hút hàng triệu người sử dụng và dần trở thành một nguồn cung cấp thông tin về mọi vấn đề. Đặc biệt trong những năm gần đây Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến. Mỗi ngày trên Twitter có khoảng 500 triệu tin nhắn hay còn gọi là các tweet được người dùng chia sẻ. Rõ ràng Twitter đã trở thành một phương tiện giao tiếp quan trọng. Với một lượng thông tin được trao đổi khổng lồ như vậy thì việc xử lý những dữ liệu này và trích xuất ra những thông tin hữu ích thực sự rất cần thiết. Luận văn này sẽ sẽ tập trung vào việc xây dựng hệ thống trích xuất và phân loại sự kiện từ mạng xã hội Twitter giúp giải quyết vấn đề quá tải về mặt thông tin. 1.1 Giới thiệu về mạng xã hội Twitter Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng micro blog. Những mẩu tweet được giới hạn tối đa 140 ký tự và được lan truyền nhanh chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng rãi cho mọi người. Thành lập từ năm 2006, Twitter đã trở thành một hiện tượng phổ biến toàn cầu, những tweet có thể chỉ là dòng tin cá nhân cho đến những cập nhật mang tính thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thông. Theo thống kê 2018, Twitter có khoảng hơn 335 triệu người sử dụng hằng tháng và trung bình mỗi ngày có 500 triệu tweet được đăng mới , các con số này vẫn không ngừng tăng lên, mỗi năm số lượng người dùng mới đăng ký sử dụng dịch vụ tăng lên khoảng 9% [1]. Việc giới hạn về độ dài tin nhắn là 140 ký tự khiến tweet có đặc điểm khá giống với một bản tin SMS. Do vậy tweet trở thành một hình thức tốc ký đáng chú ý đối với 4 cộng đồng mạng và đã được sử dụng rộng rãi thông qua việc sử dụng các bản tin SMS từ điện thoại của họ. Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones), việc cho phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ dàng, việc cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn giản hơn. Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API) cho phép nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép để lấy và cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến Twitter. Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter và thông tin mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người sử dụng 1.2 Các đặc trưng thông tin của Twitter Người dùng Twitter cập nhật các tin nhắn ngắn bị giới hạn trong 140 ký tự được gọi là các 𝑡𝑤𝑒𝑒𝑡, và thuật ngữ để chỉ việc đăng các tin nhắn đó gọi là 𝑡𝑤𝑒𝑒𝑡𝑖𝑛𝑔. Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng 𝐴 theo dõi người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B nhưng ngược lại, B không thấy tweet của A. Mô tả cho mối quan hệ người dùng này được thể hiện trong hình 2 A CA B CB Hình 1.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng Twitter với nhau gồm có 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 và 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒, 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 là những người đang theo dõi một người dùng nào đó, và 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒 là chỉ những người đang được người dùng theo dõi. Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 của B, và B là 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒 của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới được cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các tweet 5 hiển thị trong danh sách này chính là những tweet được đăng bởi các followee. Trong ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ được hiển thị trong danh sách các tweet của A, nhưng nếu B không follow A thì những tweet của A sẽ không hiển thị trong danh sách tweet của B, B phải lựa chọn ‘follow’ A để có thể thấy các tweet này trong danh sách tweet của mình hoặc truy cập vào trang cá nhân của A để thấy được tất cả các tweet mà A đã đăng. Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản tin văn bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích trong bản tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng bổ sung thêm những thông tin hữu ích trong tweet của mình là hashtag, mention và retweet. - Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt sau dấu #. Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều thông tin tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag ‘#vietnam sẽ có ý nghĩa tweet đó mang thông tin về “vietnam” Hình 1.2 Tweet có chứa hashtag trong nội dung 6 Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận về một chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm. - Mention và reply (đề cập và trả lời): Đây là hai đặc trưng quan trọng mà Twitter cung cấp cho người dùng, đề cập và trả lời một người dùng nào đó trong nội dung của một tweet. Giống như hashtag, các đặc trưng này cũng là một quy ước trong thế giới mạng trước khi trở thành một đặc trưng của Twitter[2]. Mention là cách mà một tweet tạo ra sự chú ý đối với một người dùng Twitter nào đó trong các kết nối của họ, thực hiện đơn giản bằng cách sử dụng ký hiệu ‘@’ trước tên của người dùng nào đó trong tweet của mình. Ví dụ, Alice muốn mention Bob trong tweet của mình, Alice sẽ viết ‘@bob’. Bên cạnh chức năng mention, Twitter còn cung cấp chức năng tương tự là reply, việc sử dụng tương tự mention bằng cách dùng ký hiệu ‘@’ trước tên người dùng, nhưng ‘@username’ sẽ được đặt ở đầu tiên của tweet, ví dụ ‘@bob Do we have a match today?’ trong tweet của Alice. Mention và reply sẽ được Twitter hiển thị khác nhau trong danh sách tweet của những người đang theo dõi Alice và Bob. Hình 1.3 Người dùng Twitter mention một người dùng khác trong tweet của mình 7 Hình 1.4 Hành động reply nếu ký hiệu mention được sử dụng ở đầu tweet - Retweet: Một chức năng không thể thiếu giúp cho mạng xã hội Twitter phát triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter có thể đăng lại các bản tin đã được đăng bởi người khác, và tweet đó sẽ được hiển thị trong danh sách các tweet của người đang theo dõi họ. Mỗi retweet sẽ có kèm thêm thông tin về người đã đăng tweet đó. Người dùng bất kỳ khi truy cập danh sách các tweet của một người nào đó cũng có thể biết một tweet đã được retweet bao nhiêu lần và bởi những ai. - Favorite: bên cạnh việc retweet những tweet mà người dùng cảm thấy hứng thú và quan tâm, những tweet này sẽ được hiển thị trong danh sách các tweet của người dùng đó, và cũng hiển thị đối với những người dùng đang follow, chức năng favorite cũng thể hiện sự quan tâm của người dùng đối với một thông tin nào đó thông qua việc lựa chọn một tweet là favorite hay không. Đây cũng là một cách để giúp người dùng đánh dấu và lưu lại một bản tin, hình ảnh hay liên kết mà người dùng đó quan tâm được đề cập trong tweet. Khác với retweet, hành động favorite không được chia sẻ công khai với những người dùng Twitter khác, kể cả những người đang theo dõi. 8 1.3 Các vấn đề của trích xuất sự kiện từ Twitter 1.3.1 Xác định vấn đề Nói chung, một sự kiện đề cập đến một sự kiện trong thế giới thực xảy ra tại một thời gian và địa điểm cụ thể [4], [5]. Nó luôn luôn liên quan đến hành động và người tham gia nhất định, và do đó có thể được mô tả chính xác và chính xác bằng cách sử dụng các yếu tố ngữ nghĩa bao gồm hành động (còn gọi là hành động kích hoạt), người tham gia (ví dụ diễn viên và diễn viên nếu có), xuất hiện thời gian và địa điểm. Một sự kiện e có thể biểu diễn một cách hình thức dưới dạng một bộ gồm n phần tử e = (se1,se2,...sen) trong đó sei (i = 1,2, ..., n) là phần tử ngữ nghĩa thứ i của e. Lưu ý rằng các loại sự kiện khác nhau có thể có biểu diễn ngữ nghĩa khác nhau. Ví dụ, một sự kiện ra mắt bộ film mới có thể được mô tả bởi một bốn thành phần (tiêu đề film, nghệ sĩ, ngày, địa điểm); trong khi một trận động đất có thể được biểu diễn tốt hơn bằng cách sử dụng bộ 5 thành phần (thời gian, tâm chấn, tiêu điểm, cường độ, số người chết). Hình 1.5 Tweet có nội dung thông báo ra mắt sản phẩm Hình 1.6 Tweet có nội dung ra mắt film Bảng 1.1 Thông tin sự kiện trích xuất theo thành phần Entity Event Phase Date Type Mi8 announcement 31 May ProductLaunch Antman and watch 6 July MovieRelease the Wasp 9 Trong các tài liệu văn bản như các bài báo hoặc tweet, những chi tiết quan trọng này như các yếu tố ngữ nghĩa thường được trình bày một cách không có cấu trúc. Việc nghiên cứu khai thác sự kiện theo định nghĩa truyền thống là quy trình tự động xác định sự kiện bằng văn bản và những thông tin phái sinh liên quan. Một cách lý tưởng đây là việc xác định những người đã làm những gì cho ai, khi nào, bằng cách nào (hay công cụ gì), ở đâu và có thể là lý do tại sao [6]. Rõ ràng, trích xuất sự kiện là việc cấu trúc hóa văn bản. Tuy nhiên, một số đặc trưng mới của Twitter làm cho định nghĩa cổ điển này không áp dụng đầy đủ cho việc trích xuất sự kiện từ Twitter. Đặc biệt như đã đề cập ở trên hầu hết các tin nhắn do người dùng tạo ra hàng ngày trên Twitter không liên quan đến bất kỳ sự kiện trong thế giới thực nào. Điều này dẫn đến việc lọc các tweet không chứa các sự kiện là điều tối quan trọng trong việc trích xuất sự kiện trên Twitter. Do đó với một tweet, định nghĩa việc trích xuất sự kiện trong Twitter bao gồm ba nhiệm vụ phụ sau đây: a. Xác định sự kiện trong tin nhắn Là quá trình xác định liệu các tweet đầu vào có mô tả một số sự kiện trong thế giới thực có đáng được quan tâm hay không. Một tweet liên quan đến sự kiện cũng được gọi là tin nhắn chứa sự kiện. b. Trích xuất phần tử ngữ nghĩa Trích xuất phần tử ngữ nghĩa nhằm mục đích khai thác các phần tử ngữ nghĩa khác nhau có trong một tin nhắn chứa sự kiện. c. Phân loại sự kiện Phân loại sự kiện là quá trình xác định loại sự kiện, ví dụ như sự kiện được mô tả trong tin nhắn đang xem xét thuộc lĩnh vực thể thao, âm nhạc hoặc thiên tai. Lưu ý rằng các nhiệm vụ thứ ba được liệt kê ở trên đôi khi là tùy chọn. Cụ thể, nếu chỉ xem xét một danh mục sự kiện duy nhất thì có thể bỏ qua việc phân loại sự kiện khi trích xuất chúng từ Twitter. Việc phân loại sự kiện như vậy như vậy thường được gọi là trích xuất sự kiện cụ thể hoặc được nhắm mục tiêu theo miền tri thức xác định. Cụ thể trong luận văn này trình bày hướng nghiên cứu đã xác định rõ miền tri thức cụ thể về chính trị, công nghệ, thể thao. 10 1.3.2 Những khó khăn khi trích xuất thông tin từ Twitter So với việc trích xuất sự kiện truyền thống áp dụng với các bài báo hoặc tài liệu y học thì việc trích xuất sự kiện từ Twitter đã mở ra những thách thức mới cũng như cơ hội mới.Với những đặc điểm riêng biệt Twitter đã mang lại những thách thức mới cho cho việc nghiên cứu trích xuất sự kiện. Kết quả là nhiều phương pháp tiếp cận được đề xuất cho trích xuất sự kiện truyền thông truyền thống không được áp dụng trực tiếp cho Twitter. Thứ nhất là quy mô các thông điệp gửi đến được tạo ra bởi người dùng Twitter là rất lớn do đó thách thức khả năng mở rộng và hiệu quả của các phương pháp truyền thống. Thứ hai, hầu hết các thông điệp do người dùng soạn thảo này có xu hướng đề cập đến các hoạt động trong cuộc sống hàng ngày của họ (chẳng hạn như những gì họ ăn cho bữa trưa) [8]. Những tweet vô nghĩa này làm cho việc xác định sự kiện trở thành một việc thiết yếu cần phải làm đầu tiên trong quá trình trích xuất sự kiện từ Twitter. Hơn nữa, nội dung dường như có liên quan có ngữ cảnh rõ ràng có thể không thực sự liên quan đến sự kiện thế giới thực [9], khiến cho việc xác định sự kiện trong nội dung tweet trở thành một nhiệm vụ không đơn giản. Ví dụ trong nghiên cứu của T. Sakaki, M. Okazaki, Y. Matsuo xác định các sự kiện động đất trên Twitter bằng cách theo dõi các trình kích hoạt từ khóa (ví dụ: "earthquake" hoặc "shaking"), nhưng cũng có thể tìm thấy các tweet không liên quan như "I attended an Earthquake Conference" hoặc "My boss is shaking hands with vice president". Một đặc điểm vô cùng quan trọng là những tin nhắn do người dùng chia sẻ Twitter được viết theo phong cách không hình thức. Các tweet này chứa nhiều lỗi ngữ pháp, chẳng hạn như kéo dài các từ (ví dụ: “Wooooow”) hoặc sử dụng các từ viết tắt, tiếng lóng (ví dụ: tomorrow- tmr). 11 Bảng 1.2 Ví dụ tính hỗn tạp của nội dung Tweet 1 The Hobbit has FINALLY started filming! I cannot wait! 2 Yess! Yess! Its official Nintendo announced today that they Will release the Nintendo 3DS in north America march 27 for $250 3 Government confirms blast n nuclear plants n japan...don’t knw wht s gona happen nw... Điều này thường dẫn đến sự thiếu vắng của một số thành phần quan trọng các yếu tố như thời gian hoặc người tham gia sự kiện và làm cho việc trích xuất sự kiện từ Twitter thêm phần khó khăn. 1.3.3 Ưu điểm của việc trích xuất thông tin từ Twitter Tính chất thời gian thực và việc áp dụng rộng rãi Twitter giúp cho việc phát hiện sự kiện một cách kịp thời dễ hàng hơn. Các tweet đa số có nội dung ngắn và dễ tập trung. Theo nghiên cứu của Zhao và cộng sự[10] là một tweet thường có xu hướng đề cập về một chủ đề duy nhất. Trong khi đó Ritter và cộng sự [8] đã tuyên bố trong nghiên cứu của họ (1) Bản chất ngắn gọn và độc lập của tweets thể hiện qua cách viết rất đơn giản và cấu trúc thực dụng đồng thời chúng cũng tạo ra các vấn đề vẫn đang thách thức các hệ thống xử lý ngôn ngữ tự nhiên tiên tiến nhất. Tweet thường chứa thông tin xã hội phong phú và thuộc tính thời gian rất hữu ích cho việc trích xuất sự kiện. Ví dụ: [11] đã dự đoán vị trí của một tweet với mạng của tác giả. (2) Khối lượng tweet cũng lớn hơn nhiều so với khối lượng tin tức chính thống, do đó việc khám phá thông tin có thể được khai thác dễ dàng hơn. Cuối cùng, các tính năng của Twitter như hashtag, tweet lại, trả lời và đề cập cũng có thể đóng góp vào trích xuất sự kiện [12], ví dụ: thẻ bắt đầu bằng # thường bao gồm từ khóa cho các chủ đề trò chuyện phổ biến (chẳng hạn như “#earthquake”). 12 1.4 Những hướng tiếp cận trích xuất sự kiện từ Twitter Trong phần này, em trình bày tổng quan về các phương pháp tiếp cận hiện có được đề xuất cho việc trích xuất sự kiện từ Twitter. Hình 2.3 minh họa sự phân loại các kỹ thuật này theo các loại sự kiện được nhắm mục tiêu và sự giám sát của con người liên quan đến quá trình xác định sự kiện. Cụ thể, tùy thuộc vào loại sự kiện được chỉ định trước, các kỹ thuật này có thể được nhóm thành các phương pháp tiếp cận theo hướng miền tri trức mở và miền tri thức cụ thể. Ngoài ra, theo liệu dữ liệu đào tạo được gắn nhãn theo cách thủ công có được sử dụng trong quá trình xác định nội dung tweet có chứa sự kiện hay không, các kỹ thuật hiện có được phân loại thành các kỹ thuật không giám sát, giám sát và bán giám sát. Hình 1.7 Tổng hợp hướng nghiên cứu trích xuất dữ liệu từ Twitter hiện nay 1.4.1 Cách tiếp cận miền tri thức cụ thể và với miền tri thức mở Tùy thuộc vào việc loại sự kiện được nhắm mục tiêu có được chỉ định trước hay không, chúng ta có thể phân chia các phương pháp tiếp cận hiện có thành hai loại là phương pháp trích xuất sự kiện theo miền tri thức mở và phương pháp trích xuất sự kiện theo miền xác định. 1.4.1.1 Phương pháp tiếp cận miền tri thức mở Việc thiếu kiến thức cho trước về sự kiện và thao tác trên tập dữ liệu có độ nhiễu cao làm cho việc trích xuất sự kiện trở thành một nhiệm vụ khó khăn. Trong nhiều trường hợp miền mở nghĩa là kết hợp nhiều miền tri thức cụ thể ví dụ như trong nghiên cứu của D. Metzler, C. Cai, and E. Hovy đã trích xuất danh sách 50 loại sự 13 kiện. Do đó định danh của các sự kiện miền tri thức mở có tính tổng quát hơn nhiều nhưng cũng sẽ khó nhận ra hơn. Các tài nguyên bên ngoài thường được sử dụng trong cách tiếp cận này chẳng hạn như từ điển các thuật ngữ sự kiện được thu thập từ WordNet [8], thông tin về bản thể học về thế giới (ví dụ: danh sách tên lãnh đạo của một quốc gia nhất định, danh sách các công ty,…). Vì các loại sự kiện không được chỉ định nên mục tiêu của trích xuất sự kiện là lấy được các yếu tố sự kiện chính. Trong nghiên cứu của tác giả Alan Ritter và cộng sự đã mô hình hóa một sự kiện miền tri thức mở thông qua bộ dữ liệu có bốn thuộc tính bao gồm một thực thể bao gồm có tên, cụm từ liên quan sự kiện, thời gian diễn ra và loại sự kiện. 1.4.1.2 Phương pháp tiếp cận miền tri thức xác định Gần đây nghiên cứu về trích xuất sự kiện theo loại mục tiêu cụ thể ví dụ như tình trạng bất ổn dân sự, thiên tai hoặc bệnh tật đang nhận được sự chú ý đặc biệt đối với các nhà nghiên cứu. Đối với sự kiện miền tri thức cụ thể, chúng ta cần có tiền tri thức về sự kiện đích. Như đã thảo luận ở phần trước sự kiện được mô hình hóa như là một sự kết hợp của hành động gây ra sự kiện (trigger), người tham gia, thời gian, địa điểm và các thuộc tính liên quan khác. Việc chọn từ khóa cụ thể sẽ dễ dàng hơn đối với miền tri thức xác định. Trong nghiên cứu của Sakaki và cộng sự [2] đã sử dụng "earthquake" và "shaking" làm từ khóa để phát hiện động đất. Nghiên cứu của Compton và cộng sự. [18], [19] cũng đã xác định thủ công một tập hợp các từ khóa có liên quan chặt chẽ đến tình trạng bất ổn dân sự. Muthiah và cộng sự trong nghiên cứu của mình cũng [23] đã lọc các tài liệu đầu vào bằng một tập hợp các cụm từ khóa cho biết các cuộc biểu tình được lên kế hoạch. Theo nghĩa rộng, hai hướng tiếp cận này đều này là trích xuất thông tin dựa trên mẫu vì các phần tử sự kiện chủ yếu là các từ khóa theo chủ đề và các thực thể được đặt tên. Tuy nhiên, phương pháp tiếp cận tên miền mở tận dụng các đặc điểm chung để phù hợp với các sự kiện Twitter, trong khi các phương pháp tiếp cận miền cụ thể sử dụng các từ khóa để phân biệt các sự kiện có liên quan của một loại được nhắm mục tiêu tạo nên sự khác biệt.
- Xem thêm -