Các đối tượng trong lĩnh vực tương tác người máy,con người thị giác,thính giác,xúc giác,bộ nhớ của người cảm giác;máy tính tương tác người máy sử dụng tiếng nói;phát triển ứng dụng tiếng nói các phương pháp nhận dạng và tổng hợp tiếng nói chương trình trợ giúp lập trình pascal
MAI CHÍ DŨNG
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------------------------
Mai Chí Dũng
CÔNG NGHỆ THÔNG TIN
Tương tác người máy sử dụng tiếng nói
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
2002
Hà nội - 2002
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------
Mai Chí Dũng
TƯƠNG TÁC NGƯỜI-MÁY SỬ DỤNG TIẾNG NÓI
Chuyên ngành: Công nghệ Thông tin
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH VĂN LOAN
Hà nội - 2004
Tương tác người-máy dựa trên tiếng nói
Lời nói đầu ...............................................................................................................5
Chương I. Tổng quan về tương tác người máy ....................................................6
1. Giới thiệu .............................................................................................................6
1.1 Các đối tượng trong lĩnh vực tương tác người máy ........................................6
1.2 Lý thuyết và tương tác người-máy ..................................................................7
2. Con người .............................................................................................................7
2.1 Giới thiệu .........................................................................................................7
2.2 Các kênh vào ra ...............................................................................................9
2.2.1 Thị giác ...................................................................................................10
2.2.2 Thính giác ...............................................................................................10
2.2.3 Xúc giác ..................................................................................................11
2.3 Bộ nhớ của người ..........................................................................................11
2.3.1 Bộ nhớ cảm giác .....................................................................................12
2.3.2 Bộ nhớ ngắn hạn .....................................................................................12
2.3.3 Bộ nhớ dài hạn ........................................................................................12
3. Máy tính .............................................................................................................13
3.1 Hệ thống máy tính .........................................................................................13
3.2 Đầu vào lô và đầu vào tương tác ...................................................................13
3.3 Các thiết bị nhập văn bản ..............................................................................14
3.3.1 Bàn phím.................................................................................................14
3.3.2 Các thiết bị nhập văn bản khác ...............................................................14
3.3.3 Các thiết bị định vị và trỏ .......................................................................16
3.4 Định vị trong không gian ba chiều ................................................................17
4. Tương tác ...........................................................................................................17
4.1 Giới thiệu .......................................................................................................17
4.2 Các mô hình tương tác ..................................................................................17
4.3 Mô hình thực thi – đánh giá ..........................................................................18
4.4 Framework tương tác ....................................................................................19
4.5 Công thái học (ergonomics) ..........................................................................20
4.5.1 Tổ chức điều khiển và hiển thị ...............................................................21
4.5.2. Môi trường vật lý của tương tác ............................................................21
4.5.3. Các vấn đề về sức khoẻ .........................................................................22
4.5.4 Sử dụng màu ...........................................................................................22
4.6 Kiểu tương tác ...............................................................................................23
1
Tương tác người-máy dựa trên tiếng nói
Chương II. Tương tác người-máy sử dụng tiếng nói .........................................24
1. Giới thiệu ...........................................................................................................24
2. Tương tác người – máy dựa trên tiếng nói ......................................................24
2.1 Các công nghệ ứng dụng tiếng nói ................................................................25
2.1.1 Các mức xử lý tiếng nói..........................................................................25
2.1.2 Các công nghệ nhận dạng tiếng nói và nhận dạng người nói .................26
2.1.3 Các công nghệ tổng hợp tiếng nói ..........................................................30
2.2 Các dạng ứng dụng của tiếng nói ..................................................................31
2.3 Thiết kế giao diện tiếng nói ...........................................................................32
2.3.1 Hội thoại dựa trên tiếng nói ....................................................................33
2.3.2 Các kỹ thuật đàm thoại ...........................................................................35
2.3.3 Xử lý lỗi ..................................................................................................36
2.3.4 Xác nhận .................................................................................................38
2.3.5 Hướng dẫn, trợ giúp và phản hồi ............................................................39
2.3.6 Các lệnh chung .......................................................................................40
2.3.7 Các loại âm thanh khác ...........................................................................40
3. Phát triển ứng dụng tiếng nói ..........................................................................42
3.1 Các thành phần của hệ thống tiếng nói .........................................................42
3.1.1 Các thành phần nhận dạng tiếng nói .......................................................43
3.1.2 Các thành phần dịch tiếng nói ................................................................44
3.1.3 Các thành phần quản lý hội thoại ...........................................................45
3.1.4 Thành phần sinh đầu ra ...........................................................................45
3.1.5 Các thành phần tổng hợp tiếng nói .........................................................47
3.1.6 Các thành phần khác ...............................................................................47
3.2 Quản lý hội thoại trong ứng dụng tiếng nói ..................................................48
3.3.1 Các chiến lược quản lý hội thoại và tính chủ động ................................49
3.3.2 Các mô hình điều khiển hội thoại ...........................................................51
3.3.3 Quản lý hội thoại trong các ứng dụng tiếng nói .....................................53
Chương III. Các phương pháp nhận dạng và tổng hợp tiếng nói ....................54
1. Nhận dạng tiếng nói ..........................................................................................54
1.1 Mô hình Markov ẩn. ......................................................................................54
1.1.1 Khái niệm................................................................................................54
1.1.2 Các bài toán cơ bản của mô hình Markov ẩn. ........................................56
1.1.3 Nhận dạng sử dụng mô hình Markov ẩn ................................................57
1.2 Các thuật toán trong mô hình Markov ẩn ......................................................58
1.2.1 Nhận dạng từ rời rạc. ..............................................................................59
2
Tương tác người-máy dựa trên tiếng nói
1.2.2 Tính toán tham số theo thuật toán Baum-Welch. ...................................62
1.2.3 Nhận dạng và giải thuật Viterbi. .............................................................64
2. Nhận dạng tiếng nói sử dụng bộ công cụ HTK ..............................................66
2.1 Khái quát .......................................................................................................66
2.2 Kiến trúc phần mềm HTK .............................................................................66
2.3 Các thuộc tính chung của một công cụ HTK ................................................68
2.4 Bộ công cụ (Toolkit) .....................................................................................69
2.4.1 Các công cụ cho bước chuẩn bị dữ liệu. .................................................69
2.4.2 Các công cụ đào tạo. ...............................................................................70
2.4.3 Các công cụ nhận dạng. ..........................................................................71
2.4.4 Công cụ phân tích. ..................................................................................71
2.5 Các phương pháp đào tạo mô hình Markov trong HTK ...............................72
2.5.1 Khởi tạo sử dụng HInit. ..........................................................................72
2.5.2 Khởi tạo bằng công cụ HCompV ...........................................................76
2.5.3 Tính toán các mô hình rời rạc sử dụng HRest ........................................76
3. Tổng hợp tiếng nói ............................................................................................78
3.1 Cấu trúc chung...............................................................................................78
3.1.1 Khối xử lí ngôn ngữ tự nhiên .................................................................79
3.1.2 Khối phân tích văn bản ...........................................................................79
3.1.3 Phiên âm tự động ....................................................................................79
3.1.4 Tạo ngữ điệu ...........................................................................................80
3.2 Khối xử lí tín hiệu số .....................................................................................80
3.3 Một số phương pháp tổng hợp tiếng nói .......................................................81
3.3.1 Các phương pháp tổng hợp bằng phương pháp nối ................................81
3.3.2 Các phương pháp tổng hợp dựa trên mô hình ........................................82
Chương IV. Chương trình trợ giúp lập trình Pascal .........................................86
1. Mở đầu ...............................................................................................................86
2. Thiết kế hệ thống ...............................................................................................86
2.1 Một số đặc điểm của pascal...........................................................................86
2.2 Sơ lược về hệ thống .......................................................................................87
2.3 Module tổng hợp tiếng nói ............................................................................87
2.3.1 Tổng hợp tiếng Việt ................................................................................87
2.3.2 Tổng hợp tiếng Anh ................................................................................88
2.4 Module nhận dạng .........................................................................................89
2.4.1 Nhận dạng tiếng Việt ..............................................................................89
3
Tương tác người-máy dựa trên tiếng nói
2.4.2 Nhận dạng tiếng Anh ..............................................................................96
3. Các kết quả đạt được ..................................................................................... 102
3.1 Các kết quả đạt được .................................................................................. 102
3.2 Các vấn đề còn phải được giải quyết và hướng phát triển ......................... 106
4. Kết luận ........................................................................................................... 107
Kết quả và bàn luận ........................................................................................... 108
Tài liệu tham khảo ............................................................................................. 109
4
Tương tác người-máy dựa trên tiếng nói
Lời nói đầu
Mặc dù công nghệ phần mềm ở Việt nam đã có những bước phát triển rõ rệt
và các lĩnh vực liên quan đến công nghệ phần mềm hiện tại đã được chú ý đến
nhiều ở nước ta. Tuy nhiên, tương tác người-máy hiện tại vẫn là một lĩnh vực chưa
thu hút được nhiều nghiên cứu cũng như chưa được tìm hiểu một cách nghiêm túc.
Một lĩnh vực khác hiện tại vẫn còn nhiều vấn đề cần phải nghiên cứu đó là lĩnh
vực xử lý ngôn ngữ tự nhiên. Đây vẫn là lĩnh vực mở với nhiều vấn đề còn bỏ ngỏ.
Xử lý tiếng nói và đặc biệt là xử lý tiếng nói bằng tiếng Việt vẫn còn là lĩnh vực ít
được chú ý. Vì thế, đồ án “Tương tác người-máy dựa trên tiếng nói” là bước đầu
tìm hiểu một số kỹ thuật tương tác người-máy và các kết quả nghiên cứu hiện tại
trong lĩnh vực xử lý tiếng nói ở nước ta.
Đồ án gồm các phần chính sau:
• Chương I. Tổng quan về tương tác người máy. Phần này giới
thiệu các khái niệm, các đối tượng liên quan đến tương tác người
máy.
• Chương II. Tương tác người máy dựa trên tiếng nói. Phần này
giới thiệu các điểm riêng khi sử dụng tiếng nói trong tương tác
người máy. Do đặc thù của tiếng nói, nên nêu áp dụng nó trong
tương tác người máy sẽ nảy sinh ra các vấn đề mới và do đó sẽ
cần các phương pháp xử lý khác so với các kỹ thuật chung trong
tương tác người máy
• Chương III. Các kỹ thuật tổng hợp tiếng nói và nhận dạng tiếng
nói.
• Chương IV. Chương trình trợ giúp lập trình Pascal. Phần này
trình bày một ứng dụng demo cho các kỹ thuật tương tác được
trình bày trong chương I, II và III
Vì tương tác người máy và xử lý tiếng nói nói đều là các lĩnh vực rất lớn và
liên quan đến nhiều lĩnh vực khác và các kết quả nghiên cứu hiện tại về lĩnh vực
này (ở nước ta) vẫn còn rất hạn chế nên đồ án này chắc chắn không tránh khỏi
những hạn chế. Tác giả hy vọng nhận được các đóng góp của những người quan
tâm.
Tác giả xin chân thành cảm ơn TS. Trịnh Văn Loan, trưởng bộ môn Kỹ
thuật máy tính, trường Đại học bách khoa Hà Nội đã tận tình hướng dẫn, chỉ bảo
để tác giả có thể hoàn thành được bản luận văn này.
Xin chân thành cảm ơn.
Hà nội, ngày 30 tháng 9 năm 2004
Học viên
Mai Chí Dũng
5
Tương tác người-máy dựa trên tiếng nói
Chương I. Tổng quan về tương tác người máy
1. Giới thiệu
Tương tác người máy (Human Computer Interaction – HCI) đơn giản là
lĩnh vực nghiên cứu về con người, công nghệ máy tính và các cách thức mà các
đối tượng này tương tác lẫn nhau. Chúng ta nghiên cứu HCI để xác định cách mà
chúng ta làm cho các công nghệ máy tính dễ sử dụng hơn cho con người. Điều này
yêu cầu phải nắm được ít nhất là 3 lĩnh vực sau: công nghệ máy tính, những người
tương tác với công nghệ máy tính và tính ‘dễ sử dụng hơn’ cho con người bao
gồm những gì. Tuy nhiên còn có một khía cạnh thứ tư đó là việc nắm được công
việc mà con người đang thực hiện bằng công nghệ máy tính. Trong bài này chúng
ta sẽ xem xét các vấn đề về nhận thức của con người (human cognitive), các khả
năng vật lý và cách để tích hợp các tri thức này vào trong thiết kế công nghệ.
Chúng ta sẽ xem xét công nghệ theo cả hai mặt: các công nghệ hiện có và các chức
năng của chúng. Chúng ta sẽ giới thiệu các nguyên tắc, những mô hình biểu hiện
khả năng dễ sử dụng và đưa ra các phương pháp cho việc đánh giá các thiết kế.
Chúng ta cũng sẽ xem xét các hành vi của người dùng.
Tương tác người-máy là một lĩnh vực phức tạp liên quan đến nhiều lĩnh vực
khác. Trong phần này chúng ta sẽ chỉ xem xét tương tác người máy dưới góc độ
của khoa học máy tính.
1.1 Các đối tượng trong lĩnh vực tương tác người máy
Tương tác người-máy là một lĩnh vực phức tạp liên quan đến rất nhiều lĩnh
vực khác. Một nhà thiết kế hệ thống tương tác lý tưởng phải có các hiểu biết về
các lĩnh vực như:
• tâm lý học, khoa học nhận thức (cognitive science) để có những
tri thức về cách nhận thức của người sử dụng, các kỹ năng nhận
thức và các kỹ năng giải quyết vấn đề
• công thái học về người sử dụng để biết được các hạn chế về mặt
vật lý của người dùng
• xã hội học giúp cho người thiết kế hiểu được ngữ cảnh tương tác
một cách rộng hơn
• khoa học máy tính và công nghệ phần mềm cho phép xây dựng
các công nghệ cần thiết
• thiết kế đồ hoạ để có thể tạo ra giao diện hiệu quả...
...
Mặc dù tương tác người-máy được coi là một lĩnh vực liên quan đến nhiều
lĩnh vực khác nhưng trong thực hành người ta thường có xu hướng dựa trên một
6
Tương tác người-máy dựa trên tiếng nói
lĩnh vực chính. Tuy nhiên, việc thiết kế các hệ thống tương tác hiệu quả sẽ không
đạt được nếu chỉ dựa trên một lĩnh vực duy nhất.
1.2 Lý thuyết và tương tác người-máy
Hiện tại không có một lý thuyết chung và duy nhất cho tương tác ngườimáy. Tuy nhiên, có một nguyên tắc chung để tạo ra cơ sở cho các cách nhìn về
tương tác người-máy đó là người sử dụng dùng máy tính để thực hiện công vệc
của họ. Điều này dẫn đến ba vấn đề cần được quan tâm đến trong tương tác ngườimáy, đó là:
- con người
- máy tính
- công việc cần thực hiện
Hệ thống cần phải hỗ trợ cho công việc của người sử dụng, từ đó dẫn đến
vấn đề thứ tư cần phải quan tâm, đó là tính dễ dùng (usability): nghĩa là nếu hệ
thống buộc người dùng phải làm việc trong một chế độ không chấp nhận được thì
khi đó nó sẽ không thể sử dụng được.
Tuy nhiên, có những người là bỏ qua việc quan tâm đến công việc được
thực hiện và cho rằng chúng ta thậm chí không cần phải biết nhiều về công việc
phải thực hiện mà vẫn có thể hỗ trợ được chúng trong thiết kế. Tuy nhiên chúng ta
cũng cần phải thấy rằng chúng ta chỉ cần có một hiểu biết đủ (chứ không cần hoàn
toàn) về công việc trong khi thiết kế. Công việc hiện tại của người sử dụng được
nghiên cứu và sau đó được hỗ trợ bởi máy tính. Việc thực hiện trên máy tính có
thể sẽ ảnh hưởng đến bản chất của công việc và có thể làm thay đổi cách thức thực
hiện công việc. Ví dụ, các chương trình xử lý văn bản cho phép thực hiện sửa chữa
các đoạn văn bản một cách khá tự do và do đó sẽ có ảnh hưởng đến phong cách
viết. Với các trình soạn thảo văn bản này thì việc lên trước cách thức viết, trình tự
các đoạn...là không cần thiết nữa.
2. Con người
2.1 Giới thiệu
Chúng ta sẽ bắt đầu với đối tượng con người, đối tượng trung tâm trong bất
cứ một hệ thống tương tác nào. Con người, người sử dụng, chính là đối tượng mà
hệ thống máy tính được thiết kế để trợ giúp. Vì thế, các yêu cầu của người sử dụng
cần phải có độ ưu tiên cao nhất.
Trong phần này chúng ta sẽ xem xét các khía cạnh về tâm lý học con người
với tên gọi là tâm lý học nhận thức (cognitive psychology). Điều này mới nhìn có
vẻ như không cần thiết trong việc thiết kế và xây dựng hệ thống tương tác nhưng
nếu xem xét kỹ chúng ta sẽ thấy chúng sẽ rất cần thiết. Thật vậy, để thiết kế một
7
Tương tác người-máy dựa trên tiếng nói
hệ thống cho ai đó chúng ta cần phải hiểu các khả năng và các hạn chế của người
đó. Chúng ta cần phải biết người đó sẽ thấy khó khăn ở điểm gì, hay thậm chí
người đó sẽ không có khả năng làm điều gì. Với lĩnh vực này chúng ta còn có thể
biết được những điều mà con người sẽ thấy dễ thực hiện và cách mà chúng ta có
thể làm cho người sử dụng có thể thực hiện được các công việc. Chúng ta sẽ xem
xét các khía cạnh của tâm lý học nhận thức liên quan đến việc sử dụng các hệ
thống máy tính: cách mà con người nhận thức thế giới xung quanh, cách tổ chức
và xử lý thông tin, cách giải quyết vấn đề và cách mà con người tương tác với các
đối tượng vật lý.
Chúng ta sẽ chỉ xem xét các khía cạnh con người có liên quan đến HCI.
Một cách là chúng ta sẽ xem xét theo cách làm nổi bật các khía cạnh mà chúng ta
quan tâm nhất. Nói cách khác, chúng ta sẽ xem xét dưới góc độ của mô hình hoá.
Có rất nhiều mô hình đã được đề xuất. Năm 1983, Card, Moran và Newell đã đưa
ra mô hình MHP (Model Human Processor). Mô hình này là một cách đơn giản
hoá quan sát xử lý của con người được thực hiện khi tương tác với hệ thống máy
tính. Mô hình này bao gồm 3 hệ thống con:
• hệ thống cảm nhận (perceptual system): thực hiện mô phỏng cảm
biến với thế giới bên ngoài
• hệ thống vận động (motor system): thực hiện điều khiển các hành
động
• hệ thống nhận thức (cognitive system): cung cấp các thông tin
cần thiết để kết nối hai hệ thống trên
Mỗi hệ thống con trên đều có bộ nhớ và bộ xử lý riêng mặc dù rõ ràng rằng
độ phức tạp của các hệ thống này trong từng trường hợp sẽ tuỳ thuộc vào độ phức
tạp của nhiệm vụ mà các hệ thống con này phải xử lý. Mô hình cũng bao gồm một
số các nguyên lý hoạt động để thực hiện các hành vi của hệ thống ở các điều kiện
nhất định.
Chúng ta vẫn xem xét người dùng như một hệ thống xử lý thông tin nhưng
trong mô hình của chúng ta sự tương tự này giống với các hệ thống máy tính
truyền thống. Thông tin vào, được lưu trữ lại và xử lý, sau đó được đưa ra. Vì thế
chúng ta sẽ xem xét 3 thành phần của hệ thống này, đó là:
• đầu vào - đầu ra
• bộ nhớ
• xử lý
Đối với con người, chúng ta đang đề cập đến một hệ thống xử lý thông tin
rất thông minh, và quá trình xử lý sẽ gồm giải quyết vấn đề, học và gây các lỗi.
Mô hình này rõ ràng là sự đơn giản hoá tình huống thực tế vì bộ nhớ và quá trình
xử lý đều cần thiết ở tất cả các mức. Tuy nhiên, con người, không giống như máy
8
Tương tác người-máy dựa trên tiếng nói
tính, chịu các ảnh hưởng của các yếu tố ngoại cảnh ví dụ như mô trường xã hội,
môi trường tổ chức, và chúng ta cần phải quan tâm đến các yếu tố ảnh hưởng này.
Tuy nhiên, trong phần này chúng ta sẽ bỏ qua các yếu tố này và sẽ tập trung vào
các khả năng xử lý thông tin của con người.
2.2 Các kênh vào ra
Sự tương tác của con người với thế giới bên ngoài xảy ra thông qua quá
trình nhận và gửi thông tin: vào và ra. Trong tương tác với máy tính, người sử
dụng nhận thông tin là đầu ra của máy tính và đáp lại bằng cách cung cấp đầu vào
cho máy tính - đầu ra của người dùng trở thành đầu vào của máy tính và ngược lại.
Vì thế việc sử dụng các thuật ngữ vào và ra có thể dẫn đến nhập nhằng. Do đó
chúng ta sẽ không phân biệt rõ ràng các đầu vào và ra mà thay vào đó là sẽ xem
xét các kênh tương ứng. Điều này là cần thiết bởi vì mặc dù các kênh cụ thể có thể
có vai trò chính làm đầu vào hay đầu ra trong tương tác tuy nhiên nó vẫn có thể
được sử dụng với vai trò ngược lại. Ví dụ, nhìn (quan sát) có thể được sử dụng chủ
yếu để nhận các thông tin từ máy tính nhưng nó cũng có thể được sử dụng để cung
cấp các thông tin cho máy tính, ví dụ bằng cách nhìn tập trung (cố định) vào một
điểm nào đó trên màn hình.
Đầu vào đối với con người chủ yếu được thực hiện thông qua các giác quan
và đầu ra được thực hiện thông qua các cơ quan vận động. Có 5 giác quan chính,
đó là: thị giác, thính giác, xúc giác, vị giác và khứu giác. Trong 5 giác quan này thì
3 giác quan đầu là quan trọng nhất đối với HCI. Vị giác và khứu giác hiện tại chưa
đóng vai trò đáng kể nào trong HCI và hiện tại cũng chưa rõ ràng rằng chúng có
thể xuất hiện trong các hệ thống máy tính phổ biến ngày nay, hoặc thậm chí chúng
có đóng vai trò nào đó trong các hệ thống máy tính chuyên dụng hay không.
Tương tự, có một số các cơ quan vận động bao gồm, chân, tay, ngón tay,
mắt, đầu và hệ thống phát âm. Trong tương tác với máy tính, các ngón tay đóng
vai trò rất quan trọng thông qua việc gõ phím, điều khiển chuột trong khi các cơ
quan khác như tiếng nói, mắt và đầu ít được sử dụng hơn.
Ví dụ khi sử dụng máy tính với chuột và bàn phím. Ứng dụng mà chúng ta
sử dụng với giao diện đồ hoạ với các bảng chọn, các biểu tượng và các cửa sổ.
Trong tương tác của chúng ta với hệ thống, chúng ta nhận thông tin chủ yếu qua
thị giác. Tuy nhiên chúng ta cũng có thể nhận thông tin bằng thính giác: ví dụ,
máy tính có thể tạo ra các tiếng “bíp” khi có lỗi xuất hiện. Xúc giác cũng đóng một
vai trò nào đó đem lại cho chúng ta cảm giác về một phím được bấm hay về hướng
di chuyển của chuột. Chúng ta sẽ cung cấp các thông tin cho máy tính chủ yếu
bằng tay: gõ bàn phím hay di chuyển chuột. Thị giác và thính giác không đóng
một vai trò trực tiếp nào trong việc gửi thông tin, mặc dù chúng có thể được sử
dụng để nhận thông tin từ một nguồn tin thứ ba nào đó (ví dụ, từ sách, từ lời nói
của một người khác...) và sau đó được gửi đến cho máy tính.
9
Tương tác người-máy dựa trên tiếng nói
Trong phần này chúng ta sẽ xem xét các thành phần chính của tương tác
này. Đầu tiên, chúng ta sẽ xem xét vai trò và các hạn chế của 3 giác quan chính.
2.2.1 Thị giác
Khả năng nhìn của con người là hoạt động rất phức tạp với các hạn chế về
mặt vật lý và các hạn chế về khả năng cảm nhận. Chúng ta có thể chia việc nhận
biết trực quan thành 2 giai đoạn: sự thu nhận các kích thích vật lý từ thế giới và
việc xử lý và phân tích các kích thích đó. Một mặt các thuộc tính vật lý của mắt và
hệ thống nhìn có nghĩa là có những cái con người không thể nhìn được và mặt
khác các khả năng phân tích giúp của quá trình xử lý cảnh cho phép các ảnh được
xây dựng lại từ các thông tin không đầy đủ. Chúng ta cần phải hiểu cả hai giai
đoạn, các yếu tố ảnh hưởng đến hai giai đoạn này và những cái có thể cảm nhận
được và không cảm nhận được bằng thị giác. Các thông tin này sẽ có ảnh hưởng
trực tiếp đến cách mà chúng ta thiết kế các hệ thống.
2.2.2 Thính giác
Thính giác được coi là giác quan quan trọng thứ hai sau thị giác tuy nhiên
chúng ta thường đánh giá quá thấp lượng thông tin mà chúng ta có thể nhận được
từ tai. Hệ thống thính giác có khả năng rất lớn trong việc thu thập thông tin về môi
trường xung quanh.
Âm thanh là do sự thay đổi, hay dao động của áp suất không khí. Âm thanh
có một số đặc tính mà chúng ta cần quan tâm. Độ cao (pitch) là tần số của âm
thanh. Tần số thấp tạo ra âm trầm, tần số cao tạo ra các âm cao. Âm lượng tương
ứng với biên độ của âm thanh trong khi tần số vẫn không đổi. Âm sắc liên quan
đến loại của âm thanh: âm thanh có thể có cùng tần số, cùng âm lượng nhưng lại
được sinh ra từ các dụng cụ khác nhau và do đó có âm sắc khác nhau. Chúng ta
cũng có thể xác định vị trí của âm thanh vì hai tai chúng ta nhận được các âm
thanh có sự khác biệt nhỏ do sự khác nhau về thời điểm mà âm thanh đến được hai
tai và sự suy giảm âm lượng.
Tai người có thể nghe được các âm thanh có tần số nằm trong khoảng từ 20
Hz đến 15 kHz. Tai người có khả năng phân biệt được các thay đổi về tần số nhỏ
hơn 1,5 Hz tại các tần số thấp nhưng ít chính xác hơn ở các tần số cao. Các tần số
khác nhau gây ra các hoạt động khác nhau trong các nơ ron thần kinh ở các phần
khác nhau trong hệ thống âm thanh và tạo ra các xung nhịp thần kinh khác nhau.
Hệ thống âm thanh thực hiện một số phép lọc trên các âm thanh nhận được
và cho phép chúng ta bỏ qua các tiếng ồn của môi trường và tập trung vào các
thông tin quan trọng. Chúng ta có thể chọn ra các thông tin mà chúng ta cần từ các
âm thanh thu được. Tuy nhiên, nếu các âm thanh là quá to hoặc các tần số âm
thanh là tương tự như nhau thì chúng ta khó có thể phân biệt được chúng.
10
Tương tác người-máy dựa trên tiếng nói
Như chúng ta đã thấy, với âm thanh chúng ta có thể thu nhận được nhiều
thông tin. Tuy nhiên, hiện nay âm thanh được sử dụng khá ít trong các thiết kế
giao diện. Thường âm thanh mới chỉ được sử dụng làm các âm thanh cảnh báo.
Các âm thanh loại khác có thể được sử dụng để:
• Gây sự chú ý: để thu hút sự chú ý của người dùng vào một tình
huống quan trọng hay để kết thúc một quá trình xử lý...
• Cung cấp thông tin trạng thái: các âm thanh nền liên tục có thể
được sử dụng để đưa ra các thông tin trạng thái. Ví dụ, kiểm soát
sự thực hiện của một tiến trình (mà không cần các chú ý về mặt
trực quan)
• Xác nhận: âm thanh kết hợp với một hành động để xác nhận rằng
hành động đã được thực hiện. Ví dụ, kết hợp âm thanh với hành
động xoá tệp tin.
• Di chuyển: sử dụng sự thay đổi về âm thanh để chỉ ra vị trí hiện
tại của người dùng trong hệ thống.
...
2.2.3 Xúc giác
Giác quan thứ ba, cũng là giác quan cuối cùng mà chúng ta xem xét là xúc
giác hay còn gọi là sự cảm nhận haptic. Mặc dù giác quan này được xem là ít quan
trọng hơn so với thị giác và thính giác nhưng chúng ta không thể không xem xét
nó. Xúc giác cung cấp cho chúng ta các thông tin quan trọng về môi trường. Nó
cho chúng ta biết về một vật nóng hay lạnh và vì thế có thể được sử dụng làm cảnh
báo. Nó cũng cung cấp cho chúng ta các phản hồi ví dụ khi chúng ta nâng một đối
tượng. Hãy xem xét hành động cầm một cốc nước lên. Nếu chúng ta chỉ có thể
nhìn cốc nước mà không thể có cảm giác khi tay chúng ta chạm vào nó hay là cảm
nhận hình dáng của nó thì tốc độ và sự chính xác của hành động sẽ bị giảm. Đây
chính là vấn đề của những người sử dụng trong các trò chơi thực tế ảo: họ có thể
nhìn thấy các đối tượng mà máy tính tạo ra nhưng họ lại không có được cảm giác
khi chạm vào chúng. Vì thế xúc giác là một cách thức phản hồi quan trọng và cần
phải được sử dụng trong các hệ thống máy tính. Cảm nhận được các nút bấm là
một phần quan trọng trong việc bấm các nút. Tuy nhiên, chúng ta cần phải chú ý
rằng đối với một người bình thường thì xúc giác chỉ là nguồn thông tin phụ, còn
đối với những người có các giác quan khác bị hỏng thì đó lại là nguồn thông tin rất
quan trọng. Vì thế chúng ta không được đánh giá thấp sự quan trọng của xúc giác.
2.3 Bộ nhớ của người
Bộ nhớ của con người có thể được chia thành các loại sau:
• bộ nhớ cảm giác tạm (sensory buffers)
11
Tương tác người-máy dựa trên tiếng nói
• bộ nhớ ngắn hạn hay bộ nhớ làm việc (short-term memory)
• bộ nhớ dài hạn
2.3.1 Bộ nhớ cảm giác
Các bộ nhớ cảm giác hoạt động như những bộ đệm để chứa các kích thích
nhận được từ các giác quan. Một bộ nhớ cảm giác cho mỗi kênh giác quan: bộ nhớ
biểu tượng (iconic memory) cho các kích thích thị giác, bộ nhớ âm thanh (echoic
memory) cho các kích thích âm thanh và các kích thích xúc giác. Các bộ nhớ này
sẽ thường xuyên bị ghi đè bởi các thông tin mới.
Thông tin được lưu trữ lại trong bộ nhớ biểu tượng rất ngắn, khoảng 0,5
giây. Bộ nhớ âm thanh cho phép ‘thực hiện lại’ thông tin trong một khoảng thời
gian ngắn. Ví dụ chúng ta có thể nhớ được những gì ai đó nói trong khi chúng ta
vẫn đang đọc.
Thông tin được truyển từ bộ nhớ cảm nhận vào bộ nhớ ngắn hạn bằng sự
tập trung bằng cách lọc lấy những thông tin mà chúng ta quan tâm.
2.3.2 Bộ nhớ ngắn hạn
Bộ nhớ ngắn hạn hay bộ nhớ làm việc thực hiện việc ghi nhớ tạm thời các
thông tin. Nó được sử dụng để lưu các thông tin chỉ cần thiết tức thời. Ví dụ, việc
tính toán phép nhận 35x6. Chúng ta thường thực hiện theo một số cách sau, ví dụ
5x6 và sau đó tính 30 x 6 hoặc 2 x35 sau đó 3x70. Để thực hiện các phép tính này
chúng ta cần lưu các kết quả trung gian lại. Các kết quả này được lưu trong bộ nhớ
ngắn hạn.
Bộ nhớ ngắn hạn có thể được truy xuất thông tin rất nhanh khoảng 70 ms.
Tuy nhiên nó cũng bị xoá bỏ đi rất nhanh, khoảng sau 200 ms.
Bộ nhớ ngắn hạn có dung lượng hạn chế. Có hai phương pháp để đo dung
lượng này. Phương pháp thứ nhất dùng để xác định độ dài của chuỗi mà chúng ta
có thể ghi nhớ được theo đúng trật tự. Phương pháp thứ hai cho phép các phần tử
có thể được ghi nhớ lại theo bất cứ trật tự nào. Sử dụng phương pháp đầu, một
người bình thường có thể nhớ được 7±2 chữ số.
2.3.3 Bộ nhớ dài hạn
Bộ nhớ dài hạn là bộ nhớ chính của con người. Phần lớn tất cả các thông tin
đều được lưu trữ trong bộ nhớ này. Các thông tin về sự kiện, các tri thức kinh
nghiệm, các quy tắc, thủ tục hành vi, nói chung là tất cả những gì chúng ta ‘biết’
đều được lưu trữ trong bộ nhớ loại này.
Đầu tiên, bộ nhớ này có dung lượng lớn (hay thậm chí là không có giới
hạn). Thứ hai, thời gian truy cập thông tin trong bộ nhớ này chậm, khoảng 1/10
giây. Thứ ba, sự ‘quên’ xảy ra rất chậm trong bộ nhớ loại này.
12
Tương tác người-máy dựa trên tiếng nói
Bộ nhớ dài hạn dùng để lưu trữ các thông tin dài hạn. Thông tin được đưa
vào trong bộ nhớ này từ bộ nhớ làm việc sau vài giây.
3. Máy tính
Để có thể hiểu được cách thức mà con người tương tác với máy tính, chúng
ta cần phải có hiểu biết đầy đủ về cả hai đối tượng tham gia vào tương tác. Phần
trước chúng ta đã đề cập đến các vấn đề về các khả năng và hành vi của người sử
dụng, trong phần này chúng ta sẽ xem xét các yếu tố về máy tính, các thiết bị vào
ra cũng như xem xét các ảnh hưởng của công nghệ đến bản chất của tương tác và
kiểu giao diện.
Máy tính có thể được định nghĩa như sau: “máy tính là thành viên tham gia
trong tương tác có chạy một chương trình”. Định nghĩa tổng quan này có thể được
áp dụng cho nhiều thiết bị mà chúng ta tương tác. Công tắc đèn có thể được xem
như là máy tính có chạy một chương trình đơn giản: ‘bật đèn khi công tắc được ấn
xuống và tắt khi nó được ấn lên’.
Khi chúng ta tương tác với máy tính, chúng ta cần đạt được điều gì? Hãy
xem xét những điều xảy ra khi chúng ta tương tác với nhau. Chúng ta hoặc là đưa
ra các thông tin cho người khác hoặc là nhận lại các thông tin từ họ. Thông
thường, các thông tin chúng ta nhận là tương ứng với những thông tin mà chúng ta
vừa đưa cho họ. Sự tương tác vì thế là một quá trình xử lý việc truyền thông tin.
Đối với máy tính cũng vậy, tương tác là một quá trình chuyển thông tin, từ người
dùng đến máy tính và từ máy tính đến người dùng.
3.1 Hệ thống máy tính
Một máy tính thông thường có một bàn phím, một chuột và một màn hình
hiển thị. Nếu chúng ta xem xét giao diện chúng ta có thể thấy cách mà các đặc tính
liên quan đến các thiết bị được sử dụng. Trong phần này chúng ta sẽ xem xét các
công việc có thể thực hiện trên máy tính và các thiết bị liên quan dùng để thực
hiện các hành động đó. Mỗi thiết bị sẽ được xem xét lần lượt cùng với các thiết bị
thay thế có thể để thực hiện hành động đó trong cùng tình huống. Sự đa dạng của
các thiết bị cho thấy rằng có rất nhiều kiểu dữ liệu có thể được nhập vào và nhận
được từ hệ thống và cũng có nhiều loại người dùng khác nhau, mỗi loại người
dùng lại có các yêu cầu riêng.
3.2 Đầu vào lô và đầu vào tương tác
Thông tin đầu vào có thể được thực hiện theo hai cách: phần tử đầu vào
theo lô và sử dụng tương tác. Dữ liệu đầu vào theo lô được sử dụng khi cần phải
nhập một số lượng lớn dữ liệu vào máy tính, các dữ liệu này có định dạng rõ ràng,
vì thế người dùng được yêu cầu nhập dữ liệu vào máy tính càng nhanh càng tốt.
Sử dụng kiểu tương tác yêu cầu người dùng nhập dữ liệu ngồi trước màn hình,
nhập dữ liệu theo lời nhắc của máy tính. Tổng quát hơn, máy tính được sử dụng
13
Tương tác người-máy dựa trên tiếng nói
như một công cụ để xử lý và nhận thông tin; không có thông tin mới nào được
thêm vào trong máy mà chỉ các thông tin được nhập vào theo dạng các lệnh để yêu
cầu máy tính thực hiện các công việc hay tập các công việc. Lĩnh vực tương tác
người-máy phát triển cùng với sự phát triển của cách nhập tương tác. Đối với kiểu
nhập theo lô, có rất ít sự tương tác với máy tính.
Các thiết bị đầu vào tương tác có thể được chia thành hai loại:
• các thiết bị nhập dữ liệu văn bản
• các thiết bị cho phép trỏ, chọn các mục trên màn hình và di
chuyển.
Các thiết bị nhập dữ liệu văn bản như bàn phím, các hệ thống nhận dạng
tiếng nói. Còn các thiết bị thuộc loại thứ hai có thể là chuột, joystick, màn hình
cảm ứng (touch screen). Chúng ta sẽ lần lượt xem xét các loại thiết bị này.
3.3 Các thiết bị nhập văn bản
3.3.1 Bàn phím
Bàn phím là một trong các loại thiết bị đầu vào phổ biến nhất được sử dụng
hiện nay. Bàn phím được sử dụng để nhập các dữ liệu văn bản và các lệnh. Phần
lớn các bàn phím hiện này đều có sự bố trí các phím chuẩn hoá và được phân biệt
theo 6 phím ở hàng đầu tiên của các phím chữ. Phổ biến nhất hiện này là loại bàn
phím QWERTY. Tuy nhiên cũng có một số loại bàn phím kiểu khác có một số đặc
điểm thuận lợi hơn so với kiểu bàn phím QWERTY. Các bàn phím kiểu này
thường thuộc một trong hai dạng sau: các bàn phím 26 phím và bàn phím kiểu bàn
phím đàn (chord keyboard). Bàn phím 26 phím sắp xếp lại trật tự các phím chữ với
các phím được sử dụng nhiều nhất ở vị trí các ngón tay thuận nhất.
3.3.2 Các thiết bị nhập văn bản khác
Khi nhập dữ liệu kiểu văn bản, ngoài bàn phím là thiết bị phổ biến nhất,
chúng ta còn có thể sử dụng một số thiết bị khác. Các thiết bị này có cách ảnh
hưởng nhất định đến bản chất của giao diện. Đôi khi sự ảnh hưởng này là nhỏ do
chỉ có sự thay đổi nhỏ trong các nhập liệu hoặc đôi khi sự ảnh hưởng này là lớn
làm thay đổi hoàn toàn giao diện do cần tận dụng các đặc tính mới của thiết bị
nhập.
3.3.2.1 Nhận dạng chữ viết tay
Chữ viết tay là hoạt động phổ biến và rất quen thuộc với mọi người vì thế
nó được coi là một phương pháp nhập liệu cần chú ý. Nếu chú ta có thể viết trên
máy tính như khi chúng ta viết trên giấy và máy tính sẽ chuyển chúng thành dạng
văn bản thì chúng ta sẽ thấy rằng đó là một phương pháp tương tác đơn giản và
hiệu quả. Tuy nhiên, có rất nhiều hạn chế đối với các hệ thống nhận dạng chữ viết
14
Tương tác người-máy dựa trên tiếng nói
tay hiện nay. Công nghệ hiện tại vẫn chưa đạt được độ chính xác cần thiết và
thường tạo ra nhiều lỗi trong nhận dạng các chữ. Tuy nhiên độ chính xác hiện nay
đang được cải thiện rất nhanh. Hơn nữa, sự khác nhau giữa những người viết là rất
lớn và do đó làm cho quá trình nhận dạng thêm khó khăn. Thông tin quan trọng
nhất trong chữ viết tay không phải là trong bản thân hình dạng chữ mà là trong nét
chữ, cách mà chữ được viết. Điều này có nghĩa là các thiết bị hỗ trợ nhận dạng chữ
viết tay cần phải bắt được các thông tin nét chữ chữ không phải chỉ là hình dạng
cuối cùng của chữ. Điều này có nghĩa là việc nhận dạng trực tuyến (on-line
recognition) sẽ dễ dàng hơn nhiều so với việc đọc văn bản viết tay trên giấy. Các
sự phức tạp khác xuất hiện do các chữ trong các từ thường có hình dạng và cách
viết rất khác nhau tuỳ thuộc vào bản thân từ; ngữ cảnh có thể giúp xác định chữ
nhưng thường ngữ cảnh cũng không cung cấp đầy đủ thông tin cho việc nhận
dạng. Tuy nhiên, phương pháp nhập liệu kiểu này thường có tốc độ khá thấp. Đối
với viết tay thì khó có thể có tốc độ hơn 25 từ/phút trong khi đó tốc độ đánh máy
của một người thành thạo khoảng 40 từ/phút.
Sự khác biệt của chữ viết có nghĩa là chúng ta có thể thấy nhiều điều hữu
ích trong các tình huống mà các phương pháp nhập liệu dựa trên bàn phím không
thích hợp. Các tình huống như vậy sẽ yêu cầu các hệ thống hoàn toàn mới được
thiết kế dựa trên các hệ thống nhận dạng chữ viết tay là đầu vào văn bản chính và
do đó sẽ khác hoàn toàn với các hệ thống thông thường. Các hệ thống dựa trên bút
vẽ (pen-based) sử dụng nhận dạng chữ viết tay hiện này được sử dụng rất nhiều
trong các thiết bị di động. Sử dụng nhận dạng chữ viết tay có rất nhiều ưu điểm so
với việc sử dụng bàn phím. Một hệ thống dựa trên bút vẽ có thể có kích thước nhỏ
nhưng vẫn có độ chính xác cao và dễ sử dụng trong khi các hệ thống với bàn phím
nhỏ thường khó đánh và có độ chính xác thấp.
Một số hệ thống đã bỏ hoàn toàn bàn phím. Với các hệ thống đó cần phải
xem xét tất cả các cách để tương tác với hệ thống mà không dựa trên các ký tự. Ví
dụ, chúng ta có thể sử dụng các hình vẽ để cho hệ thống biết các việc phải làm
thay vì sử dụng các lệnh nhận dạng cử chỉ (gesture recognition) như vẽ một dòng
kẻ xuyên qua một từ có nghĩa là muốn xoá từ đó. Điểm quan trọng là sự khác biệt
của thiết bị sẽ làm cho việc thiết kế giao diện và tương tác cần phải thay đổi. Các
hệ thông dựa trên bút vẽ sử dụng nhận dạng chữ viết tay thường sử dụng một hệ
điều hành đặc biệt dựa trên bút vẽ.
3.3.2.2 Nhận dạng tiếng nói
Nhận dạng tiếng nói là lĩnh vực có nhiều hứa hẹn cho việc nhập văn bản
nhưng vẫn có rất nhiều khó khăn trong lĩnh vực này. Người ta dự đoán rằng thị
trường cho các hệ thống nhận dạng tiếng nói thành công là rất lớn và vì thế rất
nhiều nghiên cứu đã được thực hiện trong lĩnh vực này. Thực ra, các hệ thống thực
tế đã được thương mại hoá cũng đã xuất hiện trong những năm gần đây. Việc nói
chuyện với máy tính và nhận lại các phản hồi từ máy tính là một dạng tương tác
mà chúng ta khá quen thuộc. Có những hệ thống có tỷ lệ nhận dạng thành công
15
Tương tác người-máy dựa trên tiếng nói
trên 97% nhưng tỷ lệ này trong một số lĩnh vực là vẫn chưa chấp nhận được. Chú
ý rằng, tỷ lệ nhận dạng trên chỉ là cho bài toán với số lượng từ vựng hạn chế. Việc
mở rộng các hệ thống đến mức hiểu được ngôn ngữ tự nhiên mở ra nhiều vấn đề
vẫn chưa giải quyết được một cách thoả đáng. Hơn nữa, vì mọi người nói khác
nhau nên hệ thống cần phải được đào tạo và thích nghi với từng người nói mới nếu
không thì hiệu năng của hệ thống sẽ giảm.
Bất chấp những vấn đề trên, công nghệ tiếng nói vẫn có những ứng dụng
thích hợp: các hệ thống thông tin thoại, các ứng dụng cho những người tàn tật. Ba
khả năng ứng dụng chính của tiếng nói là:
• làm thiết bị nhập văn bản để thay thế bàn phím
• thiết kế lại hệ thống để có thể tận dụng được toàn bộ các lợi thế
của công nghệ tiếng nói trong khi vẫn tối thiếu hoá được các vấn
đề có thể nảy sinh
• tiếng nói có thể được sử dụng trong các lĩnh vực mà đầu vào
bằng bàn phím là khó có thể hoặc thậm chí là không thể.
3.3.3 Các thiết bị định vị và trỏ
Trung tâm của phần lớn các hệ thống máy tính là khả năng trỏ vào các đối
tượng trên màn hình và xử lý chúng hoặc thực hiện các lệnh tương ứng. Các thiết
bị trỏ cho phép người sử dụng trỏ, định vị và chọn các đối tượng hoặc là trực tiếp
hoặc là thông qua việc xử lý con trỏ trên màn hình. Trong các thiết bị kiểu này,
chuột là thiết bị phổ biến nhất.
• Chuột
• Các thiết bị định vị 2 chiều khác
Có rất nhiều thiết bị khác có thể thay thế cho chuột. Một số thiết bị có khả
năng tương tác như chuột trong khi một số khác lại đưa ra các khả năng trỏ và
định vị theo cách hoàn toàn khác. Một số thiết bị đáng chú ý là:
• Trackball
• Joystick
• Touch-sensitive screen (touch screen)
• Light pen
• Digitizing tablet
• Touch pad
• Eyegaze
• Các thiết bị định vị dựa trên bàn phím
16
Tương tác người-máy dựa trên tiếng nói
3.4 Định vị trong không gian ba chiều
Các hệ thống hiện thực ảo (virtual reality) biểu diễn thế giới 3 chiều ảo.
Người sử dụng cần phải di chuyển trong không gian này và xử lý các đối tượng ảo
mà họ thấy. Việc di chuyển không chỉ đơn giản là việc chuyển động đến một địa
điểm mà còn phải chọn hướng chuyển động. Một số thiết bị sử dụng để định vị
trong không gian ba chiều gồm:
• cockpit and virtual controls
• chuột 3 chiều
• găng dữ liệu (dataglove)
• mũ hiện tại ảo
• Whole-body tracking
4. Tương tác
4.1 Giới thiệu
Có nhiều cách để người sử dụng giao tiếp với hệ thống. Một trong các cách
mà chúng ta đã đề cập là sử dụng đầu vào theo lô, trong đó người sử dụng cung
cấp tất cả các thông tin cho máy tính một lần và để cho máy tính thực hiện công
việc còn lại. Phương pháp này hàm chứa sự tương tác giữa người sử dụng và máy
tính nhưng lại không hỗ trợ nhiều công việc. Một cách khác là sử dụng các thiết bị
đầu vào tương tác. Ở đây người sử dụng cung cấp các lệnh và nhận lại các phản
hồi từ máy tính.
Trong phần này, chúng ta sẽ xem xét cách giao tiếp giữa người sử dụng và
hệ thống: sự tương tác. Chúng ta sẽ đề cập đến một số mô hình tương tác cho phép
chúng ta xác định và đánh giá các thành phần trong tương tác cũng như các vấn đề
về vật lý, xã hội, tổ chức trong ngữ cảnh tương tác. Chúng ta cũng đề cập đến một
số kiểu tương tác khác nhau được sử dụng và xem xét hiệu quả của chúng trong
việc hỗ trợ người sử dụng.
4.2 Các mô hình tương tác
Trong các phần trước chúng ta đã xem xét vai trò của mô hình trong việc
giúp chúng ta hiểu các hành vi phức tạp và các hệ thống phức tạp. Tương tác liên
quan đến ít nhất hai đối tượng, đó là người sử dụng và hệ thống. Cả hai đối tượng
này là rất phức tạp và rất khác nhau trong cách giao tiếp. Giao diện vì thế cần phải
phân tích (translatation) hiệu quả giữa chúng và cho phép tương tác thành công.
Việc phân tích này có thể không thành công ở một số điểm do một số lý do nào đó.
Việc sử dụng các mô hình tương tác giúp chúng ta hiểu chính xác những gì đang
diễn ra trong tương tác và xác định nguyên nhân của các lỗi. Các mô hình cũng
17
Tương tác người-máy dựa trên tiếng nói
đem lại cho chúng ta các framework để so sánh các kiểu tương tác khác nhau và
xem xét các vấn đề trong tương tác.
Chúng ta bắt đầu bằng việc xem xét mô hình có ảnh hưởng nhiều nhất trong
tương tác, mô hình thực hiện-đánh giá của Norman. Tiếp theo chúng ta sẽ xem xét
một mô hình khác là sự mở rộng của mô hình Norman. Cả hai mô hình này đều
mô tả tương tắc theo nghĩa của mục đích và hành động của người dùng.
4.3 Mô hình thực thi – đánh giá
Mô hình tương tác của Norman có lẽ là mô hình có ảnh hưởng nhiều nhất
trong lĩnh vực tương tác người-máy có lẽ bởi nó khá gần gũi với cách hiểu của
chúng ta về tương tác giữa người dùng và máy tính. Người sử dụng tạo ra lịch
trình các hành động. Các hành động này sau đó được thực thi tại giao diện máy
tính. Khi lịch trình, hay một phần của lịch trình được thực thi, người sử dụng quan
sát giao diện máy tính và đánh giá kết quả của việc thực thi lịch trình và xác định
các hành động tiếp theo.
Vòng tương tác có thể được chia thành hai pha chính: thực thi (execution)
và đánh giá (evaluation). Mỗi pha này có thể được chia nhỏ thành các pha nhỏ
hơn. Cụ thể, có thể chia thành 7 pha như sau:
• thiết lập mục đích
• tạo các ý định
• xác định chuỗi các hành động
• thực hiện hành động
• nhận trạng thái của hệ thống
• phân tích trạng thái hệ thống
• đánh giá trạng thái hệ thống dựa trên mục đích và ý định
Tất nhiên, mỗi pha là một hành động của người sử dụng. Đầu tiên người sử
dụng đưa ra mục đích. Đây chính là cái mà người dùng muốn thực hiện được và
được biểu diễn theo các thuật ngữ của lĩnh vực và ngôn ngữ của công việc. Mục
đích này có khả năng là không chính xác và vì thế cần phải được chuyển thành các
ý định rõ ràng hơn và các hành động thực tế để đạt được mục đích trước khi nó
được thực thi bởi người sử dụng. Người sử dụng nhận được trạng thái mới của hệ
thống sau khi thực thi chuỗi các hành động và phân tích trạng thái mới này. Nếu
trạng thái mới của hệ thống phù hợp với mục đích của người sử dụng khi đó máy
tính đã hoàn thành những điều người dùng mong muốn và sự tương tác thành
công; ngược lại người dùng cần phải thiết lập mục đích mới và lặp lại các pha trên.
Norman sử dụng mô hình tương tác này để minh hoạ nguyên nhân vì sao
một số giao diện gây ra các khó khăn cho người sử dụng. Norman sử dụng các
18
- Xem thêm -