Xu hướng tương tác người-máy bằng giọng nói

Xu hướng tương tác người máy bằng giọng nói

TƯƠNG TÁC GIỌNG NÓI

Cùng với việc phát triển các các thế hệ máy tính thì phương thức tương tác giữa người và máy (Human- Computer Interaction, HCI) cũng có những phát minh quan trọng, đóng góp không nhỏ vào việc tăng tính tiện dụng và hiệu quả của máy tính vào công việc và đời sống.

Trong vòng 75 năm vừa qua, cứ khoảng một thập niên thì có những phát minh mang tính đột phá trong lĩnh vực này; ví dụ: GUI (Graphical User Interface) vào năm 1981, máy tính cầm tay (PalmPilot) vào những năm 90, năm 2007 iPhone đưa ra giao diện bấm chạm (touch). Gần đây nhất là giao diện giọng nói (Voice Interface) bắt đầu được sử dụng rộng rãi sau khi Apple giới thiệu hệ thống Siri trên iPhone.

Hình 1: Lịch sử các hình thức tương tác người máy

Thực ra giao diện giọng nói đã được nghiên cứu và phát triển đã lâu, ví dụ trong quảng cáo của Apple năm 1987 đã đưa ra viễn cảnh người và máy có thể tương tác qua giọng nói như hội thoại bình thường. Nhưng, công nghệ nhận dạng giọng nói (speech recognition) và công nghệ xử lý ngôn ngữ tự nhiên (natural language processing) không đủ tốt để hiện thực hóa và đưa vào thực tiễn hàng ngày một hệ thống giao diện giọng nói.

Tuy vậy, bắt đầu từ khoảng năm 2010 - 2011 đã có những đột phá trong các công nghệ giọng nói. Theo lời của Johan Schalkwyk, kỹ sư làm việc tại Google: “Ba năm trước, công nghệ của Google chỉ nhận ra được 3 trong 4 từ mà bạn nói ra. Đến năm 2014, ứng dụng của Goolge có thể hiểu được 12 trong số 13 từ”.

Có thể nói công nghệ nhận dạng tiếng nói đã bắt đầu đạt ngưỡng đủ tốt để người dùng chấp nhận, không chỉ trên nền tảng của Goolge, mà các hãng công nghệ (và nền tảng của họ) đều đã đạt được ngưỡng nhận dạng từ (Word Accuracy Rates) chính xác hơn 90%.

Theo giáo sư Andrew tại trường Standord, một nhà nghiên cứu hàng đầu thế giới trong lĩnh vực học máy (machine learning, deep learning) thì hai yếu tố chính để việc sử dụng giao diện giọng nói thực sự bùng nổ là hệ thống đạt được độ chính xác trong việc nhận dạng và hiểu ngôn ngữ ở ngưỡng 99%, đồng thời giảm độ trễ (latency) trong việc phản hồi của hệ thống. Các hệ thống giao diện giọng nói đang gần tiến đến ngưỡng này, ví dụ như sản phẩm Amazon Echo, gần đây đã cải thiện được độ trễ từ lúc người dùng ra lệnh cho đến lúc Echo phản hồi từ khoảng 9 giây xuống còn 1,5 giây.

CÁC THIẾT BỊ TIÊN PHONG SỬ DỤNG TƯƠNG TÁC GIỌNG NÓI

Google Home

Google Home là một chiếc loa wifi kiêm chức năng trung tâm điều khiển nhà thông minh được phát triển bởi Google, tích hợp trợ lý ảo cá nhân cho phép người dùng ra lệnh bằng giọng nói với thiết bị. Bạn có thể sử dụng nó như thiết bị phát và stream các nội dung giải trí, phim nhạc từ các dịch vụ trực tuyến. Được tích hợp trợ lý cá nhân Google Assistant kết với tài khoản Google của người dùng, Google Home sẽ theo dõi lịch làm việc mỗi ngày, đưa ra thông tin nhắc nhở, cập nhật tình hình thời tiết, giao thông trước khi người dùng ra khỏi nhà.

Hình 2: Thiết bị Google Home

Amazon Echo

Amazon Echo là một chiếc loa điều khiển bằng giọng nói được phát triển bởi Amazon. Nó cũng được tích hợp trợ lý ảo cá nhân gọi là Alexa, hỗ trợ thực hiện một số tác vụ cho người dùng và điều khiển nhiều hệ thống khác trong nhà. Chi tiết hơn thì Alexa cũng có thể chơi nhạc, cung cấp thông tin, đọc tin tức, báo tình hình thời tiết, kiểm soát nhà thông minh, nghe đọc sách và mua hàng trên Amazon bằng một vài lệnh giọng nói.

Hình 3: Thiết bị Amazon Echo

Các thiết bị khác

Bên cạnh Google Home và Amazon Echo, các hãng khác cũng đang phát triển thiết bị điều khiển sử dụng giọng nói như Apple HomePod hay Mi AI Speaker. Các thiết bị này đều được các hãng tích hợp loa, nền tảng trí thông minh nhân tạo và khả năng nhận dạng giọng nói để hỗ trợ cho việc tương tác với con người trở nên dễ dàng.

ĐIỀU KHIỂN THIẾT BỊ VỚI GOOGLE HOME

Để sử dung và điều khiển với Google Home, người sử dụng cần phải kết nối và cấu hình Google Home thông qua ứng dụng Home (đã có trên cả 2 nền tảng di động Android và iOS). Hiện tại, Google Home đã có thể tích hợp với thiết bị của trên 50 hãng sản xuất thiết bị thông minh trên thế giới như: Nest, SmartThings, Phillips HUE, tp-link, WeMo, LG,... Người sử dụng dễ dàng cài đặt việc tích hợp này.

Hình 4: Giao diện ứng dụng Home trên điện thoại Android

Sau khi cấu hình thành công, người dùng có thể ra lệnh cho Google Home điều khiển các thiết bị trong nhà thông qua các dạng câu nói đã được thiết lập sẵn, ví dụ:

“Turn on the bedroom lights”
“Dim the kitchen lights”
“Are the lights on in Michelle’s room?”

Bên cạnh việc sử dụng các thiết bị thông minh từ các hãng, các nhà phát triển cá nhân cũng có thể tự làm các thiết bị thông minh của chính mình và điều khiển thông qua Google Home. Hiện tại, Google Assistant đã hỗ trợ kết nối với IFTTT - nền tảng xây dựng các ứng dụng hoạt động theo nguyên tắc rule-based giúp việc lập trình trở lên đơn giản và nhanh chóng hơn.

Hình 5: Mô hình tham khảo xây dựng hệ thống điều khiển thiết bị thông qua Google Home

Để tự xây dựng hệ thống thiết bị và điều khiển bằng giọng nói sử dụng Google Home, các nhà phát triển cần lưu ý:

- Cần server để chạy dịch vụ: nhận các bản tin từ Google Actions hoặc HTTP requests từ IFTTT, sau đó chuyển sang bản tin MQTT. Có các nền tảng triển khai server miễn phí như Google Firebase, Heroku,...

- Server MQTT (Message Queue Transfer Telemetry): có khá nhiều các server MQTT miễn phí để các nhà phát triển sử dụng. Tuy nhiên, nếu muốn bảo đảm tính riêng tư và bảo mật thì các nhà phát triển nên tự triển khai giải pháp MQTT server riêng.

- Vi xử lý tích hợp vào thiết bị: nên là các vi xử lý hỗ trợ các giao thức kết nối Internet. Hiện tại ESP là một dòng vi xử lý đang được sử dụng phổ biến bởi tính năng phù hợp (hỗ trợ kết nối Wifi, Bluetooth), nhỏ gọn và giá thành rẻ.

BƯỚC PHÁT TRIỂN TIẾP THEO

Trong sự kiện Google I/O 17, Google công bố bộ công cụ phát triển Actions on Google và API.ai để giúp các nhà phát triển xây dựng các ứng dụng tương tác với Google Home bằng giọng nói được tự nhiên hơn. Như vậy, bên cạnh việc sử dụng IFTTT, các nhà phát triển có thể sử dụng Actions SDK để xây dựng các ứng dụng phức tạp hơn. Ngoài ra, Google Assistant SDK cũng được công bố và có thể tích hợp vào các thiết bị khác không chỉ là điện thoại Android và Google Home (Raspberry PI 3 là 1 ví dụ), điều này thúc đẩy quá trình phát triển các ứng dụng trên nền tảng Google Assistant, và xa hơn là các ứng dụng tương tác người máy sử dụng giọng nói. Việc con người trao đổi, ra lệnh và điều khiển các hệ thống máy tính bằng giọng nói là một điều có nhiều khả năng sẽ diễn ra trong tương lai không xa.

Nguồn: Internet

7.885 09/01/2018