Monday, April 2, 2018

9 sai lầm của mọi người về "Machine learning'



Những hiểu lầm và quan niệm sai lệch về machine learning xuất hiện ngày một nhiều do nó càng ngày càng bị cường điệu hoá. Bài viết này sẽ cho bạn một cái nhìn tổng quát về những gì machine learning có thể và không thể làm.

Machine learning được tin rằng hữu dụng đến nỗi nó có thể giải quyết mọi vấn đề và áp dụng trong mọi cảnh huống. Giống như các phương tiện khác, machine learning rất bổ ích trong một số lĩnh vực cụ thể, đặc biệt đối với các vấn đề mà bạn ngay gặp phải nhưng bạn biết rõ rằng bạn sẽ không bao giờ có thể thuê đủ người để giải quyết, hoặc đối với các vấn đề có đích nhưng không có phương pháp rõ ràng để đạt được nó.



Tuy nhiên, mỗi tổ chức thường áp dụng machine learning theo những cách khác nhau, như 42% những nhà điều hành cấp cao gần đây nói với Accenture rằng họ trông đợi AI sẽ đứng sau tất tật những đổi mới vào năm 2021. Nhưng bạn sẽ khai hoang nó tốt hơn nếu bạn không bị ảnh hưởng bởi những luồng ý kiến bơm hoá và không quá tin vào những thành kiến bằng cách hiểu những gì machine learning có thể và không thể thực hiện. 


1. Machine learning là AI

Machine learning và AI thường được cho là hai từ đồng nghĩa, nhưng trong khi machine learning là kỹ thuật được sử dụng rất nhiều trong các phòng thí điểm, AI là một mảng lớn bao gồm các lĩnh vực như tầm nhìn máy tính, robot và xử lý ngôn ngữ tự nhiên , cũng như những cách tiếp cận khác như giảm sự ưng ý mà không bao gồm machine learning. Hãy nghĩ suy nó như những thứ làm cho máy móc trở nên thông minh hơn. Không phải lúc nào máy móc cũng sử dụng trí tuệ nhân tạo, thứ mà mọi người nghĩ có thể sẽ đấu tranh hoặc thậm chí tấn công loài người.

Hãy chú ý đến các thuật ngữ và sử dụng chúng thật chính xác. Machine learning là về học các mô hình và dự đoán các kết quả từ các tập dữ liệu lớn; các kết quả trông có vẻ ” thông minh” nhưng thật sự nó đang sử dụng các số liệu thống kê với tốc độ và quy mô chưa từng có.

2. bít tất các dữ liệu đều hữu ích

Bạn cần data cho machine learning, nhưng không phải vơ dữ liệu đều bổ ích cho machine learning . Để đào tạo hệ thống của bạn, bạn cần những dữ liệu đại diện bao gồm các patterns và kết quả mà hệ thống machine learning của bạn cần phải xử lý. Bạn cần dữ liệu không có các patterns liên hệ (chả hạn như các ảnh cho thấy vơ những người đàn ông đứng lên và ắt đàn bà ngồi xuống, hoặc cả thảy những chiếc xe đang ở trong ga-ra và vớ những chiếc xe đạp đang ở trong một bãi lầy) vì chưng mô hình machine learning sẽ phản chiếu những patterns cụ thể và tìm chúng trong dữ liệu bạn có. vơ những dữ liệu bạn dùng cho việc đào tạo nó cần phải được phân loại tốt, và dán nhãn các tính năng bạn hỏi machine learning, điều đó tốn rất nhiều công sức.

Đừng nghĩ rằng dữ liệu bạn có luôn tốt, có thể đại diện cho phần đông hoặc có thể dễ dàng gắn nhãn.
3. Bạn luôn cần nhiều data

Những cải tiến lớn đã được thực hiện gần đây về khả năng nhận mặt hình ảnh, đọc hiểu của máy, dịch thuật và các lĩnh vực khác đã ra mắt nhờ có sự xuất hiện của các phương tiện tốt hơn, computing hardware như GPUs có thể xử lý một số lượng lớn dữ liệu và những tập dữ liệu lớn đã được gắn nhãn, bao gồm ImageNet và tập dữ liệu Stanford Question Answering. Nhưng nhờ vào một mẹo gọi là transfer learning, bạn không phải lúc nào cũng cần một tập dữ liệu lớn để đạt được kết quả tốt trong một lĩnh vực cụ thể; thay vào đó, bạn có thể dạy hệ thống machine learning học cách dùng tập dữ liệu để nó dần có thể tự học với những tập dữ liệu nhỏ hơn. Đó là cách custom vision APIs từ Salesforce và Microsoft Azure hoạt động: Bạn chỉ cần 30-50 hình ảnh để chứng minh rằng bạn có thể phân loại nhằm có kết quả tốt hơn.

Transfer learning cho phép bạn tùy chỉnh một hệ thống đã được đào tạo từ trước để giải quyết các vấn đề với lượng dữ liệu tương đối nhỏ.
4. Bất kì ai cũng có thể xây dựng một hệ thống machine learning

Có rất nhiều phương tiện mã nguồn mở và framework dành riêng cho machine learning và có ti tỉ các khóa học chỉ bạn cách sử dụng nó. Nhưng machine learning vẫn là một kĩ thuật chuyên ngành; bạn cần biết cách chuẩn bị dữ liệu và phân vùng cho việc đào tạo và testing, bạn cần biết cách chọn thuật toán tốt nhất và biết heuristics để dùng với nó, cách biến nó thành một hệ thống đáng tin tưởng.# để sản xuất. Bạn cũng cần phải theo dõi hệ thống để đảm bảo rằng các kết quả được đồng bộ theo thời kì; cho dù thị trường có đổi thay hay hệ thống machine learning của bạn đủ tốt để phân loại các nhóm khách hàng khác nhau hay không, bạn cần tiếp tục rà để xem mô hình ấy vẫn còn ăn nhập với vấn đề của bạn hay không.

Việc tìm hiểu machine learning tốn rất nhiều thời gian; nếu bạn mới bắt đầu, hãy nghĩ đến APIs và các mô hình đã được đào tạo từ trước mà code của bạn có thể có trong khi bạn có hoặc thuê data science và chuyên gia machine learning để xây dựng các hệ thống tùy chỉnh.
5. tuốt luốt các patterns trong data đều hữu ích

Người mắc bệnh suyễn, người bị đau ngực hoặc bệnh tim và bất kỳ ai trên 100 tuổi đều có tỉ lệ sống sót cao hơn những người bệnh bị viêm phổi. Trên thực tiễn, một hệ thống machine learning đơn giản được thiết kế để tự động nhập hồ sơ bệnh án có thể gửi chúng về tận nhà của bạn ( một hệ thống được huấn luyện trên cùng một dữ liệu với màng lưới nơ-ron sẽ thực hành những việc giống hệt nhau ). Lí do họ có tỉ lệ sống sót cao như thế là do họ luôn được ưu tiên nhập viện vì bệnh viêm phổi rất nguy hiểm.

Hệ thống đang ngần một pattern hợp lý trong dữ liệu; nó không phải là một pattern hữu ích để lựa chọn bệnh nhân vào viện ( mặc dù nó giúp công ty bảo hiểm dự đoán phí điều trị khá hiệu quả ). Thậm chí nguy hiểm hơn, bạn sẽ không biết rằng những patterns không hiệu quả ấy có trong tập dữ liệu của bạn trừ khi bạn đã biết về chúng.

Trong các trường hợp khác, một hệ thống có thể học một pattern hợp lý ( như hệ thống nhận dạng khuôn mặt đang gây bàn cãi vì dự đoán xác thực thiên hướng tình dục từ selfies) , nhưng nó không đích thực hiệu quả vì không có lời giảng giải rõ ràng ( trong trường hợp các bức ảnh hiển thị các tín hiệu xã hội như pose chứ không phải hình thiên nhiên).

Các mô hình ” Black box ” rất hiệu quả nhưng chúng không làm rõ được chúng đã học được pattern nào. Các thuật toán sáng dạ như Generalized Additive Models có thể làm rõ được model đã học đươc gì để bạn quyết định xem nó có bổ ích để khai triển hay không..
6. Reinforcement learning luôn sẵn sàng để dùng

Hầu như tuốt các hệ thống machine learning đang được sử dụng ngày nay đều dùng supervised learning; Trong nhiều trường hợp, chúng được đào tạo dựa trên các tập dữ liệu được gắn nhãn rõ ràng mà nhiều người đã cùng chuẩn bị. cai quản các tập dữ liệu ấy mất rất nhiều thời kì và công sức, thành ra các loại unsupervised learning được yêu thích hơn, đặc biệt là reinforcement learning (RL) – cách một agent học phê chuẩn việc thử và sai, bằng cách tương tác với môi trường xung quanh và nhận thưởng khi có hành vi đúng. Hệ thống AlphaGo của DeepMind đã dùng RL bên cạnh supervised learning để đánh bại những người chơi Go hàng đầu, và Libratus, một hệ thống được xây dựng dựa trên một team ở Carnegie Mellon, đã sử dụng RL cùng hai kĩ thuật AI khác để đánh bại những người chơi poker hàng đầu trên thế giới tại Texas Hold’Em ( với chiến lược cá cược dài và phức tạp ). Các nhà nghiên cứu đang thử nghiệm RL với mọi thứ từ robot đến testing security software.

Tuy nhiên, RL chỉ phổ thông trong các trường hợp nghiên cứu. Google sử dụng DeepMind để tằn tiện năng lượng trong các trọng điểm dữ liệu của họ bằng việc làm mát chúng hiệu quả hơn; Microsoft dùng một phiên bản hạn chế của RL gọi là “ contextual bandits “ để cá nhân chủ nghĩa hoá các tiêu đề đối với các người dùng mới truy cập vào MSN.com. Vấn đề là chỉ có ít môi trường thực tiễn có phần thưởng và phản hồi tức thời, và đặc biệt là lường gạt phần thưởng khi agent thực hành nhiều hành động trước khi xảy ra bất cứ điều gì.
7. Machine learning không thiên tính

Vì machine learning học từ dữ liệu, nó sẽ sao chép bất kỳ méo mó ​​nào trong tập dữ liệu. quãng hình ảnh của CEO thường sẽ ra hình ảnh của nam CEO da trắng vì có nhiều CEO là người da trắng và là nam hơn những người còn lại. Nhưng machine learning làm các xu hướng đã sai trở nên … càng sai hơn.

Tập dữ liệu COCO thường được sử dụng để huấn luyện hệ thống nhận hình dạng ảnh của cả nam và nữ; nhưng nhiều hình ảnh của đàn bà sẽ được hiển thị bên cạnh thiết bị nhà bếp hơn và nhiều hình ảnh của đàn ông sẽ được hiển thị bên cạnh bàn phím máy tính và chuột hoặc vợt tennis và ván trượt tuyết. Đào tạo hệ thống trên COCO và gán đàn ông với phần cứng máy tính mạnh hơn các số liệu thống kê trong bức ảnh gốc.

Một hệ thống machine learning cũng có thể tạo thêm khuynh hướng lệch lạc cho thông báo. Đào tạo một hệ thống machine learning với các frameworks phổ thông để làm đại diện cho các từ như vectơ trình diễn.# mối quan hệ giữa frameworks và hệ thống sẽ học hỏi những định kiến như ” đàn ông gắn với lập trình máy tính, nữ giới gắn với nội trợ”, thầy thuốc và y tá hoặc ông chủ để tiếp tân. Nếu bạn sử dụng hệ thống đó với một hệ thống dịch giữa các tiếng nói có các đại từ như “ he, she “, như trong tiếng Anh, với những đại từ chỉ giới tính trung lập, như trong tiếng Phần Lan hoặc tiếng Thổ Nhĩ Kỳ, ” Họ là bác sĩ ” trở nên ” Anh ấy là thầy thuốc ” và ” Họ là y tá ” trở nên ” Cô ấy là y tá “.

Machine learning có thể đưa ra những gợi ý na ná trên các trang mua sắm khá tốt, nhưng một số vấn đề về thông tin nhạy cảm và feeback triền miên có thể xảy ra; nếu bạn dự vào một nhóm Facebook không tán thành với việc tiêm ngừa, dụng cụ gợi ý của Facebook sẽ đưa ra gợi ý những nhóm khác liên hệ đến lý thuyết conspiracy hoặc những nhóm tin rằng hình trạng của địa cầu là một mặt phẳng.

Bạn cần hiểu rõ những sơ sót của machine learning. Nếu bạn không thể loại bỏ được chúng trong tập dữ liệu, hãy sử dụng các kĩ thuật như thường nhật hoá các kết liên giới tính với các cặp từ để giảm sơ sót hoặc bổ sung các mục không hệ trọng đến gợi ý để tránh “ filter bubble “.
8. Machine learning chỉ sử dụng cho những mục đích tốt

Machine learning cũng được dùng trong các tools chống virus, theo dõi nhất cử nhất động của những vụ tiến công mới để có thể phát hiện ra chúng nhanh nhất có thể khi vừa bùng phát. Tuy nhiên, các hacker đang dùng machine learning để nghiên cứu các công cụ phòng virus và phòng các cuộc tiến công lường đảo với quy mô lớn bằng cách phân tích một lượng lớn public data hoặc phân tách các vụ lường đảo thành công trước đó.
9. Machine learning sẽ dần thay thế con người

Khá nhiều người lo sợ rằng AI sẽ chiếm dần nhiều công việc và vững chắc nó sẽ thay thế dẫn những công việc do con người làm và cả cách thực hiện; hệ thống machine learning giúp cải thiện hiệu quả, quá trình diễn ra mượt mà và giảm phí. Về lâu về dài, nó sẽ tạo ra những ra những công việc mới cũng như làm một số công việc ngày nay trở thành lỗi thời.

Tuy nhiên, không phải công việc nào machine learning cũng có thể thực hiện được, vì độ phức tạp hoặc quy mô của công việc; Ví dụ, bạn chẳng thể thuê đủ người để rà soát mọi bức hình được đăng trên social media để xem chúng có can dự đến thương hiệu của bạn hay không.

Việc machine learning đã bắt đầu dự vào là tạo ra những cơ hội kinh dinh mới, chả hạn như cải thiện trải nghiệm của khách hàng bằng predictive maintenance, và đưa ra những đề xuất và tương trợ cho các nhà lãnh đạo của doanh nghiệp. Giống như các đời tự động hóa trước đó, machine learning có thể giúp viên chức phát huy tối đa chuyên môn và sự sáng tạo của họ.

0 comments:

Post a Comment