Lý thuyết trò chơi và bài toán tình thế lưỡng nan của người tù

 Lý thuyết trò chơi là một ngành của Vận trù học. Mục đích của nó là phân tích một dãy rộng các tình huống cạnh tranh. Việc phân tích này có hai mục tiêu. Mục tiêu thứ nhất là tìm hiểu được tại sao các bên tham gia trò chơi trong các tình huống cạnh tranh đó lại ứng xử như họ làm. Mục tiêu thứ hai có tính thực dụng hơn là có khả năng gợi ra cho người chơi cách chơi nào tốt nhất. Mục tiêu thứ nhất đặc biệt quan trọng khi trò chơi ở mức rộng, có nhiều người chơi và có các quy tắc chơi phức tạp. Theo đuổi mục tiêu thứ hai có thể cho phép mô tả cho từng người chơi một chiến lược tốt nhất mà anh ta có thể chơi.

Lý thuyết trò chơi được coi như một ngành của toán học từ năm 1928 với các công trình nghiên cứu của John Von Neuman. Các kết quả này sau đó được mở rộng trong cuốn sách “Lý thuyết trò chơi và các hành vi kinh tế” của John von Neuman và Oskar Morgenstern. Cuốn sách này chỉ ra phương pháp tìm lời giải tối ưu cho bài toán có tổng bằng không với hai người chơi. Các nghiên cứu này tập trung vào trò chơi hợp tác.

Năm 1950-1951, J.K. Nash với các bài báo “Bài toán thương lượng, mặc cả” và “các trò chơi không hợp tác” đã phát triển định nghĩa về một chiến thuật tối ưu cho trò chơi, sau này được biết đến như “cân bằng Nash” (Nash equilibrium), cho phép phân tích về trò chơi không hợp tác. Năm 1965 Reinhard Selten đã làm chính xác thêm cân bằng Nash bằng cách đưa ra khái niệm lời giải của các cân bằng lý tưởng. Năm 1967 John Harsanyi phát triển các khái niệm thông tin hoàn toàn và trò chơi Bayesian. Nhờ những công trình trên năm 1994 cả ba ông được trao giải Nobel về kinh tế.

Năm 2005 Thomas Schelling và Robert Auman, được trao giải Nobel về kinh tế cũng là những lý thuyết gia về lý thuyết trò chơi.

Năm nay, 2012, hai người Mỹ là Alvin Roth và Lloyd Shapley cùng được trao giải Nobel về kinh tế nhờ những công trình về lý thuyết phân phối ổn định và thực tiễn tạo lập thị trường, trên cơ sở sử dụng lý thuyết trò chơi và thực nghiệm.

Ngày nay lý thuyết trò chơi được áp dụng trong chính trị, quân sự,văn hóa, kinh tế và nhiều ngành khác.

Để bước đầu làm quen với lý thuyết trò chơi, chúng tôi giới thiệu bài toán “Tình thế lưỡng nan của người tù” (The Prisoner’s Dilemma) là một bài toán nổi tiếng của lý thuyết trò chơi. Bài toán này thường được lấy làm ví dụ cho các sách giáo khoa về lý thuyết trò chơi. Bài toán như sau:
Có hai người tù A và B bị bắt vì tội cướp của. Cảnh sát cách ly A và B để chúng không thể liên lạc, thông đồng với nhau. Cảnh sát yêu cầu chúng thành thật khai báo nhận tội, và đưa ra điều kiện: Nếu anh ta nhận tội và khai báo người kia thì sẽ chỉ bị 2 năm tù trong trường hợp người kia không nhận tội, và 5 năm tù nếu người kia cũng nhận tội. Mặt khác, nếu anh ta không nhận tội mà người kia nhận tội thì anh ta sẽ bị 10 năm tù.

Cuối cùng nếu cả hai không nhận tội thì cả hai sẽ chỉ bị 2 năm tù.
Bài toán này có thể tóm tắt ở bảng sau

Tù nhân A không nhận tội Tù nhân A nhận tội
Tù nhân B không nhận tội Cả hai bị 2 năm tù B bị 10 năm tù, A – 1 năm tù
Tù nhân B nhận tội B – 1 năm tù, A – 10 năm tù Cả hai bị 5 năm tù

Bài toán này có hai người chơi là A và B. Hai người bị cách ly nên người này không biết người kia chọn điều gì (nhận tội hay không). Vì vậy tình huống là rất khó xử, như tên gọi của trò chơi.

Ta có thể thấy rằng, ở địa vị A (hoặc B) đều có thể suy nghĩ nếu nhận tội thì có thể chỉ bị 1 năm tù khi mà B (hoặc A) không nhận tội, còn B (hoặc A) sẽ chịu 10 năm tù; còn nếu B (hoặc A) cũng thú tội thì bị 5 năm tù. Ý nghĩ này xuất phát từ mong muốn ích kỷ sao cho mình có thể bị tù ít nhất nên nhận tội và đào ngũ với bạn. Trường hợp đào ngũ khiến tổng thời gian tù của cả hai sẽ là 11 năm (trong có kẻ ích kỷ chỉ chịu 1 năm), hoặc là 10 năm (nếu cả hai cùng suy nghĩ ích kỷ như nhau) nhiều hơn là khi không nhận tội (hợp tác với nhau) sẽ cùng bị 2 năm tù, tổng cộng chung cả hai là 4 năm.

Như vậy cả A và B đều chỉ có hai chiến lược là hợp tác và đào ngũ.

Ta có thể lập ma trận thưởng – phạt (payoff) như sau:

Hợp tác Đào ngũ
Hợp tác 2, 2 10, 1
Đào ngũ 1, 10  5, 5

Qua ma trận trên, chúng ta nhận thấy là nếu cả hai chọn chiến lược hợp tác thì tổng số thiệt hại là nhỏ nhất (2+2=4 năm tù) – ô 1.1 của ma trận trên. Còn nếu cả hai cùng chọn chiến lược đào ngũ (không hợp tác) thì tổng số thiệt hại lên tới 10 năm tù (ô 2.2, 5+5=10). Một khi chỉ có một bên chọn chiến lược hợp tác, thì tổng số thiệt hại chung lên tới 11 năm tù (ô 1.2 và 2.1) trong đó anh bạn phản bội hưởng lợi chỉ bị 1 năm tù, còn người kia chịu tới 10 năm tù.

Như vậy, bài toán này có thể coi là bài toán phân tích lợi ích của sự hợp tác, và đặt quyền lợi chung của cộng đồng làm mục tiêu.

Trên đây chúng ta chỉ xét bài toán kết thúc sau một bước đi. Người ta đã mở rộng bài toán này bằng cách cho người chơi thực hiện nhiều bước đi và gọi là bài toán tình thế lưỡng nan của tù nhân lặp lại. Người chơi cũng chỉ có 2 chiến lược là hợp tác và đào ngũ, song có quyền lựa chọn chiến lược cho mỗi bước đi của mình. Bài toán mở rộng này được Robert Axelrod khảo sát bài toán này và trình bày trong tác phẩm Sự tiến hóa của sự hợp tác (1984) ông đã mời nhiều nhà nghiên cứu từ khắp thế giới tạo những chiến thuật của mình, và viết chương trình để dùng máy tính đấu với nhau. Nhiều chương trình máy tính với các chiến thuật rất khác nhau với độ phức tạp khác nhau của thuật toán, mức độ thù địch ban đầu, và khả năng tha thứ… được gửi tới ông. Sau một thời gian dài với nhiều người tham gia cuộc đấu này, kết quả là những chiến thuật tham lam (đào ngũ) có kết quả thấp hơn các chiến thuật vị tha (hợp tác). Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol Rapoport xây dựng. Chiến thuật này là: bước đi đầu tiên là hợp tác, sau đó chỉ làm theo đối thủ trong các bước sau, nghĩa là nếu đối thủ đào ngũ thì mình cũng đào ngũ, còn hợp tác thì mình cũng hợp tác.

Axelrod kết luận rằng “ăn miếng trả miếng” là một chiến thuật đẹp, nó bắt đầu bằng sự hợp tác, và chỉ đào ngũ nếu đối thủ không hợp tác (đào ngũ). Vì có nhiều tiếp theo nên người chơi có thể phản ứng lại ngay và trừng phạt đối thủ.

Người ta dùng bài toán này để xem xét vấn đề chạy đua vũ trang giữa hai quốc gia. Bài toán này còn được áp dụng trong nhiều lĩnh vực của cuộc sống, trong đó có kinh tế.

Trong kinh doanh, trên thị trường có nhiều người tham gia, có thể coi là các đối thủ của nhau trong một trò chơi. Có thể xem đây là trò chơi có nhiều người chơi với những chiến lược, chiến thuật khác nhau và không có thông tin đầy đủ. Mỗi công ty là một người chơi cần tìm một chiến lược, và chiến thuật sao cho tốt nhất cho mình. Bài toán “tình thế lưỡng nan của tù nhân” cho thấy có chiến lược đem lại lợi ích chung (hợp tác), và có chiến lược mang tính ích kỷ, chỉ tính lợi ích của riêng công ty mình (đào ngũ). Qua việc phân tích bài toán trên ta thấy nếu chỉ có một bước đi, như bài toán gốc thì lợi ích chung là hợp tác, còn đào ngũ đem lại đầy rủi ro, và tổng lợi ích là thiệt hại rất lớn. Tuy nhiên trong khi mở rộng trò chơi này, thực hiện nhiều bước đi, chiến thuật thay đổi thì người ta vẫn nhận thấy hợp tác bao giờ cũng tốt hơn đào ngũ. Nhưng trong hoàn cảnh cạnh tranh, và với các biện pháp đấu tranh với nhau thì người ta phải tìm các chiến thuật thích hợp, thí dụ người ta đã thử nghiệm và thấy chiến thuật “ăn miếng trả miếng” (tit for tat) là hay hơn cả.

Trong điều kiện nghiên cứu các mối quan hệ phức tạp này, người ta phải giả định và sử dụng máy tính chơi thử. Khi đó có thể có các kết quả để suy tính và quyết định. Các nghiên cứu thử nghiệm chơi trên máy tính đều cho thấy hợp tác là tốt hơn cả cho mọi người. Nhưng cho riêng mình thì sao? Đây lại là vấn đề khác mang tính triết lý riêng và chung.

         Hiện nay lý thuyết trò chơi với công cụ là máy tính đã giúp cho việc nghiên cứu kinh tế thực nghiệm. Các nghiên cứu này đang gặt hái được những kết quả tốt và hy vọng chúng ta sẽ từng bước xây dựng được bài toán của mình và sử dụng máy tính để tính toán thử nghiệm. Với cách làm này chúng ta có thể xây dựng được những chiến lược tốt cho công ty của mình.

Hãy Share cho mọi người cùng tham khảo!

Theo TS. Lý Bách Chấn

TDgroup sưu tầm

Trả lời

Thư điện tử của bạn sẽ không được hiện thị công khai. Các trường bắt buộc được đánh dấu *

Tin tức liên quan