青青草国产成人av片免费/香港三级日本韩国三级专线/国内自拍在钱/天堂国产女人av
論壇
排行
專題
Collection
學院設施
登錄
加入學院
搜索
本版
用戶
每日簽到
任務中心
勛章中心
發帖際遇
貝殼夢
PassWord
RoseTta
海龜湯之謎
邏輯訓練場
百科學院
囚徒困境VS自然選擇
回復
囚徒困境VS自然選擇
樓主:
30886
|
查看:
1887
|
回復:
3
查看:
1887
|
回復:
3
[知識科普]
囚徒困境VS自然選擇
簡潔模式
30886
發表于 2013-8-24 09:34:51
囚徒困境的故事太出名了,應該不用詳細介紹吧……學院剛好有一道這樣的題:
http://www.njjzkj.com/thread-34913-1-1.html
可能唯一值得說的是,如果令兩個囚徒都合作的收益為R (reward),都背叛的收益為P (punishment),一方合作一方背叛則合作方得到 S (sucker)、背叛方得到T (temptation),那么一個經典囚徒困境必須是T > R > P > S. 不滿足這個的就不是囚徒困境。
重復囚徒困境的故事這些年也慢慢出名了……如果是單次博弈,那么顯然背叛永遠優于合作。但是如果這個博弈要重復多次,那么合作就有了出頭的機會。
Axelrod 做了一個名垂青史的實驗:向全世界同行征集重復囚徒困境的策略,然后在計算機里讓它們相互搏斗。第一次他征集到14個參賽者,最后獲勝的出乎所有人意料是最簡單的策略——Rapoport 提交的【“一報還一報” (TFT, tit for tat)】。它只有兩條規則:開場先合作,然后重復對方上一次的策略。它單獨出現時沒用,但一群TFT相遇時,它們相互之間會合作獲益、而對外則背叛不讓別人占便宜。
做出來之后 Axelrod 把結果寫成了一篇文章,附上了詳細的分析,并邀請人們在研究過第一輪的經驗教訓后參加第二輪。第二輪他獲得了63個參賽者,只有一個人原樣提交了TFT策略——就是Rapoport本人。結果TFT又取得了勝利。
網上很多文章就講到這里為止了,但是故事其實沒有完。Axelrod 的實驗里每個策略都是定死的,而對方的行為也是明確無誤的,但自然界有突變、有噪音。如果把這些因素引入進來會如何?
所以 Nowak 做了一套新的實驗,不是邀請全世界專家提交策略了,而是設一個大小合理的策略空間,允許每個個體在里面隨機突變來選擇策略。此外每次行為有一定概率產生噪音,比如對方明明應該出合作,但實際打出來變成了背叛。
起始值的策略是隨機的。不出意外,這個一鍋粥很快被【ALLD (永遠背叛)】占據了。
但一段時間后會出現一小群抱團的個體,它們采用十分類似于TFT的策略,站住了腳跟。TFT永遠是合作出現最好的催化劑,如果這個TFT群體足夠大,那么合作會很快橫掃整個群體。
可是TFT不是最后的勝利者,因為它無法應付噪音——兩個本來合作得很好的TFT如果不小心遭遇一次誤判,就會陷入一連串的背叛當中而失去優勢。事實證明在TFT占主體的基礎上,會產生一種新策略將TFT取代——也即【 GTFT(慷慨的一報還一報)】。它的特點是,即使對方出了背叛,下一輪也有一定的概率選擇合作,這樣就可以挽救陷入無窮背叛的可能。此所謂“自然選擇發現了寬恕”。
還沒完。在GTFT 一統天下之后,【ALLC (永遠合作)】就會出現。在一個所有人都是好人的社會里,反擊壞人的能力會變得失去意義。隨機漂變的作用使得ALLC比例上升。而且ALLC比GTFT更能應對噪音——GTFT還要等幾回合才會寬容,ALLC當即就能拉回合作的“正軌”。
前提是正軌必須存在。當GTFT讓位于ALLC之后,就為永遠背叛的 ALLD 入侵敞開了大門。ALLD 一旦出現就會掌握巨大的優勢,憑借它的背叛將所有ALLC打趴下,迅速占據了主導地位。于是新一輪的循環開始。
這個ALLD - TFT - GTFT - ALLC - ALLD 的循環是極其普遍的,而且它的普遍不止存在于博弈論模型里——好人合作打敗了壞人,多年以后好人放松了警惕、壞人于是東山再起,這個敘事模型在各種故事傳說里都太普遍了(《魔戒》就是個好例子)。至于這能否作為現實人類歷史上戰爭和平循環的抽象表述,那就見仁見智了。
但是有一種辦法可以打破這個循環,那就是引入“反思”機制。在擴大了策略空間之后, Nowak 等人意外發現了一個新的策略可以長期穩定存在——【“輸則改之,贏則加勉” ( WSLS, win-stay, lose-shift )】。這個策略也很簡單,如果我上一輪賺了便宜、獲得了T或者R的結果(不記得這兩個字母請回開頭復習) ,那么這一輪我繼續剛才的策略。如果我上一輪吃了虧、獲得了S或者P,那么這一輪我就換成另一種策略。
如果兩個 WSLS 相遇,它們大部分時間都合作。萬一遭遇了噪音,那么下一輪雙方都背叛;再下一輪雙方又合作了。糾錯延遲只有1回合。這一點比GTFT更強,只比ALLC 弱一點點。
但是WSLS有個王牌,使得它不怕ALLC。那就是在和ALLC交手一段時間后,它會發現ALLC完全不懂得背叛。WSLS只要發生一次偶然背叛,之后就是永久背叛,使得老好人 ALLC 遭受慘無人道的剝削。 這樣一個WSLS不會隨著時間推移而“放松警惕”變成ALLC,當然也就不會遭受ALLD的后續必然入侵。
唯一略微糾結的是面對ALLD。如果R > (T+P) / 2 ,那么WSLS不怕ALLD。如果不滿足,那么實驗表明最后穩定的是WSLS的一個變體——遭遇雙方背叛 P 的時候不必然改變策略,而只是以一定概率改變策略。無論如何,這個反思策略一旦出現,就很難會落入前面提到的那個惡性循環了。
雖然以上只是一個極其粗糙的模型,但說實話,面對現實社會中的現象,真的很難不聯想啊。
0
7
分享
29947
0
|
發表于 2013-8-24 09:45:31
現在沒時間看。。。先收藏了。。。
19331
0
|
發表于 2013-8-24 10:21:31
好餓~先吃飯去了~收藏了~
30300
0
|
發表于 2013-8-24 10:37:42
有些英文看不懂啊,
所以我沒看完。
只看了點點。。
返回版塊
尚未登錄
高級模式
您需要登錄后才可以回帖
登錄
|
加入學院
回帖后跳轉到最后一頁
發表回復
分享
復制鏈接