青青草国产成人av片免费/香港三级日本韩国三级专线/国内自拍在钱/天堂国产女人av

回復

推理謎題數據集?

樓主: 238086 | 查看: 2686 | 回復: 8

發表于 2023-11-8 00:12:33 廣西| 2023-11-8 15:27編輯 | 來自小霸王手機
大家好,

我是一名自然語言處理(NLP)方向的科研人員。目前大規模語言模型(LLM)的推理能力是人工智能(AI)研究的一個熱點。

我曾經了解過一些推理故事,玩過一些偵探游戲,我個人覺得推理謎題——尤其是各種信息互相矛盾/互相關聯的謎題——非常適合用來研究LLM用作agent(我也不知道怎么翻譯好)進行鏈狀、樹狀、圖狀的復雜推理。

目前世界上的相關研究并不多,面臨最大的難處是沒有可用的開源數據集,因為不公開的數據集會導致實驗不可復現,這在AI研究中是不被接受的:大部分LLM復雜推理的工作只能靠作者人工構造任務,如排序、24點等,這些小任務并不能全面反映模型的推理能力;今年初曾有一篇論文與國外偵探推理網站合作,用網站數據做了一個數據集并公開發表(名為True Detective),但形式僅限于選擇題,且故事篇幅較短(一般約200-300個詞);7月有一篇arxiv預印版論文在數據收集一節只說他們是從網上收集公開的謎題,但檢驗方式沒寫清楚(實驗結果只報了分數,文中沒寫清楚是什么分數)。

我希望大家能給我一些建議,有沒有可能找到開源的推理謎題庫?什么語言都可以,因為我的研究方向是multilinguality(多語言性?),我會用機器翻譯模型把謎題翻譯成中英法德等多種語言。

5

2

分享

1 | 發表于 2023-11-8 10:22:43 廣東
一直就在想會不會有推理愛好者大神用謎題訓練AI,還真的有人做了
之前在某發展史里聽說推理謎題是國內論壇獨有的類型,國外推理網站上的題目大多就是像你說的那種一分鐘破案級別的。而且現在推理謎題創作和發表基本都分散在在論壇、社刊、公眾號和群之類,現成的完整謎題庫是不會有
學院的三百道官方活動題和一些優質謎題不曉得能不能行,還有其他一些曾有大量謎題的論壇,就是版權有一部分屬于原作者,處理起來不知道會不會比較麻煩

@名偵探小品 考慮一下賺錢機會(bushi)?
1 | 發表于 2023-11-8 16:16:02 陜西| 2023-11-8 16:19編輯
你們對版權風險的要求,是事先就要確保題庫中的題都不侵權,還是類似避風港事后侵刪?
只是數據集的話,隔壁推理罪有個題庫(不少三分鐘推理題),腦殼也是個大題庫(里面有專門的推理故事分類),還有重量不重質的33IQ,都可聯系站長尋求合作的可能。但這三個,加上學院的案發現場邏輯學院倆板塊,細摳起來,都有不少未經授權的轉載題,之所以還沒被刪只是還沒被人舉報罷了,直接拿去做數據集(即使他們的站長同意也)可能有第三方侵權風險。
另外,你想找廣義的puzzle題庫(包括密碼、腦筋急轉彎、謎語、圖形、數學趣題、puzzle hunt題型等),還是狹義的“偵探故事”類題庫?若是前者,puzzling.stackexchange.com也是不錯的來源,而且pse社群很重版權,上面的題目都是以CC-BY-SA licence with attribution required發布,且格式良好,挺適合做數據集的,不過偵探故事類題不多
| 發表于 2023-11-8 16:23:25 廣東| 發自安卓客戶端
哥們厲害了,雖然我不能提供這個數據庫或者有關信息,但是很支持你的研究也很期待推理在新時代人工智能時代有新的發展
尚未登錄
您需要登錄后才可以回帖 登錄 | 加入學院