ChatGPT論文通過圖靈測試：是AI太聰明，還是學界太灌水？

發布時間：2023-02-24 12:19 原文鏈接： ChatGPT論文通過圖靈測試：是AI太聰明，還是學界太灌水？

去年12月的一項實驗里，審稿人嘗試鑒別出那些混藏在學術文獻中的“AI文本”，但是竟然有三分之一的AI論文成功蒙混過關。這使人警惕，AI論文是否會成為論文造假的新工具？另一方面，人們也對同行評議制度的有效性、學術文獻的同質性產生了擔憂，學界是否是灌水太嚴重了，才會讓AI模仿的門檻如此之低？

ChatGPT強大的文本生成能力震驚了世界。它甚至能夠進行學術寫作，產出的很多文獻竟然可以魚目混珠。這一情況讓學術出版行業十分警惕。國際光學和光子學學會(SPIE) 出版總監Patrick Franzen表示，由于擔憂這種“AI論文”的準確性和道德規范，他和其他期刊的管理人員正在致力于保護學術文獻這方凈土免受AI論文潮的侵蝕。“自去年11 月以來，我們一直在談論這一切”，Franzen說。

在ChatGPT風行全球的時候，多家期刊迅速出臺了關于以AI參與研究或論文寫作的相關規定。Cell和柳葉刀雖然允許投稿人使用AI工具，但作者不能依賴其完成關鍵任務——比如解釋數據或得出結論，并且作者必須如實聲明他們是否以及如何使用了AI工具。

Nature則明確規定：任何大型語言模型工具（如ChatGPT）都不能被列為論文作者；作者如在論文寫作中使用過AI工具，則應在論文中明確標明。另一頂級期刊Science則完全禁止論文使用ChatGPT生成的文本。因為Science的編輯認為，AI不能對其寫作的內容負責。

為什么期刊編輯們對AI論文如此緊張？難道依賴同行評議制度把關論文質量的學術界，難道一篇由AI東拼西湊攢成的文章，竟然有可能突破一個個專業審稿人的圖靈測試，在學術界大搖大擺地登堂入室？

答案還真不好說。

當 ChatGPT 全球免費開放后，使用這個AI工具的人堪比過江之鯽，科研工作者也不例外。而不久前的一項研究聲稱，許多人可能都難以鑒別出AI所寫出的學術文獻。這項研究由美國西北大學的Catherine Gao等人2022年12月27日發表于預印本平臺 bioRxiv ，題為：Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers 。

在這項研究中，研究人員將ChatGPT生成的論文摘要交予審稿人盲審。但審稿人只鑒別出了68%的AI論文，換言之，有近三分之一的論文，他們沒能識別出來。這些審稿人表示，要區分兩者之間的差別并不容易，雖然仍有一些模糊痕跡可以追尋。

這項研究能得出的結論仍十分有限，但仍然令人十分吃驚，并且造成了一點小尷尬。吃驚的點在于，ChatGPT強大的文本生成能力。尷尬的點在于，同行評議在應對AI贗品時，竟然出乎意料的乏力。這一現象似乎指向兩種解釋：一是同行評議制度失靈了；二是學界論文同質性太過嚴重，以至于AI東拼西湊再灌水出一篇，人們也難以鑒別。當然，對于學術界來說，兩種解釋都不怎么積極。

從根本邏輯上講，現在的ChatGPT只是個預訓練語言模型，它只能從已有的訓練樣本中提取、整合信息，而不能真正地發展出新的知識。而且期刊編輯們認為，使用AI進行寫作，準確性其實并不能得到很好的保證。因為，如果AI沒有接觸到足夠的訓練樣本以給出恰當答案，那么它通常會自己編造一些信息。2022年11 月，科學家專用的大型語言模型 Galactica，在開放幾天之后就匆忙下線，因為它雖然接受了學術文獻樣本的相關訓練，但是事實錯誤仍然比比皆是。2022 年一項對 Sparrow（由 Google 子公司開發的信息檢索聊天AI）進行的預印本研究發現，其回復有高達 20% 的比例包含錯誤。而且，AI會十分偏向于訓練樣本中包含的科學假設與前提。

除此之外，期刊編輯更擔心AI會助長剽竊之風，即使用AI來對論文進行洗稿、降重。這種現象在高校學生群體中尤其猖獗。美國在線課程提供商Study.com對100多名教育工作者和1000多名18歲以上的學生進行了問卷調查，結果發現：超過89%的學生使用ChatGPT來幫助完成家庭作業，53%的學生承認曾用它寫論過文。網絡上甚至誕生了一個新詞來指代這種學術不端行為——“aigiarism”（AI化抄襲）。

正如前文所述，期刊編輯們對這種新式學術不端十分擔憂，因此正在積極擬定政策進行應對。而自然而然地，審稿人就會負擔起檢查或核查作者披露的生成的文本——這些任務會增加本已很繁重的志愿者工作量。Taylor & Francis的學術道德與誠信主管Sabina Alam表示，隨著出版界在處理AI論文方面經驗的積累，相應處理政策仍有變化空間。

互聯網公司也在積極配合研發相應的AI文本檢測工具。OPEN AI在去年12 月表示，他們正在嘗試為AI生成的文本添加“水印”。具體而言，他們考慮將AI進行調整，令其輸出的文本中具有某種特殊的字符規律，而這種字符段能夠被AI探測器鑒別出來，從而所有AI輸出的文本都帶上了一種“水印”。

此外，上個月斯坦福大學的一個團隊也發布了一個探測器 DetectGPT 。它的特殊點在于，它并不需要獨立的算法培訓。它的工作方法是，首先創建多個隨機變體文本，并讓AI按照它的喜好程度對這些文本進行排名。由于AI對原始文本和經AI修改后的文本的偏好程度有異。所以DetectGPT可以據此確定文本是否出自AI之手。不過目前DetectGPT仍需進一步改進。

不過，雖然有一些負面的影響，但AI文本生成在輔助學術方面仍然具有巨大的應用潛力。學術出版開發軟件商scite.ai的研發科學家Domenic Rosati聲稱，他們正在開發一種檢查器，這種工具能夠將AI文本所使用的文獻來源進行追溯，以便人們在使用AI進行文本創作時可以比對參考文獻進行準確性校對。在這個意義上，我們能夠發現AI將以一種更為務實的姿態來扮演學者的文獻助手的角色。在涉及到海量科學文獻的場景，這類AI工具無疑會起到巨大的幫助。

尤其是，在撰寫綜述文章一類的學術文獻時，或是在一些需要對大量文獻資料進行分析的社會學科，AI強大的資料整合、文本生成能力，將會改變不少學術范式，并且會引領這些研究走向一個新的層次。

因此，局部、短期來看，或許AI在學術出版界造成了一定的“麻煩”，但是從全局、長遠來看，學界在完全接納了AI 之后，它必將會充分施展自己的才能，并且成為學術活動中不可或缺的助理角色。科研與人工智能之間只會是合作，而非對抗。

https://www.science.org/content/article/scientists-explore-ai-written-text-journals-hammer-policies

實驗室

山西師范大學分析測試中心化學工程聯合國家重點實驗室(華東理工大學)

ChatGPT論文通過圖靈測試：是AI太聰明，還是學界太灌水？

其他網友還關注過

多項AI+未來農業大模型成果發布

多項AI+未來農業大模型成果發布

“AI已深度融入了生物資源研發和產品創新”

“AI已深度融入了生物資源研發和產品創新”

姜標：“AI嘗百草”，解鎖蚊媒防控藥物新密碼

姜標：“AI嘗百草”，解鎖蚊媒防控藥物新密碼

印遇龍：AI賦能育種是生豬產業跨越發展重大機遇

印遇龍：AI賦能育種是生豬產業跨越發展重大機遇

鐘南山：大力發展醫學AI不是選擇題，而是必答題

鐘南山：大力發展醫學AI不是選擇題，而是必答題