嗨,Dave,我是一名高中老師,我對現在可用的所有 AI 寫作工具感到好奇。有沒有辦法識別文本是由程序而不是人編寫的?如果是這樣,它在今天有多準確?

雖然基於機器學習的 AI 工具已經存在了幾年,但 2023 年初一直是關於 OpenAI 及其 ChatGPT 工具的。難怪;你可以要求它生成幾乎任何類型的文本內容,幾秒鐘之內你就會得到不錯的東西。算不上出色,但有多少歌詞、詩歌、博文、文章評論或學生論文是出色的?

話又說回來,老師們不是大海撈針,我們只是試圖幫助人們學習新事物並擴展他們的視野和專業知識。如果我們給他們書面任務而不是編寫它們,他們轉向可以生成內容的軟件或網站,那麼這項任務就會變得更加困難。單擊並複制/粘貼與產生深思熟慮和切題的東西所需的批判性思維?不幸的是,總會有幾個懶惰的學生會出於任何原因尋求捷徑。

使用 AI 與抄襲有區別嗎?

在某種程度上,這與抄襲沒有區別剽竊。在互聯網出現之前,剽竊指的是學生抄襲一本書或以前學生的作業。在數字時代,有數十個網站提供從莎士比亞到有機化學等數千個主題中的任何一個的“僅 A 論文”。重寫一般通過測試多詞短語來識別。例如,TurnItIn 等公司的剽竊測試在這方面非常可靠。但是像 ChatGPT 這樣的人工智能工具每次被調用時都會產生獨特的內容,那麼如何檢測它們呢?

事實證明,目前的衡量標準是困惑度。該措施的技術定義“一種量化模型對其所做預測的不確定性的指標”,但這並不能真正闡明正在計算的內容,對嗎?這是困惑的另一種解釋:“如果[語言]模型將高概率分配給測試集,這意味著看到它並不感到驚訝(它並不感到困惑)……”

不過,為了我們的目的,我們可以將困惑視為一種基於語言的通用分析工具,以嘗試確定是否特定的散文段落可能是由人類或人工智能產生的。高困惑意味著它可能是人工智能生成的,低困惑意味著它可能是由人類編寫的。好消息是,已經有在線工具可以提供這種分析。讓我們同時考慮 GPT Zero 和 GPT Radar。

使用 CHATGPT 生成學術論文

作為基準,我將使用我在丹佛大學。這門課是關於媒體和社會的,本週的主題恰好很合適:Do Machines Control Us?

這是提示:

作為測試,我將簡單地將其複制並粘貼到 ChatGPT 中,ChatGPT 是 Open AI“GPT3”語言模型系統的交互式前端。您也可以在 chat.openai.com 上嘗試此操作(儘管您可能需要先註冊一個免費帳戶)。

以下是 GPT3 對討論提示的確切回應:

這是一個複雜的問題,取決於人們採取的觀點。從技術決定論的角度來看,可以說媒體技術已經顯著改變了我們思考和與世界互動的方式。它們徹底改變了我們溝通、獲取信息和做出決策的方式。信息的持續可用性以及與來自全球各地的人們聯繫的能力重塑了我們對時間和空間的理解。

另一方面,從社會建構主義的角度來看,可以說雖然技術肯定會影響我們的行為,但它最終會受到使用它的社會和文化背景的影響。重要的是要記住,技術是由人類創造、使用和解釋的,人類的選擇決定了技術的使用方式。

這裡展示的批判性思維很薄弱,用了很多詞掩蓋了實際分析的缺乏,但這還不錯,並且相信學生可以提交這樣的東西作為對討論提示的回應。

問題不在於是否仔細閱讀並且考慮可以檢測到這種 AI 製作的內容,但是,但是是否有工具可以這樣做。你當然可以想像,如果這是一個有 50 名學生的班級的回應,老師放慢速度並真正思考散文的能力將非常有限。

第一個測試:GPT 零

要考慮的第一個工具是普林斯頓大學計算機科學本科生 Edward Tian 最初在周末創建的工具:GPTZero。如前所述,它基於語言分析的困惑度測量。測試很容易執行,來自 ChatGPT 的簡單粘貼:

您也可以上傳文件進行分析——對較長的課堂作業特別有用——但複製和粘貼適度的 136 字文章。

點擊“獲取結果”即可得出結論:

好的,“您的文本很可能完全由 AI 編寫”。結案?沒那麼快。

第二次測試:GPT RADAR

在我們得出結論 AI 散文很容易識別之前,讓我們嘗試另一個使用時間更長的工具:GPT 雷達。它是內容製作團隊在為客戶提供博客文章和其他贊助內容時使用的一種工具,但它對我們的目的也是說明性的。

由於困惑是對文本的數學分析,結果應該是一樣的吧?單擊“分析”會顯示其他情況:

GPTZero 報告的困惑度得分為 18.33,而 GPT Radar 的得分為 6.0。分數越低,算法對文章中的單詞選擇越不“驚訝”,它越有可能是由人寫的(因為我們都傾向於以非常相似的方式寫作),但很明顯,它並不完全是確定性的.

ANALYSIS RESULTS: YES, AND NO

結果證明了問題的複雜性;一個工具報告說我們寫得生硬、笨拙的散文幾乎可以肯定是由人工智能程序寫的,而另一個工具則堅稱它“可能是人類生成的”。顯而易見的結論是,在線工具還沒有準備好準確識別人工智能生成的文本。這對我們作為教育工作者以及我們所有作為公民和信息消費者的人來說都是令人擔憂的。

也許更重要的是,這兩種工具都沒有提供任何關於響應是否真正回答提示的分析,也沒有提供智能評論和回复。這是我們教員的工作,而且是一項艱鉅的任務。在小班授課中,教師可以跨作業跟踪寫作(如果學生有一篇 7 年級水平的介紹,但他們的作業是研究生水平的作業,這是一個明顯而直接的危險信號)。但是,如果您有數十或數百名學生怎麼辦?

目前沒有簡單的解決方案。我能提供的最好建議是了解這些工具的局限性,並意識到即使它們尋求更準確,AI 語言模型也會變得更加複雜,從而導致一場技術上的貓捉老鼠遊戲。挑戰那些散文看起來不太可能或令人驚訝的學生。

然而,真正的結論是,我們將不得不改變我們的教學方法,使面對面的、非技術輔助的背誦成為一種任何年級學生評價和評估的一部分。

對這個主題有想法和想法嗎?請在評論中告訴我!

ai 寫作、chatgpt、gptradar、open ai

By Kaitlynn Clay

我是一名用戶體驗專家。 我對網頁設計和用戶行為分析很感興趣。 在我休息的日子裡,我總是參觀藝術博物館。