為什麼RAG無法解決生成式AI的幻覺問題

幻覺——基本上是生成式AI模型所講的謊言——對於企業想要將這項技術整合到其運營中的行業來說是一個大問題。

因為這些模型沒有真正的智慧,只是根據私有架構預測單詞、圖像、語音、音樂和其他數據,所以有時候他們會搞錯。在華爾街日報的一篇最近的文章中,一位消息人士講述了微軟的生成式AI發明了與會者,並暗示會議電話討論了實際上並未在電話中討論的主題的實例。

正如我之前寫過的那樣,幻覺可能是當今基於變壓器的模型結構無法解決的問題。但許多生成式AI供應商表示,它們可以通過一種技術方法來消除或更少地消除這種問題,這稱為檢索增強生成(Retrieval Augmented Generation,簡稱RAG)。

以下是一家名為Squirro的供應商如何推廣它:

該提供的核心概念是檢索增強LLMs或檢索增強生成(RAG)內置在解決方案中... [我們的生成式AI]在它的0幻覺承諾方面具有獨特性。它生成的每一條信息都可以追溯到一個來源,確保可信性。

以下是來自SiftHub的類似推廣:

使用RAG技術和經過調整的大型語言模型進行具有行業特定知識培訓,SiftHub允許公司生成零幻覺的個性化響應。這確保了增加的透明度和降低的風險,並激發了對AI在所有需求上的絕對信任。

RAG是由數據科學家帕特里克·路易斯(Patrick Lewis)開創,他是Meta和倫敦大學學院的研究員,也是2020年首次提出該術語的論文的主要作者。應用於模型時,RAG通過對問題可能相關的文檔進行檢索——例如,一個關於超級碗的維基百科頁面——基本上使用關鍵字搜索,然後要求模型根據此額外的上下文生成答案。

AI2非營利機構艾倫研究所的AI研究部門的研究科學家大衛·沃登(David Wadden)解釋說:“當你與ChatGPT或Llama等生成式AI模型互動並提出問題時,該模型默認會從其‘參數記憶’中回答——即從其參數中存儲的知識中回答,作為訓練於網絡龐大數據的結果。但就像你在眼前有一本書或文件時更有可能給出更準確的答案一樣,對於某些模型來說也是如此。”

RAG無疑是有用的——它使人能夠將模型生成的事物歸因於檢索的文檔以驗證其事實性(並且作為附加好處,避免潛在的侵犯版權的重複)。RAG還讓那些不希望他們的文件用於訓練模型的企業——比如高度規管的行業如醫療保健和法律行業的公司——以一種更加安全和臨時的方式允許模型可以參考這些文檔。

但RAG確實無法阻止模型產生幻覺。而且許多供應商對其存在的局限性過於輕率。

沃登表示,RAG在“知識密集”場景中最為有效,其中用戶希望使用模型來解決“信息需求”——例如,查詢去年超級碗冠軍是誰。在這些情況下,能夠回答問題的文檔很可能包含與問題相同的關鍵字(例如“超級碗”,“去年”),通過關鍵字搜索相對容易找到。

當涉及到“推理密集”任務如編碼和數學時,情況變得更加困難,因為很難在基於關鍵字的搜索查詢中指定回答請求所需的概念,更不用說識別哪些文檔可能是相關的。

即使對於基本問題,模型在長文檔中可能會被與問題無關的內容“分心”,答案並不明顯。或者它們可以——出於尚不清楚的原因——簡單地忽略檢索回來的文件的內容,而選擇依賴它們的參數記憶。

RAG在硬件上的應用成本也很高。

因為無論是從網絡,內部數據庫還是其他地方檢索的文檔,都必須存儲在記憶體中——至少是暫時的——以便模型可以參考它們。另一項支出是計算費用,用於模型在生成其響應之前處理增加的上下文。對於一項已經以其對基本操作所需的計算和電力而聞名的技術來說,這可說是一個嚴肅的考慮。

這並不是說RAG不能改進。沃登指出了許多正在進行的努力,以讓模型更好地利用RAG檢索的文檔。

其中一些努力涉及可以“決定”何時使用這些文檔的模型,或者模型可以選擇如果認為檢索不必要便不進行檢索。其他努力集中於更有效地對大型文檔數據集進行索引,並通過更好的文檔表示方式——超越關鍵字——來改進搜索。

“我們在基於關鍵字檢索文檔方面做得很好,但在基於更抽象概念的文檔檢索方面做得不太好,比如解決數學問題所需的證明技巧,”沃登說。“研究需要構建文檔表示和搜索技術,這些技術可以識別出更抽象生成任務所需的相關文檔。我認為這在目前主要是一個尚未解決的問題。”

因此,RAG可以幫助減少模型的幻覺——但這並不是AI所有幻覺問題的答案。請注意任何嘗試聲稱相反的供應商。