国产中文第一页,福利一区在线,精品999视频

AI搜索工具準確率堪憂，六成答案不準確卻“自信滿滿”？

發布時間：2025-03-13 17:42 來源：ITBEAR 作者：顧雨柔

近期，哥倫比亞大學數字新聞研究中心公布了一項針對AI搜索引擎的深度研究報告，引起了廣泛關注。該研究聚焦于當前市面上八款主流的AI搜索工具，包括ChatGPT Search、Perplexity系列、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search以及Copilot，旨在通過一系列嚴格測試評估它們的準確性和可靠性。

研究人員精心挑選了來自20家新聞機構的200篇報道作為測試樣本，確保這些報道在谷歌搜索結果中排名靠前。隨后，他們利用相同的查詢語句，逐一測試這些AI搜索工具的表現，重點關注它們能否正確引用文章內容、新聞機構名稱及原始鏈接。

測試結果顯示，除了Perplexity及其付費版本外，其余AI搜索引擎的表現均不盡人意。總體而言，AI搜索引擎給出的答案中，有高達60%是不準確的。更令人擔憂的是，這些AI工具對于錯誤答案的“自信”態度，使得問題進一步惡化。它們往往以不容置疑的口吻陳述錯誤信息，甚至在受到質疑時，仍試圖通過邏輯自洽來維護其答案的正確性。

這項研究不僅揭示了AI搜索引擎在準確性方面的不足，更引發了業界對于大語言模型可靠性的深刻反思。長期以來，人們一直擔心大語言模型可能會一本正經地胡說八道，而此次研究的數據結果無疑為這一擔憂提供了有力佐證。這些AI工具在陳述錯誤信息時，往往表現得非常自信，這無疑增加了用戶誤信錯誤信息的風險。

ChatGPT Search雖然回答了所有200個新聞查詢，但其“完全正確”率僅為28%，而“完全錯誤”率則高達57%。盡管表現不佳，但ChatGPT Search并非墊底。X公司旗下的Grok AI系列表現更為糟糕，其中Grok-3 Search的錯誤率更是驚人地達到了94%。而微軟Copilot也問題頻出，在200次查詢中，有104次拒絕回答，剩下的回答中，正確率也僅為16%，總體錯誤率接近70%。

令人驚訝的是，盡管這些AI搜索工具存在諸多問題，但它們的開發公司仍在向用戶收取高額的訂閱費用，每月費用從20美元至200美元不等。更令人費解的是，付費版Perplexity Pro和Grok-3 Search雖然回答次數更多，但錯誤率也隨之上升。這一現象無疑引發了用戶對于AI搜索工具性價比的質疑。

此次研究揭示了當前AI搜索引擎在準確性和可靠性方面存在的問題和挑戰。隨著AI技術的不斷發展，我們期待未來能夠看到更加準確、可靠的AI搜索工具問世，為用戶提供更加優質的信息服務。

更多>同類內容