<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    AI數據源頭揭秘:巨頭壟斷加劇,西方文化主導下的模型偏見何時休?

       發布時間:2025-01-30 15:23 作者:沈如風

    在人工智能領域,LLM和Agent技術日新月異,取得了高度成熟的進展。然而,相比之下,數據收集方面的規范化進程卻明顯滯后。一個引人深思的問題擺在了人們面前:AI訓練所需的海量數據究竟源自何處?為了解答這一問題,一個名為數據溯源計劃(DPI)的國際性研究團隊應運而生。

    Longpre強調,對于基座模型的能力而言,互聯網的規模和數據的異構性至關重要。對規模的需求也促進了合成數據的大量使用。除了語言模型外,近年來多模態生成式AI(GenAI)也迅速崛起,如圖像和視頻生成模型。這些模型同樣需要盡可能多的數據,而視頻模型的語音和圖像數據集中,超過70%的數據都來自YouTube。這一現象對擁有YouTube平臺的谷歌及其母公司Alphabet極為有利,因為文本數據分布在整個互聯網上,由許多不同的網站和平臺控制,但視頻數據的權力卻如此集中地掌握在一家公司手中。

    AI Now Institute聯合執行董事Sarah Myers West對此表示擔憂,她認為谷歌在開發自己的人工智能模型(如Gemini)方面具有巨大優勢,這引發了人們對其如何向競爭對手提供數據的疑問。更深層次的問題是,如果我們所交互的大多數AI數據集都反映了以利潤為導向的科技巨頭的意圖和設計,那么這些大公司可能會以符合自己利益的方式重塑我們世界的基礎設施。

    數據集之間的集成和沿襲缺乏一致性,這使得開發人員很難做出正確的數據選擇,也無法保證模型訓練過程中沒有使用過受版權保護的數據。最近,OpenAI、Google等公司與出版商、Reddit等主要論壇以及網絡社交媒體平臺達成了獨家數據共享協議,這進一步加劇了數據壟斷的趨勢。這一趨勢有利于AI領域的最大玩家,他們有足夠的財力進行數據交易,但卻犧牲了學術界研究人員、非營利組織和小公司的利益。

    更令人擔憂的是,用于訓練AI模型的數據嚴重偏向西方世界。DPI團隊分析的數據集中,超過90%來自歐洲和北美,而非洲的數據占比不到4%。Hugging Face首席倫理學家Giada Pistilli指出,英語在訓練數據中占據主導地位的原因之一是互聯網中90%以上的內容仍然是英語;另一個原因是便利性:將其他語言的數據集放在一起并考慮其他文化需要進行更多的數據工作以及開發人員的有意識意圖。這導致多模態模型的輸出往往以西方文化為焦點,例如當提示AI模型生成婚禮的景象和聲音時,可能只能得到西式婚禮相關的內容。

    數據集代表了人類社會中的偏見,而經過這些數據訓練的模型又加劇了這些偏見。這可能導致AI模型推動一種以美國為中心的世界觀,同時不經意間抹去其他語言和文化。為了解決這個問題,DPI團隊呼吁加強數據收集方面的規范化進程,提高數據透明度和多樣性,以確保AI技術的公平性和可持續性發展。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    国产亚洲精品a在线观看app| 国产成人精品久久| 中文字幕一区日韩精品| 蜜芽亚洲av无码精品色午夜| 久久精品中文字幕久久| 国产午夜精品一区二区三区小说 | 亚洲国产91精品无码专区| 日韩视频一区二区三区| 国产精品毛多多水多| 精品人人妻人人澡人人爽牛牛| 久久国产亚洲精品| 国产精品久久久久9999| 亚洲精品影院久久久久久| 久久精品天天中文字幕人妻| 亚洲欧洲国产日韩精品| 久久国产精品免费专区| 亚洲高清国产AV拍精品青青草原| 国产在视频线精品视频二代| 777午夜精品久久av蜜臀| 中文字幕在线亚洲精品| 国产极品白嫩精品| 国产三级久久久精品麻豆三级 | 青青青在线观看国产精品| 精品免费久久久久久久| 91精品啪在线观看国产电影| 亚洲欧洲日本精品| 91精品国产综合久久四虎久久无码一级 | 精品久久洲久久久久护士| 日韩精品成人无码专区免费| 色哟哟精品视频在线观看| 9999国产精品欧美久久久久久| 国产SUV精品一区二区四| MM1313亚洲精品无码久久| 国产精品第100页| 凹凸国产熟女精品视频| 中文字幕一区日韩在线视频| 久久精品国产亚洲av日韩| 视频一区二区精品的福利| av无码精品一区二区三区四区| 国产精品视频不卡| 久久青青草原精品国产软件|