【ITBEAR科技資訊】7月31日消息,用戶所使用的語言對于大型語言模型(LLM)的費用有著重要的影響,可能在英語使用者和其它語言使用者之間造成人工智能鴻溝。一項最新研究顯示,由于OpenAI等服務所采用的服務器成本衡量和計費方式,英語輸入和輸出的費用遠低于其他語言。例如,簡體中文的費用約為英語的兩倍,西班牙語為英語的1.5倍,而緬甸的撣語則高達英語的15倍。
該研究還揭示,讓一個LLM處理一句緬甸語句子需要198個詞元(tokens),然而,相同的句子用英語寫只需要17個詞元。詞元代表了通過API(如OpenAI的ChatGPT或Anthropic的Claude 2)訪問LLM所需的計算力成本,這意味著緬甸語句子使用這種服務的成本比英語句子高出11倍。
據ITBEAR科技資訊了解,這種巨大的費用差異主要源于詞元化模型,即人工智能公司將用戶輸入轉換為計算成本的方式。不同語言的結構復雜程度不同,例如中文的語法和字符數量較多,導致它們需要更高的詞元化率。舉例來說,同樣表示"你的愛意(your affection)"的文本,在英語中只需要兩個詞元,而在簡體中文中需要八個詞元。盡管簡體中文文本只有4個字符,而英文有14個字符。
這樣的費用差異可能會對人工智能技術在不同語言社區中的普及和發展產生影響。由于成本較高,可能導致一些語言受限于獲取高質量的自然語言處理技術。因此,引起了關于語言平等和包容性的擔憂,以及人工智能在全球范圍內的普及問題。未來需要加強研究,尋求解決這種語言費用差異的辦法,推動人工智能技術更好地服務于全球各地的用戶。