阿里巴巴近期宣布了一項重大技術進展,正式向公眾開放了通義千問3系列中的全新向量模型——Qwen3-Embedding。這一模型是基于千問3大模型的強大基礎,專門針對文本表征、檢索和排序等核心應用場景進行了深度優化。
與之前的版本相比,Qwen3-Embedding在文本檢索、聚類及分類等關鍵任務上的性能提升顯著,最高可達40%以上。在業界知名的MTEB等專項評測中,Qwen3-Embedding-8B版本更是脫穎而出,超越了谷歌的Gemini Embedding、OpenAI的text-embedding-3-large以及微軟的multilingual-e5-large-instruct等頂尖模型,一舉奪得了同類模型的最佳性能桂冠。
向量模型作為AI領域的“語言轉換器”,能夠將文本、圖像等非結構化數據轉化為機器易于理解的向量形式,進而實現高效的信息分類、檢索和排序。通義團隊依托千問3大模型,通過對比訓練、SFT技術和模型融合等手段,精心打造出了包括Qwen3-Embedding文本嵌入模型和Qwen3-Reranker文本排序模型在內的全新向量模型系列。
得益于千問3的多語言能力,Qwen3向量模型系列能夠支持超過100種語言,并且涵蓋了多種編程語言,這使其在多語言、跨語言及代碼檢索方面展現出了強大的實力。此次開源的Qwen3向量模型共有9款,涵蓋了0.6B、4B、8B等不同規模以及GGUF版本,為開發者提供了豐富的選擇。
開發者可以根據自己的實際需求,自由選擇并組合這些模型模塊,甚至還可以自定義向量或指令,以實現針對特定任務、語言和場景的深度優化。目前,Qwen3 Embedding和Reranker模型已經成功上架魔搭社區、Hugging Face和GitHub等平臺,開發者還可以通過阿里云百煉直接使用API服務。
自4月29日千問3大模型開源以來,其已經在Artificial Analysis、LiveBench、LiveCodeBench、SuperClue等多個全球評測榜單中奪得了開源冠軍的榮譽,展現了其卓越的性能和廣泛的應用潛力。