【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection

paper : https://arxiv.org/abs/2601.12882

註:本文僅供個人學習用途、筆記用,內容斟酌參考,請注意事實查核。(This article is for learning and noting. Content of article consider for reference. Note that fact checking.)

我個人算是 CV 領域的新手,有些我不懂的地方會加上自己寫的註釋,敬請見諒。

Abstract

簡單來說,YOLO26 是一個全新的即時物件偵測框架,最大的突破在於完全捨棄了傳統的非極大值抑制(Non-Maximum Suppression, NMS)後處理步驟,改採原生的端到端學習策略,藉此消除延遲變數。

為驅動這個新架構,模型引入了三大核心技術:

  1. 用於穩定骨幹網路的 MuSGD Optimizer
  2. 提升小物件偵測的 STAL(Small-Target-Aware Label Assignment, 小目標感知標籤分配)
  3. 用於動態監督的 ProgLoss

透過廣泛的基準測試(Benchmark),本文證實 YOLO26 在各種模型規模下,其速度與準確度皆優於先前的 CNN 與當代的 Transformer 架構,並且支援包含開放詞彙偵測在內的多任務能力,最後這種設計成功解決了模型部署至邊緣設備時的「匯出差距(Export Gap)」問題,實現了更穩定、可預期的處理速度。

:::info
非極大值抑制(Non-Maximum Suppression, NMS)是電腦視覺(特別是物件偵測)中用來「消除重複預測框」的後處理演算法。

簡單來說,當 AI 模型在尋找圖片中的物件(例如一隻狗)時,它通常會在同一個物件周圍畫出好幾個重疊的預測框,NMS 的作用就是找出最準確的那個框,並把其他多餘的重疊框刪除,確保畫面中每一個物件最終只被框出一次。

NMS 的運作流程:

  1. 依分數排序:AI 會給每個預測框一個信心分數 Confidence(代表它認為這裡有物件的機率),NMS 首先會將所有的框依照分數從高到低排序。
  2. 選取最佳框:挑選目前清單中信心分數最高的框,將它保留下來作為最終結果。
  3. 刪除高度重疊的框(抑制 Suppression):將剩下的框與剛剛選出的「最佳框」進行比較,計算它們的重疊程度(通常使用 IoU 交並比衡量),如果某個框與最佳框的重疊面積大於設定的門檻(例如超過 50%),NMS 就會判定「它們框到的是同一個物件」,並將這個分數較低的框刪除。
  4. 重複循環 Iteration:從剩下還沒被刪除的框中,再次挑選分數最高的框,重複步驟 2 和 3,直到所有的框都被判定完畢為止。
    :::

:::info
在基於邊緣計算的電腦視覺部署中,匯出差距(Export Gap)是指模型在 GPU 訓練環境下的理論效能(或理論運算量 FLOPs),與實際部署到邊緣推論硬體(如 NPU 或 CPU)時所測得的實際處理速度之間的顯著落差。

簡單來說就是理論上跟實際上的效能落差。

  • 造成匯出差距的主因:過去許多先進的模型(例如 YOLOv8 到 YOLOv13)為追求高準確度,在架構中依賴了如分佈焦點損失(Distribution Focal Loss, DFL)等複雜的運算。
  • 這些包含 Softmax 的層級在伺服器等級的強大 GPU 上執行時,幾乎不會造成負擔;然而,當模型被匯出(Export)並部署到運算資源有限、且通常依賴整數運算的邊緣設備(例如無人機、智慧型手機或監視器)時,這些複雜的運算變得極難最佳化與量化,進而成為拖垮系統速度的嚴重瓶頸。
  • 這就導致了一個在研究報告或伺服器 GPU 上看起來很快的模型,到了真實世界的嵌入式系統中卻發生嚴重的延遲。
    :::

1. Introduction

1.1 The Ultralytics Legacy

這節就三個重點:

  1. 推動 AI 普及化(Democratized AI,直翻是民主化的 AI,但這邊普及化應該比較好):
    • 過去要在電腦上執行複雜的 AI 視覺辨識,通常需要非常昂貴且強大的顯示卡,但 Ultralytics 透過 YOLOv5 和 YOLOv8 改變了這個局面。
    • 他們採用了高效率的架構(CSP 骨幹網路),並提供了非常簡單、對開發者友善的部署工具。
    • 這樣讓 AI 得以「平民化」,即使是算力很弱的邊緣設備(Edge devices,例如無人機、監視攝影機、樹莓派等),也能順暢執行即時物件偵測的任務。
  2. 奠定即時偵測的業界標準 YOLO 顧名思義是 “You Only Look Once”,代表模型只需要掃描一次圖片就能找出所有物件,速度極快。Ultralytics 透過不斷更新版本,將這種架構變成了現今工業界與學術界在「即時視覺辨識」上的標準選擇。
  3. 點出傳統架構的致命傷 NMS(非極大值抑制),引出新一代 YOLO26 創新之處的關鍵。
    • 問題在哪裡?
    • NMS 是一個循序漸進(Sequential)的運算過程,也就是如果畫面上的東西很少,處理就會很快;但若遇到密集情境,比如演唱會人群或擁擠的車流,NMS 就需要花費更多時間去一一比對和過濾框。
    • 這種處理時間忽快忽慢的現象,對於需要絕對穩定反應時間的系統(例如自動駕駛)來說,是一個很大的隱患。

1.2 YOLO26: Redefining Real-Time Edge Inference

YOLO26 於 2026 年 1 月發布,為即時物件偵測領域立下了全新的里程碑,在此節講的就是官方團隊透過基準測試 Benchmark,將其與過往系列(YOLOv5 至 YOLO11)及當代競爭架構(如 RTMDet、DAMO-YOLO 等)進行全面的對比。

絕對的帕雷托優勢(Absolute Pareto Dominance):YOLO26 在速度與準確度的圖表上,曲線完全凌駕於所有其他模型之上。

:::info
Pareto Dominance 的含意:

假設有兩個模型 A 和 B。

如果 A 滿足:

  1. A 的準確率不比 B 差
  2. A 的速度不比 B 慢
  3. 而且至少有一項明顯比 B 好

則:A Pareto dominates B(A 帕雷托支配 B)

像是 A 與 B 的準確率(mAP)相同的情況下,若 A 延遲比 B 低,則也稱 A Pareto dominates B。

作者說 YOLO26 有 Absolute Pareto Dominance,表示 YOLO26 不只是某一個版本比較好,而是整條速度、準確率曲線都壓過其他模型。
:::

YOLO26 不僅擊敗了傳統基於 CNN 的 YOLO 舊版本,更重要的是,也超越了目前最先進的 Transformer 架構(包含最新的 RTDETRv4),證明了無 NMS(NMS-free)的 CNN 架構,在速度與空間推理能力上,都能勝過運算龐大的注意力機制(attention-based)模型。

全規模制霸(Nano 到 Extra-Large 模型):YOLO26 在所有模型尺寸上都展現了統治力。

  • 受到高度硬體限制的極小型 Nano 版本(26n)能在微乎其微的約 1.5 ms 毫秒延遲下,達到超過 40 的 mAP(mean Average Precision,平均精度均值)
  • 超大型版本(26x)則在維持即時效能(約 11.5 ms 毫秒延遲)的同時,將準確度天花板推升至約 57.5 mAP,超越了 YOLO11x 與龐大的 DETR 模型。

結論:開發者提供的實測數據證實,移除 NMS 並轉向端到端(end-to-end)架構,成功釋放了模型原始的吞吐量,確立了 YOLO26 作為目前文獻記錄中最快、最準確偵測器的地位。


下圖 1 與圖 2 的縱軸(y 軸)COCO mAPval5095\text{COCO} \ \text{mAP}^{50-95}_\text{val},代表模型在 COCO val2017 dataset 驗證集上的平均準確率,使用 IoU 0.50 到 0.95 的多個門檻取平均。

簡單來說,它衡量的是模型偵測物體的準確程度,數值越高,代表模型越準。

而圖 1 橫軸(x 軸)Latency T4 TensorRT10 FP16(ms/img)代表的是,模型在 NVIDIA T4 GPU 上,用 TensorRT10 與 FP16 精度推論時,每處理一張圖片需要多少毫秒。

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 1.2 YOLO26: Redefining Real-Time Edge Inference

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 1.2 YOLO26: Redefining Real-Time Edge Inference

1.3 Contributions of This Article

就是這篇論文的貢獻,共有五大貢獻:

  1. 架構解構(Architectural Deconstruction):詳細拆解了「原生端到端、無 NMS」的架構,並解釋了能讓模型成功移除這些不可微分後處理步驟的數學機制。
  2. 訓練動態分析(Training Dynamics Analysis):深入探討了全新的優化策略(MuSGD、STAL 以及 ProgLoss),闡明這些技術如何幫助輕量級的端到端骨幹網路達到穩定的收斂。
  3. 全面的基準測試(Comprehensive Benchmarking):提供了一份詳盡的比較研究,不僅拿 YOLO26 與過去的 YOLO 歷代版本(v1–v13)做對比,還與當代最先進的 Transformer 架構(如 RT-DETR、DEIM、RF-DETR 等)進行了較量,藉此凸顯其在「速度與準確度」帕雷托前沿(Pareto front)的絕對優勢。
  4. 多任務與開放詞彙評估(Multi-Task & Open-Vocabulary Evaluation):分析了該框架統一的多任務擴展能力,特別詳細說明了 YOLOE-26 這個開放詞彙(Open-Vocabulary)模組的結構修改,以及它如何實現零額外運算負擔(zero-overhead)的提示式偵測(promptable detection)。
  5. 影響力評估(Impact Assessment):探討了成功解決匯出差距(Export Gap)所帶來的深遠意義,並分析了確定性延遲(deterministic latency)與直接迴歸(direct regression)策略如何造福那些對安全性要求極高的邊緣 AI 應用場景。

白話解釋:

  1. 拆解引擎:作者不只說 YOLO26 變快了,而是把它的引擎蓋打開,用數學和架構圖解釋它到底是如何把過去那個會拖慢速度的 NMS(非極大值抑制)給成功摘除的。
  2. 解析學習方法:既然架構大改(去掉了 NMS 等輔助),模型在訓練時很容易「學壞」或崩潰,因此作者介紹了官方為 YOLO26 量身打造的三大輔助學習工具(MuSGD 負責穩定大局、STAL 幫忙看清小物件、ProgLoss 負責平衡學習進度),解釋它們是如何讓模型穩定學會辨識。
  3. 拿出成績單:即 1.2 節的內容。
  4. 展示多才多藝:YOLO26 不只是個會抓預設物件的偵測器,作者特別分析了它的一個變形 YOLOE-26,這個版本可以像在用 GPT 一樣給 prompt,只要輸入文字或圖片,它就能立刻幫你在畫面裡找出對應的物體(開放詞彙),且重點是做這些複雜的事情並不會讓它變慢(零額外負擔)。
  5. 現實世界的意義:作者在最後總結,這些技術突破不僅僅是實驗室裡的數字變好看而已,它能讓模型可以被裝在運算能力很弱的無人機、監視器或自駕系統(邊緣設備)上,並且保證每一次的反應時間都完全一樣快(確定性延遲),對於不容許任何卡頓的安全關鍵系統來說至關重要。

2 The Evolution of YOLO

YOLO(You Only Look Once)系列經歷了十年快速的架構演進,其中的進展可分為三個時期:

  1. 奠基時期 The Foundational Era(v1–v3)
  2. 社群擴張時期 The Community Expansion Era(v4–v7)
  3. 現代統一時期 The Modern Unified Era(v8–26)

每個時期都由空間特徵提取方式及最終預測監督方式的轉變所定義。

2.1 The Foundational Era (2015–2018)

  • YOLOv1:將物件偵測任務重新定義為單一迴歸問題(single regression problem),雖然犧牲了一些定位準確度,但成功實現了即時(real-time)的處理速度。
  • YOLOv2:引入了錨框(anchor boxes)機制,用來提升模型的召回率(recall)。
  • YOLOv3:引入多尺度特徵金字塔(multi-scale feature pyramids)來解決小物件偵測困難的問題,並將 Darknet 骨幹網路建立為業界標準。
  • 時代意義:這個時期標誌著模型架構從全連接層(fully connected layers)全面過渡到全卷積架構(fully convolutional architectures),為單階段偵測器(single-stage detectors)進行全局脈絡推理開創了先例。

2.2 The Community Expansion Era (2020–2022)

  • 技術的引入:由 YOLOv4 與 YOLOv5 引領,這個時期引入了 CSP(Cross Stage Partial,跨階段局部)連接技術,以及各種先進的免費大補帖(Bag-of-Freebies)資料增強與訓練技巧。
  • 硬體最佳化:隨著 YOLOv6 與 YOLOv7 的推出,架構引入了重新參數化(re-parameterization)與 E-ELAN 架構,目的是最大化特定硬體的運算資源使用率。
  • 時代意義:透過整合馬賽克資料增強(mosaic augmentation)與基因演算法錨點最佳化等技術,YOLO 模型從純學術研究,正式轉變為生產就緒(production-ready)的框架,成功彌合了學術界與工業界在各種不同硬體上大規模部署的差距。

白話解釋:

此為 YOLO 走向「全民化與工業量產」的時代,原創作者在 v3 之後退出了,但開源社群(包含s Ultralytics 等)接手並將其發揚光大。

免費大補帖(Bag-of-Freebies):社群發明了許多不需要增加 AI 運算負擔,就能讓 AI 變聰明的方法,例如「馬賽克增強」就是把好幾張不同的圖片拼成一張讓 AI 練習看,藉此用更少的資料訓練出更強的模型。

落地實用:如果說奠基時期是在實驗室裡做研究,那擴張時期就是「把 AI 搬進工廠」。v6 和 v7 等版本特別針對「硬體」去改良模型結構,讓 YOLO 不再只挑昂貴的顯示卡才能跑,而是能真正順暢地安裝在各種真實世界的設備中,YOLO 從此成為業界工程師在解決實務問題時,最常拿來直接套用的工具。

2.3 The Modern Unified Era (2023–Present)

  • 演進軌跡(v8 到 v13):
    • 從 YOLOv8 開始,架構轉向了無錨框(anchor-free)與解耦頭部設計,隨後的版本不斷迭代:
    • YOLOv9 引入了可程式化梯度資訊(Programmable Gradient Information, PGI)。
    • YOLOv10 引入一致的雙標籤分配以實現無 NMS 訓練。
    • YOLO11 針對多任務效率優化了骨幹網路。
    • YOLOv12 加入了區域注意力(Area Attention)以 CNN 的速度提供類似 Transformer 的上下文理解。
    • YOLOv13 則利用超圖空間建模(hypergraph spatial modeling)來改善複雜場景中的推理能力。
  • 時代大趨勢:該時期的核心精神是逐漸捨棄手動設定的啟發式規則(manual heuristics),全面轉向端到端(end-to-end)可微分流程。
  • 遭遇 Export Gap 的挑戰:在 v8 到 v13 的版本中,為了追求高準確度而使用了如分佈焦點損失(Distribution Focal Loss, DFL)這類複雜運算子,雖然準,但卻會在邊緣硬體(如 NPU / CPU)上產生嚴重的延遲瓶頸,導致模型難以落地。
  • YOLO26 的集大成與突破:作為這段歷史的巔峰,YOLO26 選擇跳脫 v12 與 v13 追求極致複雜度的趨勢,將重心放回邊緣設備的延遲上,透過移除 DFL 的運算負擔並採用原生的一對一預測頭,YOLO26 實現了穩定的確定性推理時間(deterministic inference times),使其在低功耗設備上具備極高的實用性。

3 Architecture and Methodology of YOLO26

3.1 Native End-to-End NMS-Free Architecture

傳統 NMS 的效能瓶頸:傳統物件偵測器高度依賴 NMS 作為後處理步驟用來過濾掉多餘的預測框。

NMS 的運作方式是會反覆挑選信心分數最高( SmaxS_{max} )的預測框,並抑制其他 IOU 超過預設閾值( NtN_t )的候選框( bib_i ),這個過程可以被定義成以下的公式:

si={si,if IoU(M,bi)<Nt0,if IoU(M,bi)Nt(1)s_i = \begin{cases} s_i, & \text{if } IoU(M, b_i) < N_t \\ 0, & \text{if } IoU(M, b_i) \geq N_t \end{cases} \tag{1}

此公式說明如果某個候選框 bib_i 跟目前最高信心框 MM 的重疊程度不高,就保留該框;如果重疊程度太高,就將其分數設為 00,相當於刪掉。

NMS 是一種循序式的處理方法,因此會造成延遲瓶頸,而且延遲會受到畫面中物體數量影響,即 NMS 不是一次完成的,而是反覆做一個流程:

  1. 找出目前信心最高的框
  2. 刪除跟它重疊太多的框
  3. 再從剩下的框中找下一個最高信心框
  4. 重複直到處理完

所以若一張圖片裡物體很多、候選框很多,NMS 需要處理的框就更多,延遲也可能變大。


【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 3.1 Native End-to-End NMS-Free Architecture

圖三的左邊是舉 YOLOv8 為例,表示傳統的 YOLO 模型,流程如下:

  1. Input Image
  2. YOLO Model:YOLO 模型輸出很多原始預測框。
  3. Raw Predictions:這些框可能很多、很密集、互相重疊。
  4. NMS Post-Processing:需要 NMS 刪除重複框。
  5. Final Detections

傳統 YOLO 的模型輸出還不是最終答案(輸出的是原始預測框),還需要 NMS 整理。

而右邊的 YOLOv26 流程如下:

  1. Input Image
  2. YOLOv26 Model:YOLO26 直接輸出最終偵測結果。
  3. Final Detections:輸出獨有、稀疏的框(就不會有一堆重複框)。

YOLOv26 想讓模型本身就學會每個物體只輸出一個主要框,直接少去做 NMS Post-Processing 的步驟。


YOLO26 的架構革新:YOLO26 透過原生端到端架構(Native End-to-End Architecture)徹底改變了這個流程。

它重新設計了預測頭(prediction head)以支援一對一標籤分配(one-to-one label assignment),讓模型在訓練期間就學會對每個物件只輸出一個明確的邊界框。

傳統 YOLO 用的是 One-to-Many 的分配方式,因此可能輸出多個框出來。

消滅 NMS 的實際效益:此架構上完全消除了 NMS 後處理的需求,將推論過程從多階段的過濾操作,轉變為直接且確定性的輸入到輸出映射,帶來兩個很大的收益、好處:

  1. 大幅降低延遲:特別是在非 GPU 的硬體上,移除 NMS 減少了運算瓶頸。官方數據顯示,YOLOv26 在 CPU 上的推論速度比傳統依賴 NMS 的模型快了約 43%43\%
  2. 恆定時間延遲(Constant-time latency):無論畫面中的物件數量有多少,推論時間都能保持一致,對於自動駕駛或醫療監控等需要絕對穩定反應時間的安全關鍵應用來說至關重要。

:::info
什麼是預測頭(prediction head)?

在深度學習模型中,它是模型最後面負責產生最終預測結果的模組。

在 YOLO 這類物件偵測模型中,整體架構通常可以分成三部分(Backbone、Neck、Prediction Head):

1
2
3
4
5
6
7
8
9
Input Image

Backbone

Neck

Prediction Head

Detection Results
模組中文主要功能
Backbone主幹網路從圖片中抽取特徵
Neck頸部網路 / 特徵融合層融合不同尺度的特徵
Prediction Head預測頭根據特徵輸出偵測結果
:::

3.2 Regression-Centric Decoupled Head (DFL-Free)

YOLOv26 為了讓模型在 CPU、NPU、DSP 等邊緣裝置上跑得更快、更穩定,移除了傳統 YOLOv8~YOLOv11 常用的 DFL(Distribution Focal Loss),改成更直接的 Direct Regression 邊界框回歸方式。

什麼是 DFL?為什麼以前 YOLO 要用它?

在 YOLOv8 ~ YOLOv11 中,模型預測 bounding box 座標時,不直接輸出一個座標值,而將座標看成一個機率分布。

例如,模型不直接說該框的左邊界座標是 35.7;而說座標可能落在 bin 35、36、37 … 不同位置,各自有不同機率,然後再用加權平均算出最後座標。

DFL 公式如下:

y^DFL=i=0niSoftmax(wi)=i=0niewij=0newj(2)\hat{y}_{DFL} = \sum_{i=0}^{n} i \cdot \text{Softmax}(w_i) = \sum_{i=0}^{n} i \cdot \frac{e^{w_i}}{\sum_{j=0}^{n} e^{w_j}} \tag{2}

這個公式在說 DFL 不直接預測一個座標值,則是會先預測每個離散位置 bin 的機率,最後用加權平均算出座標。

此公式為 DFL-based head 如何從離散機率分布轉成 bounding box 座標的公式。

每個符號的意義:

符號意思
y^DFL\hat{y}_{DFL}最後預測出來的座標值
iiii 個離散 bin,可理解成候選座標位置
nnbin 的最大編號
wiw_i模型對第 ii 個 bin 輸出的原始分數,稱為 logit
Softmax(wi)\text{Softmax}(w_i)ii 個 bin 被選中的機率
ewie^{w_i}將分數轉成正數,用來計算機率
j=0newj\sum_{j=0}^{n} e^{w_j}所有 bin 的分數總和,用來正規化

該公式可分成兩大部分來看:

  1. 利用 Softmax Function 將分數 wiw_i 轉為機率。
  2. 做加權平均:用每個 bin 的位置乘上它的機率,計算後就可以得到精確的座標值,這就是 DFL 的好處,可透過機率分布,得到比單純分類 bin 更精細的座標值。

為何 YOLOv26 要做 DFL-Free

DFL 的缺點是它需要大量 Softmax 運算,而 Softmax 運算需要用到指數運算 exe^x 、除法、加總的運算等。

這些在 GPU 上通常還可以接受,但在 NPU、DSP、CPU、嵌入式裝置 上就可能變成瓶頸,論文特別提到,Softmax 在這些邊緣硬體上通常不好量化,也容易造成延遲。

YOLOv26:Direct Regression Strategy

因此 YOLOv26 拿掉 DFL,改成 Direct Regression Strategy,即讓模型直接讓回歸分支(regression branch)輸出 bounding box 座標:

y^v26=Freg(x)R(3)\hat{y}_{v26} = \mathcal{F}_{reg}(x) \in \mathbb{R} \tag{3}

每個符號的意義:

符號意思
y^v26\hat{y}_{v26}YOLOv26 預測出來的座標值
Freg\mathcal{F}_{reg}regression branch,回歸分支
xx從 backbone / neck 輸出的影像特徵
R\in \mathbb{R}輸出是一個實數

:::info
何謂回歸分支(regression branch)?

回歸分支(Regression Branch)是物件偵測模型裡,專門負責預測 bounding box 位置與大小的一條輸出路徑。

在 YOLO 物件偵測模型中,最後的 prediction head 通常會分成不同任務:

分支工作輸出
分類分支(Classification Branch)判斷物體是什麼類別人、車、狗、貓等類別機率
回歸分支(Regression Branch)預測物體在哪裡、多大bounding box 座標(如 x, y, w, h
有些模型還有 objectness 分支判斷這裡有沒有物體物體存在機率
:::

這樣好處是少掉繁瑣的流程跟運算,直接輸出座標值即可,大幅提升了在邊緣設備上的運算速度。

YOLOv26:Decoupled Head

直接移除 DFL 理論上會降低模型的定位精準度,為了彌補這點,YOLOv26 採用了靈感來自 YOLOX 的精煉版解耦頭(Decoupled Head)結構,將特徵提取拆分為兩個獨立的分支:

Head(x)={Fcls(x),Freg(x)}(4)Head(x) = \{ \mathcal{F}_{cls}(x), \mathcal{F}_{reg}(x) \} \tag{4}

分支功能
Fcls(x)(分類分支)負責分類,判斷物體是人、車、狗、貓等
Freg(x)(回歸分支)負責回歸,預測 bounding box 的位置與大小

這樣做的好處是確保移除 DFL 不會干擾分類效能,因為「判斷這是什麼物體」和「框出它的位置」本質上是不同任務。

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - YOLOv26:Decoupled Head

圖 4 比較了兩種 head 架構:

架構特徵
傳統 Decoupled Head with DFL回歸分支後面還要經過 DFL、Softmax、Integral/Summation 等等步驟
YOLO26 Decoupled Head with DFL-Free回歸分支直接輸出座標,不使用 DFL

表示 YOLO26 的 head 更簡潔、更適合部署到邊緣裝置。

至於如何提升定位精度,後續 3.3 節會談及幾個訓練策略來補足:

方法作用
STAL強化小物體的 label assignment
ProgLoss動態調整分類 loss 和框回歸 loss 的比重
MuSGD穩定訓練過程

傳統與 YOLOv26 比較表

項目YOLOv8~YOLOv11YOLOv26
座標預測方式DFL 分布式預測Direct Regression 直接回歸
是否使用 Softmax
邊緣裝置部署較可能有延遲瓶頸較適合
精度維持方式DFL 幫助定位STAL + ProgLoss 補強
Head 架構Decoupled Head + DFLRegression-Centric Decoupled Head
核心目標精準定位精準 + 低延遲部署

3.3 Advanced Training Dynamics: MuSGD, STAL, and ProgLoss

3.3.1 MuSGD Optimizer

為了確保新架構中的收斂穩定性,Ultralytics 在 YOLO26 引入了 MuSGD,全名為 Momentum-Unified Stochastic Gradient Descent,中譯動量統一隨機梯度下降。

MuSGD 是一種新的混合式 Optimizer,結合了傳統 SGD 的特性與 Muon Optimizer 的特性,此方法明確受到 Moonshot AI 的大型語言模型 Kimi K2 訓練動態啟發,代表一種把 NLP 領域中的先進最佳化方法轉移到電腦視覺任務中的策略。

The Muon Component: MuSGD 的核心創新在於整合了 Muon Optimizer。

傳統的 Optimizer,例如 AdamW,通常是對每一個參數做逐元素更新,也就是每個權重值各自調整。

但 Muon 不只是逐一調整每個元素,而是對整個權重矩陣做矩陣正交化(matrix orthogonalization),讓更新方向與目前狀態保持某種正交關係。這樣可以讓模型在最重要的方向上更有效率地更新,同時限制 spectral norm,也就是控制矩陣整體變化幅度,避免更新過度劇烈。

白話解釋:

  • 傳統 SGD / AdamW 的 Optimizer 像是每個員工各自微調自己的工作方式
  • Muon 比較像是從整個團隊的協作方向來調整,避免大家更新方向太混亂。

論文首先定義了傳統 SGD 使用的 momentum buffer:

vt+1=βvt+gt(5)v_{t+1} = \beta \cdot v_t + g_t \tag{5}

符號意義:

符號意思
vtv_ttt 次的動量累積值
vt+1v_{t+1}更新後的動量累積值
β\betamomentum coefficient,動量係數
gtg_t當前梯度

這個公式的意思是新的更新方向不只看目前梯度 gtg_t,也會參考過去累積的方向 vtv_t

接著 MuSGD 修改最終的權重更新公式:

θt+1=θtη(αvt+1+(1α)NewtonSchulz(gt))(6)\theta_{t+1} = \theta_t - \eta \cdot (\alpha \cdot v_{t+1} + (1 - \alpha) \cdot \text{NewtonSchulz}(g_t)) \tag{6}

符號意義:

符號意思
θt\theta_ttt 次訓練時的模型參數
θt+1\theta_{t+1}更新後的模型參數
η\etalearning rate,學習率
α\alpha用來控制 SGD momentum 與 Muon 更新比例的權重
vt+1v_{t+1}SGD 的動量方向
NewtonSchulz(gt)\operatorname{NewtonSchulz}(g_t)對梯度矩陣做 Newton-Schulz 正交化/白化(Whiten)後的結果

這個公式主要可以拆成兩個部分來看:

  1. αvt+1\alpha \cdot v_{t+1} :代表傳統 SGD momentum 的穩定更新方向。
  2. (1α)NewtonSchulz(gt)(1 - \alpha) \cdot \text{NewtonSchulz}(g_t) :代表 Muon 風格的正交化梯度更新方向。

在此公式基本上可看出 MuSGD 更新方向 = 穩定的 SGD momentum + 高效率的正交化梯度。

另外在論文中說 NewtonSchulz(gt)NewtonSchulz(g_t) 會對梯度矩陣做類似 whitening 的處理。

Whitening(白化)可以理解成把原本方向可能歪掉、尺度不一致的梯度,調整成比較均衡、比較穩定的形式。


YOLO26 先前做了兩個重大變更:

  1. 移除 DFL
  2. 改成 End-to-End / NMS-Free 架構

這些改變雖可降低推論延遲,但也會讓訓練更難穩定下來,論文指出,這需要更強的訓練策略來避免 gradient collapse,即梯度變得不穩、太小、太亂,導致模型學不好。

因此 MuSGD 的作用可如下表所示:

問題用了 MuSGD 之後
純 SGD 可能震盪、變異較大使用 momentum 平滑更新
純 Muon 早期可能太激進、不穩定保留 SGD 的穩定性
End-to-End 架構訓練較困難用混合式更新提升收斂穩定性
移除 DFL 後定位精度可能受影響讓 backbone 學到更穩健的特徵

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 3.3.1 MuSGD Optimizer

上圖 5 是標準 SGD 與 MuSGD 的比較圖,它的意思是標準 SGD 的梯度變異較大,訓練路徑可能比較抖,而 MuSGD 希望降低這種梯度震盪,讓模型可以更快、更穩定地往收斂方向前進。

理論上,MuSGD 甚至可以減少對複雜 warm-up schedule 的依賴。

:::info
所謂 warm-up schedule 就是字面上意思,熱身排程。

即訓練剛開始時,不要一開始就用完整的學習率,而是先用較小的學習率,然後逐步增加到設定好的目標學習率。
:::


3.3.2 Small-Target-Aware Label Assignment (STAL)

為了解決邊緣最佳化模型中常見的「小物體消失」問題,YOLO26 採用了 Small-Target-Aware Label Assignment(STAL)。

標準的標籤分配策略通常依賴固定的 Intersection-over-Union(IoU,交併比)閾值,例如: τ=0.5\tau =0.5

這種方法(標準的標籤分配策略)對大型物體通常有效,但對小目標不友善。

當目標只佔影像面積不到 1%1\% 時,即使 anchor 或候選框的位置已經很接近目標,仍可能因為像素級離散化誤差,以及 IoU 對小幅空間位移非常敏感,導致計算出的 IoU 偏低。

STAL 的做法:不再用固定閾值,改用會根據物體尺寸自動調整的動態閾值,該想法受到 Task Alignment Learning(TAL,任務對齊學習)的啟發。

:::info
Task Alignment Learning(TAL,任務對齊學習)是物件偵測中的一種標籤分配策略,想法是選正樣本時,不只看框的位置是否準確,也要看分類 Confidence 是否夠高。

即 TAL 是讓分類任務(Confidence 是否夠高)與回歸任務(看框位置有沒有準)互相配合的標籤分配方法。
:::

公式如下所示:

τdynamic=τbase(1αeAreaobjAreaimg)(7)\tau_{dynamic} = \tau_{base} \cdot \left( 1 - \alpha \cdot e^{-\frac{\text{Area}_{obj}}{\text{Area}_{img}}} \right) \tag{7}

符號意義:

符號意義簡短解釋
τdynamic\tau_{dynamic}動態閾值(Dynamic Threshold)STAL 實際使用的 IoU 判斷門檻,會依照物體大小自動調整。
τbase\tau_{base}基礎閾值(Base Threshold)原本設定的 IoU 閾值,例如傳統常見的 (0.5)。
α\alpha衰減控制係數(Decay Control Factor)控制閾值下降的幅度;α\alpha 越大,小目標的門檻會降得越多。
AreaobjArea_{obj}物體面積(Object Area)真實目標框的面積,例如目標寬度 × 高度。
AreaimgArea_{img}影像面積(Image Area)整張輸入圖片的面積,例如圖片寬度 × 高度。
AreaobjAreaimg\frac{Area_{obj}}{Area_{img}}物體相對大小比例表示物體佔整張圖片的比例;比例越小,代表物體越小。
eAreaobjAreaimge^{-\frac{Area_{obj}}{Area_{img}}}尺度衰減項用來根據物體大小調整閾值;小物體時此項接近 1,大物體時會變小。
1αeAreaobjAreaimg1-\alpha e^{-\frac{Area_{obj}}{Area_{img}}}閾值調整倍率決定 τbase\tau_{base} 要被縮放多少。
(1αeAreaobjAreaimg)\left(1-\alpha e^{-\frac{Area_{obj}}{Area_{img}}}\right)動態調整因子小目標時讓 IoU 閾值降低,使小物體更容易被分配為正樣本。

Label Assignment(標籤分配)的理解:在物件偵測中,模型訓練時要先判斷哪些預測框應該算是有對到真實物體?傳統做法常用 IoU 來判斷,如:

情況判斷
IoU0.5IoU ≥ 0.5視為正樣本(Positive Sample),模型要學它
IoU<0.5IoU < 0.5視為負樣本(Negative Sample),模型忽略或當背景

但這個做法的問題是小物體的 IoU 很容易被一點點位移影響。

例如一張 640×640640 \times 640 圖片中,有一個很小的螺絲、細胞、遠方行人或空拍圖中的車子,預測框只要偏移幾個像素,IoU 可能就從 0.50.5 掉到 0.150.15

對大型物體來說,偏幾個像素幾乎沒差;但對小物體來說,幾個像素就可能是整個物體寬度的一大部分。

因此傳統固定閾值會造成明明預測框已經很接近小物體,卻因為 IoU 不夠高,被錯誤當成負樣本,此為論文提到的 small object vanishing problem(小物體消失問題)。


STAL 的核心想法就是物體越小,IoU 閾值就應該越寬鬆,僅此而已,例如以下例子:

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 3.3.2 Small-Target-Aware Label Assignment (STAL)

方法IoU閾值結果
傳統固定閾值0.150.50.15 < 0.5,被忽略
STAL 動態閾值0.150.100.15 > 0.10,被視為正樣本

3.3.3 Progressive Loss Balancing (ProgLoss)

為了進一步穩定端到端架構(end-to-end architecture)的訓練,YOLO26 採用了 ProgLoss(Progressive Loss Balancing),也就是一種動態損失權重策略。

在一般物件偵測器中,分類損失(classification loss,LclsL_{cls})與邊界框回歸損失(bounding box regression loss,LboxL_{box})之間的比例通常是固定的。

而對端到端學習來說,這種固定比例不是最佳做法,因為網路須在沒有錨框先驗幾何引導(geometric guidance of anchor priors)的情況下,同時學會特徵辨識與精準定位。

:::info
geometric guidance of anchor priors 就是用預設的候選框,先給模型一個物體位置與形狀的起點,讓模型只需要學會如何微調這個框。

錨框(Anchor Box):事先放在影像或特徵圖上的候選框,例如不同大小、不同長寬比的矩形框。

先驗(Prior):模型在還沒真正學習前,先假設物體大概可能長成哪些形狀,例如小正方形、寬扁矩形、高瘦矩形等等。

幾何引導(Geometric Guidance):這些預設框會提供位置、大小、長寬比的幾何參考,讓模型不用從零開始猜物體框。
:::

ProgLoss 的做法是引入一個會隨時間變化的調節係數 λt\lambda_t ,如 Eq. 8 與圖 7 所示,總損失函數會隨訓練 epoch tt 演化: $$L_{total}(t) = \lambda_t \cdot L_{cls} + (1 - \lambda_t) \cdot L_{box} \tag{8}$$

符號意義:

符號意義
Ltotal(t)L_{total}(t)tt 個訓練 epoch 的總損失
tt訓練時間或訓練 epoch
LclsL_{cls}分類損失,衡量類別預測是否正確
LboxL_{box}邊界框回歸損失,衡量預測框位置與真實框的差距
λt\lambda_t隨訓練時間改變的權重係數
1λt1-\lambda_t邊界框損失的權重

λt\lambda_t 會依照單調遞減的排程變化,例如 cosine decay(餘弦衰減),這樣可讓模型從「語意基礎建立」平滑過渡到「幾何邊界細修」。

訓練早期 λt\lambda_t 較高,因此梯度主要由 LclsL_{cls} 主導,這會優先讓模型學習高階語意特徵,使 backbone 穩定下來,並先建立「物體是否存在」的判斷能力。

訓練後期 λt\lambda_t 降低,重心逐漸轉向 LboxL_{box},讓模型能夠微調物體的幾何邊界,可避免訓練後期被大量容易分類的負樣本(easy negatives)主導梯度,並在移除 DFL(Distribution Focal Loss)後,仍盡量維持高精度定位能力。


理解 ProgLoss:讓模型在不同訓練階段專注不同任務,不固定使用同一套 loss 權重。

傳統方法常固定 LclsL_{cls}LboxL_{box} 的比例,但 ProgLoss 認為這樣不夠聰明。

模型剛開始訓練時,連哪裡有物體都還不知道,如果太早要求它把邊界框框得很準,可能會訓練上會不穩。

因此在早期先強調分類,先讓模型學會看懂畫面裡有什麼,等模型已經能大致辨識物體後,再逐漸提高定位的重要性,讓邊界框越框越準。

用公式來看的話,就如同前面說的,訓練早期讓 λt\lambda_t 較高,此時模型主要在學分類;後期 λt\lambda_t 較低,此時模型主要在學定位。

階段λt\lambda_t主要 loss訓練重點目的
早期LclsL_{cls}學語意特徵先穩定 backbone,建立物體存在感
後期LboxL_{box}修正幾何邊界提升定位精度,補償移除 DFL 後可能失去的細緻回歸能力

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 3.3.3 Progressive Loss Balancing (ProgLoss)

圖 7 兩條線的意義:

  • 藍線(Phase 1: Semantic Learning 語意學習階段):左半部為早期訓練階段,剛開始藍線很高,λt\lambda_t 變大,總損失主要被分類損失 LclsL_{cls} 主導。
  • 橘線(Phase 2:Geometric Precision,幾何精準階段):右半部是訓練後期,此時橘線變高,代表 λt\lambda_t 變小,總損失逐漸由框回歸損失 LboxL_{box} 主導。

而在中間交會點(圖中大約在 Epoch 150 左右)中,分類與定位同等重要,藍線與橘線交會代表 λt1λt\lambda_t \approx 1 - \lambda_t ,即 LclsL_{cls}LboxL_{box} 的權重接近相同。

4 Multi-Task Capabilities of YOLO26

該節開頭內容主要就一句話:YOLO26 不只有做物件偵測,也設計成一個統一的多任務電腦視覺平台。

因為傳統上不同視覺任務常常需要不同模型,例如物件偵測用一個模型,分割用另一個模型,姿勢估計又用另一個模型,YOLO26 的設計方向則是共用同一套主幹網路(backbone),再根據任務接上不同的預測頭(prediction head)。

可以想成一間工廠:

  • Backbone 像是共同的原料處理線,負責從影像中抽取特徵。
  • 不同的 prediction head 像是不同產品線,如:
    • 偵測頭輸出物件框。
    • 分割頭輸出像素級遮罩。
    • 分類頭輸出整張圖片的類別。
    • 姿勢頭輸出人體關鍵點。
    • OBB 頭輸出帶角度的旋轉框。
    • Open-Vocabulary 頭則能結合文字語意,處理開放類別偵測。

這樣做的好處是,不用為每個任務都重新設計一整個模型,這樣可讓模型在同一個架構底下擴充不同能力。

以下 Table 2 整理了 YOLO26 家族在不同任務中使用的預測頭輸出與座標格式,目的是在多種應用領域中維持架構一致性。這個多任務框架利用統一的 backbone,以及前面提到的 ProgLoss 排程機制,確保模型從標準邊界框任務轉換到更複雜的幾何任務時,例如關鍵點與旋轉框,不會帶來明顯的延遲成本。

任務預測頭輸出座標格式預測頭機制 / 目標
物件偵測(Object Detection)類別(Class) + 邊界框(Box)(xc,yc,w,h)(x_c, y_c, w, h)NMS-Free 偵測、STAL Loss
實例分割(Instance Segmentation)類別(Class) + 邊界框(Box) + 遮罩(Mask)(xc,yc,w,h)+Maskpix(x_c, y_c, w, h) + Mask_{pix}原型遮罩頭(Prototype Mask Head)、ProgLoss
分類(Classification)類別標籤(Class Label)無座標,全域標籤全域池化(Global Pooling)、線性分類頭
姿勢估計(Pose Estimation)類別(Class) + 邊界框(Box) + 關鍵點(Keypoints)(xi,yi,vi)i=117(x_i, y_i, v_i)_{i=1}^{17}基於 OKS 的關鍵點最佳化
有向物件偵測(Oriented Detection / OBB)類別(Class) + 旋轉邊界框(Rotated Box)(xc,yc,w,h,θ)(x_c, y_c, w, h, \theta)Rotated IoU / 角度感知損失
開放詞彙任務(Open-Vocabulary)文字(Text) + 邊界框(Box)(xc,yc,w,h)+Embedtxt(x_c, y_c, w, h) + Embed_{txt}視覺—語言嵌入對齊

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 4 Multi-Task Capabilities of YOLO26

Figure 8:YOLO26 的統一多任務執行示意圖,展示了:(a) 物件偵測(Detection)、(b) 實例分割(Segmentation)、© 分類(Classification)、(d) 姿勢估計(Pose Estimation)、(e) 有向邊界框偵測(Oriented Bounding Box, OBB)。


該節的三個重要概念:

  1. Unified model family(統一模型家族):YOLO26 從小模型 Nano 到大模型 Extra-Large,都能支援多種任務,代表它不是只有某一個版本能做多任務,而是整個模型系列都具有一致的擴充設計。
  2. Specialized prediction heads(專門預測頭)

不同任務需要不同輸出格式,例如物件偵測只需要 (xc,yc,w,h)(x_c, y_c, w, h) ,但姿勢估計需要輸出每個關鍵點 (xi,yi,vi)(x_i, y_i, v_i) ,其中:

  • xi,yix_i, y_i:第 ii 個關鍵點的位置。
  • viv_i:該關鍵點是否可見或有效。

而 OBB 任務還要多一個旋轉角度: (xc,yc,w,h,θ)(x_c, y_c, w, h, \theta)

因此論文也強調了 YOLO26 會根據任務特性,用不同的 prediction head。

  1. Edge efficiency(邊緣裝置效率)

論文不只是說 YOLO26 可以做很多任務,也強調這些任務設計都要適合邊緣裝置,例如手機、無人機、監視器、嵌入式 AI 裝置等。

因此 YOLO26 希望做到的是「多任務支援 + 低延遲 + 架構一致 + 易部署」這些事情。

這也是它和一些大型 Transformer 架構不同的地方,YOLO26 的重點不是單純堆高模型複雜度,而是讓多任務能力可以在即時推論場景中運作。

4.1 Object Detection

該節又重複一次之前的內容,基本上可看過就好。

原文翻譯:

YOLO26 的主要目標,是透過軸對齊邊界框(axis-aligned bounding boxes)來辨識並定位影像中一個個獨立的物件實例,如 Figure 8 (a) 所示。

雖然物件偵測仍然是 YOLO 系列最基礎的任務,但 YOLO26 透過第 3.1 節所討論的原生端到端架構,進一步最佳化了偵測流程。

藉由使用 one-to-one label assignment 策略,模型達成了 CPU 延遲降低 43% 的效果;這對即時醫療監控與邊緣層級監視系統而言,是非常關鍵的因素。

除了原始速度之外,移除不可微分的 NMS 運算子,也確保整個偵測流程是完全確定性的。

這種可預測性對解釋性方法的可靠性非常重要,因為它提供了一條從像素輸入到最終邊界框輸出的直接且透明的路徑。

對於微小特徵的偵測,則進一步受到公式 7 所描述的 STAL 機制強化。在實際應用中,例如分析組織病理學資料集中的微異常區域時,STAL 可以避免小目標常見的梯度消失(vanishing gradient)問題。

這使 YOLO26 能夠對影像面積中小於 1% 的物件仍維持高召回率,並確保簡化後的 DFL-free regression head 在各種物件尺度下仍然保持精準。


Object Detection 是 YOLO26 的核心任務。

物件偵測要解決兩件事:

任務說明
分類判斷影像中有什麼物件,例如人、車、貓、腫瘤區域
定位用邊界框標出物件位置

而該節主要討論的是標準的偵測格式:(xc,yc,w,h)(x_c, y_c, w, h) ,其中符號意義:

符號意義
xcx_c邊界框中心點的 x 座標
ycy_c邊界框中心點的 y 座標
ww邊界框寬度
hh邊界框高度

而所謂 axis-aligned bounding box(軸對齊邊界框),意思是框的邊緣會和影像的水平、垂直方向平行,不會旋轉。

簡單來說就是以下這種常見的矩形框:

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 4.1 Object Detection

而非像平行四邊形那樣的矩形框(旋轉框):

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 4.1 Object Detection

旋轉框屬於後面 OBB 任務,不是本節重點。


Deterministic detection:偵測流程更可預測

論文特別提到,移除不可微分的 NMS 後,YOLO26 的偵測流程更具 deterministic(確定性)。

這個意思是在相同輸入與相同模型條件下,輸出流程更直接、更穩定,不容易因後處理規則造成額外變動。

這對 explainability methods(可解釋性方法) 很重要。

例如我們想知道模型為什麼把某個區域判斷成病灶:

1
2
3
4
5
輸入像素

模型特徵

模型預測框

如果中間還有 NMS 這種後處理規則,解釋時就會比較麻煩,因為最後結果不完全是神經網路直接產生的,而又經過一層人工規則篩選。

YOLO26 移除 NMS 後,從影像像素到最後框的路徑更直接,因此比較有利於分析模型判斷依據。

4.2 Instance Segmentation

原文翻譯:

YOLO26 中的實例分割,代表模型從「區域定位」進一步轉向「像素層級分類」的重要轉變,如圖 8(b) 所示。

透過在解耦式頭部(Decoupled Head)旁加入遮罩預測分支(Mask-Prediction Branch),模型能夠更精確地擷取每一個物體個體的形狀。

根據表 2,此任務的輸出不只包含邊界框座標,也包含像素層級遮罩 MaskpixMask_{pix} ,這對醫學診斷特別重要,因為在醫療影像中,病灶的「實際範圍」往往比單純用一個方框標出位置更有價值。

YOLO26-seg 的一項新改進,是用邊界感知監督(Boundary-Aware Supervision),並由公式 8 中的 ProgLoss 排程機制支援。

由於模型是 DFL-Free,因此可以避免在邊緣硬體上常見的離散化誤差,這些誤差往往會使物體邊界變得模糊。

取而代之的是,ProgLoss 在訓練後期更聚焦於回歸修正,像是一個輪廓拋光器(Contour Polisher),使遮罩即使面對小目標或重疊目標時,仍能保持清晰。

再加上 MuSGD 最佳化器能維持穩定的譜範數(Spectral Norms),分割分支可以用較少參數達到較高的特徵解析度,進而帶來先前提到的 CPU 與 NPU 加速效果,這意味著高品質實例分割不再只侷限於高階 GPU,而是可以部署到即時邊緣運算環境。


YOLO26-seg 做了什麼事情?

YOLO26-seg 在原本的偵測頭旁邊,額外加入一個 Mask-Prediction Branch(遮罩預測分支),可把它想成模型同時會回答三個問題:

輸出項目作用
類別(Class)這是什麼物體
邊界框(Box)物體大概在哪裡
遮罩(Mask)物體實際佔了哪些像素

所以 YOLO26-seg 的輸出不只是 (xc,yc,w,h)(x_c, y_c, w, h),也包含 MaskpixMask_{pix} ,即像素層級的遮罩。


Boundary-Aware Supervision 是什麼?

Boundary-Aware Supervision(邊界感知監督)可理解為模型在訓練時,不只學「物體內部在哪裡」,也特別重視「邊界在哪裡」。

因為一般分割模型可能會出現這種物體大致上切對了,但邊緣模糊的問題。

YOLO26-seg 想改善這件事,所以讓訓練更關注邊界品質,讓遮罩邊緣更銳利。


ProgLoss 為什麼像 Contour Polisher?

ProgLoss 的概念是訓練前期先讓模型學會辨認物體,訓練後期再更重視位置與形狀修正。

訓練階段模型主要學什麼
前期先學會辨別這是什麼物體
後期再修細節,例如邊界、位置、輪廓

就像畫畫在畫畫一樣:

  1. 先畫出物體大致輪廓,畫出一個草稿。
  2. 草稿畫完再慢慢修邊、修線條,整理細節。
  3. 最後讓形狀變得更乾淨。

因此論文把 ProgLoss 形容成 Contour Polisher。

4.3 Image Classification

原文翻譯:

在 YOLO26 生態系中,影像分類(Image Classification)是計算效率最高的任務,因為它不需要進行空間回歸,也不需要產生遮罩,如 Figure 8© 所示。

分類頭會從整體角度分析輸入影像,並用全域平均池化(Global Average Pooling, GAP)將 backbone 產生的高階特徵圖壓縮成單一向量,接著再將這個向量映射成不同類別的機率。這種架構更重視影像整體的視覺模式,而不是特定的座標邊界;這一點也整理在 Table 2 中。

YOLO26-cls 變體使用精簡化的 CSP-based backbone,以達成極低的推論延遲。因此,它非常適合用於大型醫學資料集或環境資料集的初步分類;在這類應用中,最重要的指標通常是判斷「是否存在某種病灶或物體」,而不是精準標出其位置。

此外,YOLO26-cls 也整合了 ProgLoss 排程機制,使分類頭在複雜的多類別資料集上能穩定收斂。透過在訓練早期專注於 語義基礎建立(semantic grounding),模型能建立穩健的全域表徵;相較於純粹依賴區域偵測的模型,這種全域表徵對空間雜訊或物體遮擋較不敏感。


這一節在講說 YOLO26 不只能偵測物件,也可以退化成一個很快的影像分類器。

  • 物件偵測要回答圖片中有什麼?它在哪裡?
  • 實例分割要回答圖片中有什麼?它在哪裡?它的精確輪廓是哪一塊?
  • 而影像分類只需要回答這張圖片整體屬於哪一類?

例如給模型一張胸部 X 光影像:

任務輸出結果
物件偵測框出疑似病灶位置
實例分割切出病灶精確輪廓
影像分類判斷整張影像是否異常

分類任務不需要輸出 (xc,yc,w,h)(x_c, y_c, w, h) ,也不用輸出 MaskmixMask_{mix} ,只需要輸出類別機率,如:

類別機率
正常0.08
肺炎0.87
其他異常0.05

因此它的計算成本最低,速度也通常最快。


什麼是 Global Average Pooling(GAP)?

Global Average Pooling(全域平均池化)是分類任務當中的關鍵操作,假設 backbone 輸出一個高階特徵圖為 C×H×WC \times H \times W,即意思是有:

符號意義
CC特徵通道數
HH特徵圖高度
WW特徵圖寬度

GAP 會把每一個通道中的所有位置取平均,將原本的特徵圖壓縮成一個向量如: C×H×WCC \times H \times W \rightarrow C


為什麼分類任務最節省計算資源?

被省略的部分原本用途為何分類不需要
空間回歸(Spatial Regression)預測邊界框位置分類不需要知道物體在哪裡
遮罩生成(Mask Generation)預測像素級輪廓分類不需要切出物體形狀

ProgLoss 在分類中扮演什麼角色?

前面章節提到 ProgLoss 會動態調整分類損失與定位損失的比例,雖然分類任務本身不需要邊界框回歸,但論文指出 ProgLoss 排程仍有助於讓分類頭在複雜多類別資料集上穩定收斂。

可這樣做理解:訓練早期,模型先把語義概念學好,例如貓、狗、車、病灶、正常組織等類別差異,之後再逐步強化更細節的判斷能力。


什麼是 semantic grounding?

Semantic grounding 可翻成語義基礎建立或語義扎根,它的意思是模型除了記住局部紋理外,也學到比較完整的類別概念。

例如要分類貓,比較差的模型可能只記住有毛、有尖耳朵、有鬍鬚等特徵就等同於貓,但如果圖片中貓被遮住、角度不同、背景很亂,這種判斷就容易失敗。

比較好的模型會學到更整體的語義特徵,如整體輪廓、臉部結構、身體比例、常見姿勢,這些特徵就等於貓。

因此論文說 YOLO26-cls 建立的全域表徵對 spatial noise(空間雜訊)或 object occlusion(物體遮擋)比較不敏感。

4.4 Pose Estimation

原文翻譯:

YOLO26 中的姿勢估計將空間推理能力擴展到 17 個人體解剖學關鍵點的定位,如圖 8(d) 所示,這項任務透過為每一個關鍵點輸出三元組(Triplet)格式 (xi,yi,vi)(x_i, y_i, v_i) ,來追蹤關節的方向與動作,其中,預設的 COCO 關鍵點對應關係列於下方的表 3。

編號關節編號關節編號關節
0鼻子6右肩12右髖
1左眼7左手肘13左膝
2右眼8右手肘14右膝
3左耳9左手腕15左腳踝
4右耳10右手腕16右腳踝
5左肩11左髖

準確率由物件關鍵點相似度(Object Keypoint Similarity, OKS)控制,OKS 會將歐氏距離 did_i 根據物件尺度 ss 與每個關節各自的衰減常數 κi\kappa_i 進行正規化: $$ OKS = \frac{\sum_i \exp(-d_i^2 / 2s2\kappa_i2)\delta(v_i > 0)}{\sum_i \delta(v_i > 0)} \tag{9} $$

為了在沒有 DFL(Distribution Focal Loss)的情況下仍維持精準度,YOLOv26-pose 使用殘差對數概似估計(Residual Log-Likelihood Estimation, RLE)。

RLE 不是採用固定分布,而是建模空間不確定性,因此模型能夠處理遮擋情況,再結合 MuSGD 最佳化器後,這能確保在邊緣硬體上仍具有高精度的關鍵點回歸能力,並維持確定性的延遲表現。


(xi,yi,vi)(x_i, y_i, v_i) 分別代表什麼?

每個關鍵點都用三個值表示:

符號意義
xix_iii 個關鍵點的 x 座標
yiy_iii 個關鍵點的 y 座標
viv_ivisibility,可見性或標註狀態

其中 viv_i 通常用來表示這個關鍵點是否有效、是否被看見、是否被遮擋,公式中的 δ(vi>0)\delta (v_i > 0) 表示只有有效的關鍵點才會被納入 OKS 計算。

簡單來說,如果某個人的手腕被遮住,看不到手腕,那這個點可能就不會被拿來嚴格懲罰模型。

補充 vv 的數值:

  • v=0v = 0:表示關鍵點未標註(可能在畫面外)。
  • v=1v = 1:表示關鍵點已標註,但被遮擋(Occluded,例如手放在背後)。
  • v=2v = 2:表示關鍵點已標註,且可見。

什麼是 OKS?

OKS 可以理解成 Pose Estimation 版的 IoU。

物件偵測常用 IoU 判斷框是否準確,而 Pose Estimation 則用 OKS 判斷關鍵點定位得準不準。

OKS 的主要想法是預測點離真實點越近,分數越高;離越遠,分數越低。但它不是單純只看距離,也還考慮兩件事:

因素作用
物件尺度 ss大人物可以容許稍大的誤差,小人物則誤差容忍度較低
關節常數 κi\kappa_i不同關節的定位難度不同,所以容忍程度不同

例如鼻子通常比較容易定位,而腳踝可能因為遮擋或姿勢變化較難定位,因此不同關節不能全部用同一個標準判斷。


為什麼 YOLO26-pose 要用 RLE?

論文前面提到 YOLO26 移除了 DFL,改走更直接、較適合邊緣裝置的回歸方式,但問題是 DFL 原本能幫助模型處理定位的不確定性。

因此在 Pose Estimation 中,YOLO26-pose 使用 RLE 來補足這一點。

RLE 的重點是不將關鍵點位置當成一個完全固定的點,而去建模該位置可能有多不確定。

這對 Pose Estimation 很重要,因為人體關節常常會被遮住。

例如:一個人側身站立時,右手可能被身體擋住;跑步時,腳踝可能因為動作模糊而不清楚。

這種情況下,模型不能只硬猜一個座標,而應該理解這個位置存在不確定性。

4.5 Oriented Object Detection (OBB)

YOLO26 中的旋轉式物件偵測(OBB)加入了一個旋轉參數 θ\theta 用來更精確地定位傾斜的目標,如圖 8(e) 所示。

透過使用表 2 中所描述的正規化 xywhrxywhr 格式,模型可以消除在航空影像與工業場景中,傳統水平邊界框經常包含的背景雜訊。

為了解決角度回歸中固有的邊界不連續錯誤,該架構使用了一種專門的 Angle Loss(角度損失),即使面對接近正方形的物體,也能維持幾何一致性。

這項任務利用 Direct Regression(直接回歸)策略與 MuSGD 最佳化器,在不需要 Distribution Focal Loss(DFL)額外計算成本的情況下,達成高精度的角度預測。

當部署在無人機(UAV)等邊緣硬體上時,NMS-free head 可以在密集環境中提供確定性的延遲,例如港口貨櫃、船隻等大量目標密集排列的場景。

這些最佳化使其相較於傳統基於啟發式旋轉 NMS 的方法,推論速度提升 43%43\% ,因此能在資源受限的裝置上維持即時效能。


什麼是 OBB?

OBB 可以理解成會旋轉的邊界框。

一般物件偵測常用的是水平邊界框,也就是 Axis-Aligned Bounding Box, AABB,這種框只能水平或垂直,不能旋轉。

例如偵測一艘斜著停靠的船:

類型描述結果
水平框 AABB用水平矩形包住物體會包進大量背景
旋轉框 OBB框可以跟著物體角度旋轉更貼近物體輪廓

AABB 像是用一個不能轉動的紙盒去裝斜放的筆,旁邊會多出很多空白;OBB 則像是把紙盒轉到跟筆一樣的方向,因此框得更準。


xywhrxywhr 格式是什麼?

論文提到 YOLO26 使用正規化的 xywhrxywhr 格式,可理解為:

符號意義
xx邊界框中心點的 xx 座標
yy邊界框中心點的 yy 座標
ww邊界框寬度
hh邊界框高度
rr旋轉角度,對應論文中的 θ\theta

一般水平框只需要 (x,y,w,h)(x, y, w, h) ,但 OBB 多一個 rrθ\theta 就是讓框可以旋轉的關鍵: (x,y,w,h,r)(x, y, w, h, r)


什麼是角度回歸的邊界不連續錯誤?

這是 OBB 的難題,假設角度範圍設定為 90−90^\circ9090^\circ,那 8989^\circ89-89^\circ 在數值上會差很多,但在幾何上可能其實非常接近(用角度看)。

這就會造成模型訓練上的矛盾,模型明明預測得很接近,但損失函數可能以為錯得很嚴重,這種問題就叫做 boundary discontinuity error(邊界不連續錯誤)。


為什麼接近正方形的物體特別麻煩?

論文特別提到 near-square objects(接近正方形的物體),原因是正方形旋轉後外觀看起來差不多,例如一個正方形旋轉 00^\circ9090^\circ 在視覺上幾乎沒有差異。

所以模型可能會困惑到底是 00^\circ 還是 9090^\circ

如果損失函數設計不好,就會讓模型在角度預測上受到不必要的懲罰,因此論文提到 YOLO26 使用專門的 Angle Loss 來維持幾何一致性。

4.6 Open-Vocabulary Detection and Segmentation (YOLOE-26)

這裡的 Open-Vocabulary(開放詞彙)指的是:模型不再只能偵測訓練時固定好的類別,例如只會辨識 COCO 裡的 80 類,而是可以透過文字或圖片提示去偵測更多任意指定的物件類別。

YOLOE-26 代表 YOLO 系列的一次重要演進,因為它把高效能的 YOLO26 架構與先進的開放詞彙能力結合起來。透過將視覺特徵與豐富的語言嵌入向量對齊,YOLOE-26 能夠即時偵測與進行實例分割任意物件類別,進而有效移除過去固定類別訓練所帶來的限制。

簡單說傳統 YOLO 模型通常像是考前只背固定題庫,訓練資料有什麼類別,它就主要能偵測什麼類別。YOLOE-26 則像是能聽懂指令的偵測模型,可以用文字告訴它要找什麼,例如:叫 YOLO 找出紅色杯子。

因此它不只是單純看圖片,也能結合語言語意來理解目標。


YOLOE-26 支援三種推論模式

模式說明生活化例子
文字提示(Text Prompt)用文字描述要找的目標輸入「找紅色杯子」,模型就在畫面中找紅色杯子
視覺提示(Visual Prompt)給一張參考圖片,讓模型找相似物給模型一張特定零件照片,讓它在工廠影像中找相同零件
無提示模式(Prompt-Free Mode)不提供文字或參考圖,模型自行做零樣本偵測機器人在陌生環境中,自動辨識可能的重要物件
  • Text Prompt(文字提示):靠語言描述目標。
  • Visual Prompt(視覺提示):靠參考圖片做單樣本識別(one-shot recognition)。
  • Prompt-Free(無提示):不靠外部提示,直接做零樣本推論(zero-shot inference)。

YOLOE-26 新增的三個核心模組

為了支援這些多模態輸入,又不讓即時邊緣運算變慢,YOLOE-26 修改了標準 YOLO 的 backbone(骨幹網路)與 PAN-FPN neck(特徵融合頸部),加入三個新模組:

模組全名功能
RepRTARe-parameterizable Region-Text Alignment對齊區域特徵與文字語意
SAVPESemantic-Activated Visual Prompt Encoder處理參考圖片,用於視覺提示
LRPCLazy Region-Prompt Contrast支援無提示零樣本推論
  • RepRTA(Re-parameterizable Region-Text Alignment):讓模型聽懂文字提示。
    • 它會透過一個小型輔助網路,調整來自 CLIP 等語言模型的文字嵌入向量,使模型能根據文字提示進行偵測。
    • 假設輸入找出紅色杯子,模型需要把「紅色杯子」這段文字轉成一組語意向量,然後拿這組語意向量去和圖片中的區域特徵比對,RepRTA 的作用就是讓「文字描述」與「圖片區域」能夠對得上。
  • SAVPE(Semantic-Activated Visual Prompt Encoder):讓模型看參考圖片找東西。
    • 它會從參考圖片中提取語意特徵與啟動特徵,讓模型可以做 one-shot visual prompting(單樣本視覺提示)。
    • 不一定要用文字描述物件,也可以直接給模型一張參考圖,例如某種螺絲、瑕疵零件或特定品牌包裝,模型就會在其他影像中尋找類似目標。
    • 這對工業檢測很有用,因為有些物件很難用文字精準描述,但給一張圖片就很清楚。
  • LRPC(Lazy Region-Prompt Contrast):讓模型不用提示也能零樣本偵測。
    • 其作用是支援 prompt-free zero-shot inference(無提示零樣本推論),也就是說,模型即使沒有文字提示或參考圖片,也能根據內部學到的大量語意嵌入來辨識開放集合中的物件。
    • 論文提到,這些內部嵌入來自大量詞彙資料集,例如 LVIS 與 Objects365。
    • 可想成模型已經事先讀過很多「物件詞彙字典」,即使沒有明確告訴它要找什麼,它也能根據過去學到的開放世界知識做判斷。

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 4.6 Open-Vocabulary Detection and Segmentation (YOLOE-26)

【論文閱讀】YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection - 4.6 Open-Vocabulary Detection and Segmentation (YOLOE-26)

圖 9:YOLOE-26 的開放詞彙架構概念圖

圖 9 主要說明 YOLOE-26 可以處理多種輸入來源,包括文字提示、視覺提示與無提示模式,並且用於即時邊緣偵測與分割。

可理解為:

1
2
3
4
5
文字提示 / 圖片提示 / 無提示

YOLOE-26 多模態理解

物件偵測 + 實例分割

即說明 YOLOE-26 不只是單純的影像偵測器,而是能把「語言」與「視覺」一起納入判斷的模型。

而圖 10:RepRTA、SAVPE、LRPC 如何接到 YOLO 架構中,展示 RepRTA、SAVPE、LRPC 這三個模組如何與標準特徵提取 backbone,以及 NMS-free decoupled head 結合。

1
2
3
4
5
6
7
Backbone / PAN-FPN 提取圖片特徵

RepRTA 處理文字提示
SAVPE 處理視覺提示
LRPC 處理無提示零樣本推論

NMS-free decoupled head 輸出偵測與分割結果

Zero-Overhead Inference 是什麼意思?

論文強調 YOLOE-26 的主要架構動機是 zero-overhead inference(零額外推論開銷)。

意思是訓練完成後,RepRTA 與 SAVPE 的參數可以被 re-parameterized(重參數化),並且折疊進標準 YOLO head 裡。

因此,當 YOLOE-26 被當成一般封閉集合偵測器使用時,它可以維持與標準 YOLO26 相同的 FLOPs、latency(延遲)、推論效率。

這一點非常重要,因為開放詞彙模型通常會變慢,YOLOE-26 的設計目標是訓練時支援複雜的文字與圖片提示能力,但部署時盡量不要增加推論負擔。

7 Future Directions

  • Inherent Explainability and Trustworthiness(內建可解釋性與可信度):論文提到,目前深度偵測器常被視為黑盒子,即模型可以輸出結果,但通常它不會直接說它為什麼這樣判斷。
    • 現有方法像 Grad-CAM 或 SHAP,通常是在模型完成推論之後,再用額外方法去近似解釋模型的決策過程。
    • 因此,未來的重要方向是發展 Inherent Explainability(內建可解釋性),也就是讓偵測頭(detection head)不只輸出物件框(bounding box)跟類別(class),也能輸出判斷依據圖(justification map)跟文字理由(textual rationale)。
  • Unified Spatiotemporal Perception(統一時空感知):論文指出,YOLO26 因為具有 NMS-free 與 deterministic latency 的特性,所以很適合用在影片分析。
    • 傳統偵測器在影片中可能會產生 flicker 現象,也就是同一個物件在不同影格中的框會跳來跳去,原因之一是 NMS 可能在不同影格中選出略有差異的框,導致偵測結果不穩定。
    • 未來的 YOLO26 可以把 backbone 擴展到原生支援 Spatiotemporal Object Detection(時空物件偵測),也就是不只分析單張圖片的空間資訊,而是把「時間」也當成第三個空間維度來處理。
    • 這樣模型就能在一次 forward pass 裡同時完成:物件偵測、物件追蹤、動作辨識。
    • 未來的統一時空感知就是讓模型像人類看影片一樣,不只看單張畫面,還能理解前後連續變化。
  • Test-Time Adaptation on the Edge(邊緣端測試時適應)
    • 論文指出,已訓練好的模型通常是靜態的,但真實世界環境會一直變,例如光線改變、天氣改變、相機感測器雜訊改變,這些都可能讓模型準確率下降。
    • 未來可以讓 YOLO26 在邊緣裝置上直接進行輕量調整,例如更新 Batch Normalization 的統計資料,或調整輕量 adapter layers。