Nejlepší odpověď
V literatuře jsem narazil na řadu možných aplikací Ranking SVM:
* Ordinal regression * AUC optimization * Class-disbalance * Learning to rank problems
Zpočátku byly navrženy pro ordinální regrese; Optimalizace AUC je jen speciální případ (dvě třídy). Nevyváženost třídy souvisí s optimalizací AUC, protože AUC je přiměřená metrika výkonu pro problémy s nevyvážeností třídy. Hodnocení SVM bylo také navrženo pro problémy Learning 2 Rank v kontextu získávání informací. Nejsou vhodné pro IMHO, protože zatímco AUC lze také považovat za metriku hodnocení, liší se od standardních metrik hodnocení výkonu, jako je NDCG a střední průměrná přesnost: ty jsou velmi těžké; tj. kladou velký důraz na první příklady v žebříčku (často příklady pod žebříčkem 10 a 20 vůbec nezáleží), zatímco AUC zachází se všemi pozicemi v žebříčku stejně.
To je řečeno, já “ Použil jsem Ranking SVM pro všechny výše uvedené problémy a IMHO nikdy nebyly užitečně prokázány – např. podle mých zkušeností příklad vážení obvykle funguje lépe pro nevyváženost třídy a pro učení se hodnotit jednoduchou regresi podle skóre relevance (+ nelineární model) poskytuje lepší výkon u většiny referenčních hodnot L2R. Rozdíl ve výkonu AUC mezi obyčejným svm a hodnocením svm je zanedbatelný IMHO.
Nejzajímavější aplikací Ranking SVM, na kterou jsem narazil, byl Thorsten Joachims a jeho skupina, kde použili implicitní zpětnou vazbu od uživatelů webového vyhledávače (tj. uživatel klikl na pozici 2 jako první a ne na 1), aby vygeneroval „ukázkové páry“ (doc\_2 – doc\_1), které jsou přiváděny do Ranking SVM – tréninkové signály tohoto formuláře by fungovaly pouze pro párové přístupy, jako je Ranking SVM.
Odpověď
Zkratky
- AUC = oblast pod křivkou.
- AUROC = Oblast pod křivkou provozních charakteristik přijímače .
AUC se většinou používá k označení AUROC, což je špatný postup, protože jak zdůraznil Marc Claesen, AUC je nejednoznačný (může to být jakákoli křivka), zatímco AUROC není.
Interpreti ng AUROC
AUROC má několik ekvivalentních interpretací :
- Očekávání, že rovnoměrně vylosovaná náhodná kladná hodnota se umístí před rovnoměrně vylosovaná náhodná záporná.
- Očekávaný podíl pozitivů seřazených před rovnoměrně vylosovanou náhodnou zápornou.
- Očekávaná skutečná kladná sazba, pokud je pořadí rozdělit těsně před rovnoměrně vykresleným náhodným záporem.
- Očekávaný podíl negativů seřazených podle rovnoměrně nakresleného náhodného pozitivu.
- Očekávaná míra falešně pozitivních výsledků, pokud je hodnocení rozděleno těsně po rovnoměrně nakresleno náhodně kladně.
Výpočet AUROC
Předpokládáme mít pravděpodobnostní binární klasifikátor, jako je logistická regrese. Před předložením křivky ROC (= křivka provozní charakteristiky přijímače) je třeba pochopit koncept záměnové matice . Když provedeme binární předpověď, mohou to být 4 typy chyb:
- Předpovídáme 0, zatímco bychom měli mít třídu ve skutečnosti 0: tomu se říká True Negative , tj. správně předpovídáme, že třída je záporná (0). Například antivirový program nezjistil neškodný soubor jako virus.
- Předpovídáme 0, zatímco bychom měli mít třídu ve skutečnosti 1: tomu se říká False Negative , tj. Nesprávně předpovídáme, že třída je záporná (0). Například antiviru se nepodařilo detekovat virus.
- Předpovídáme 1, zatímco třída by měla být ve skutečnosti 0: tomu se říká False Positive , tj. nesprávně předpovídáme, že třída je pozitivní (1). Například antivirový program považoval neškodný soubor za virus.
- Předpovídáme 1, zatímco bychom měli mít třídu ve skutečnosti 1: tomu se říká True Positive , tj. Správně předpovídáme, že třída je pozitivní (1). Například antivirus oprávněně detekoval virus.
Abychom získali matici záměny, projdeme všechny předpovědi provedené modelem a spočítáme, kolikrát každý z těchto 4 typů chyb vyskytují se:
V tomto příkladu matice záměny je mezi 50 klasifikovanými datovými body 45 správně klasifikováno a 5 je nesprávně klasifikováno.
Protože pro porovnání dvou různých modelů je často výhodnější mít jednu metriku než několik, vypočítáme dvě metriky z matice záměny, kterou později spojíme do jedné:
- Skutečná kladná sazba ( TPR ), aka. citlivost, míru zásahu a odvolání , které je definováno jako TPTP + FN. Tato metrika intuitivně odpovídá podílu kladných datových bodů, které jsou správně považovány za pozitivní, s ohledem na všechny pozitivní datové body. Jinými slovy, čím vyšší TPR, tím méně pozitivních datových bodů nám bude chybět.
- Falešná kladná rychlost ( FPR ), aka. výpadek , který je definován jako FPFP + TN. Tato metrika intuitivně odpovídá podílu záporných datových bodů, které jsou mylně považovány za pozitivní, s ohledem na všechny negativní datové body. Jinými slovy, čím vyšší FPR, tím více negativních datových bodů nám bude chybět klasifikace.
Chcete-li kombinovat FPR a TPR do jedné metriky, nejprve spočítáme dvě dřívější metriky s mnoha různými prahová hodnota (například 0,00; 0,01,0,02,…, 1,00) pro logistickou regresi, poté je zakreslete do jednoho grafu s hodnotami FPR na úsečce a hodnotami TPR na souřadnici. Výsledná křivka se nazývá ROC křivka a metrika, kterou považujeme, je AUC této křivky, kterou nazýváme AUROC.
Následující obrázek ukazuje AUROC graficky:
Na tomto obrázku odpovídá modrá oblast oblasti pod křivkou provozní charakteristiky přijímače (AUROC). Přerušovanou čarou v úhlopříčce představujeme ROC křivku náhodného prediktoru: má AUROC 0,5. Náhodný prediktor se běžně používá jako základní linie ke zjištění, zda je model užitečný.
Pokud chcete získat zkušenosti z první ruky: