limit/offset stránkování nemusí být pomalé

Stará poučka říká, že implementace stránkování pomocí SQL dotazů s limit/offset klauzulemi je pomalá.

Když tuto zásadu nedávno zopakoval Filip Procházka na nedávné Poslední Sobotě, napadlo mě, že to nemusí být nutně pravda. Stačilo by, aby každý uzel interního B-stromu obsahoval informaci jak je velký jeho podstrom a limit/offset stránkování by mohlo být stejně rychlé jako stránkování pomocí jiných metod.

Problém spočívá v tom, že limit/offset stránkování obvykle neumí najít bod, kde stránka začíná. Databáze proto musí číst index, podle kterého se výsledky řadí, od začátku a počítat na kolik záznamů narazila. Když přeskočí offset položek, přečte limit záznamů a ty vrátí. Tohle je očividně lineární operace a když mám velkou databázi a v dotazu uvedu limit 10 offset 100000000 mám o zábavu postaráno, protože databáze musí proskenovat sto milionů řádků, než začne dělat něco užitečného. Když nám v tabulce jen pár tisíc řádků, tohle nepředstavuje velký problém. Ale když mám málo dat, nic nepředstavuje problém.

Následující obrázek ukazuje příklad, jak může vypadat kus B-stromu indexu se 150 záznamy. Pokud chci najít stránku limit 3 offset 147, musím projít všechno, protože nevím že začíná hodnotou 1257. Znám jen offset.

Místo toho se silně doporučuje tzv. seek metoda, která nepřeskakuje záznamy od začátku tabulky, ale v indexu přímo najde místo, kde stránka začíná (nebo předchozí končí) a od toho místa přečte počet záznamů uvedených v klauzuli limit. Velice jednoduché a efektivní. Když můžu použít index je nalezení záznamu velice rychlé (běží v logaritmickém čase) a protože mám index1, jsou záznamy seřazeny a tedy všechny potřebné záznamy budou vedle sebe.

Seek metoda má drobný problém v tom, že s ní nemůžu skočit na libovolnou stránku, ale musím se na ní postupně dostat. To ale nevadí, protože postupné stránkování dává větší smysl než skok na libovolnou stránku. Navíc je tato metoda stabilní a nerozhodí ji nové položky přidané na začátek tabulky.

Rozdíl mezi seek metodou a offset metodou je jen v tom, že jedna umí najít přesné místo, kde stránka začíná a druhá nikoli a proto musí skenovat všechno od začátku. Otázka zní: proč ho neumí najít?

Databáze typicky pracují s bloky dat, které mají pevně danou velikost a jeden uzel B-stromu, ať už kořen, interní nodus nebo list, zabírají jeden blok. Kdyby šlo o kompletní, vyvážený strom, kde každý záznam má stejnou délku, mohl bych najít každý záznam podle offsetu velice jednoduše. Situace ale není tak jednoduchá, protože záznamy mají proměnlivou délku a mechanismus vyvažování B-stromu zaručuje, že uzly budou z části prázdné. Uzly můžou být rozdělené nebo sloučené, když jejich velikosti přesáhly určité meze.

Tady se dostávám k jádru věci: Jak se zbavit nutnosti skenovat všechno od začátku? Řešení je triviální: Stačí, když do každého uzlu přidám informaci o velikosti celého podstromu, jak je naznačeno v následujícím schématu. Jde o stejný strom, jen každý vnitřní uzel nese jednu anotaci navíc.

Do podstromu musím sestoupit jen pokud je z jeho velikosti jasné, že se záznam, který potřebuji, nachází právě v něm, jinak ho přeskočím. Když bych položil dotaz s limit 3 offset 147 je jasné, že do prvního podstromu obsahujícího 18 záznamů vůbec nemusím vstoupit a celý ho přeskočím. Po tomhle kroku mi zbývá skočit přes 129 záznamů. Jestliže další podstrom obsahuje méně záznamů, přeskočím ho, pokud má více, vlezu do něj a celý postup budu opakovat o úroveň níž. S těmito změnami stránkování běží v logaritmickém čase místo lineárního, tedy stejně jako seek metoda. A dokonce to funguje i když mám v dotazu where klauzule, které pokrývají prefix indexu použitého k řazení – stejně jako seek metoda.

Jeden implementační problém tohoto přístupu představuje přidávání a mazání položek. Změna v listech se promítne do všech uzlů na cestě ke kořeni a to může vést k write amplification. To ale není nic, co by se nedalo vyřešit líným způsobem, kdy se změny zapisují do logu a jsou aplikovány na B-strom strom až později en masse. Ostatně relační databáze přesně tohle dělají už třicet let.


Dále k tématu:

 1. Tady předpokládám index postavený na B-stromu. Existují i jiné způsoby indexování, které data neřadí, jako například hashování. To teď neberu v úvahu, protože téměř všechny RDBMS standardně používají nějakou verzi B-stromu.

Flattr this!

Posted in DB, DS | Leave a comment

PHP compaction hell: Kdo neamortizuje, spláče nad O(n²)

Staré hackerské přísloví praví: „Nehledej, jak budou věci fungovat, ale jak selžou.“ Degenerativní chování je vždycky zajímavější než popis běžného provozu.

Před nějakou dobou1 jsem aplikací této metodiky našel skulinu v připravovaném PHP 7, která dokáže rozpoutat perfektní bouři, která vyústí v katastrofické chování a možný DOS útok.

Všechno začalo, když jsem pročítal článek popisující novou implementaci hashtabulek (která je v porovnání s tou starou nádherná a v paměťové kompaktnosti předčí i standardní hashmapy z frameworku kolekcí Javy2) a narazil jsem na následující odstavec:

As you can see the first five arData elements have been used, but elements at position 2 (key 0) and 3 (key ‚xyz‘) have been replaced with an IS_UNDEF tombstone, because they were unset. These elements will just remain wasted memory for now. However, once nNumUsed reaches nTableSize PHP will try compact the arData array, by dropping any UNDEF entries that have been added along the way. Only if all buckets really contain a value the arData will be reallocated to twice the size.

Hm, řekl jsem si, tohle na první pohled vypadá jako potenciální slabina, kdyby bylo možné spustit kompakci, která trvá čas lineárně úměrný velikosti tabulky, konstatním počtem operací.

Pak jsem dlouho civěl do céčkovských zdrojáků zend enginu, než jsem v té hromadě smetí našel funkci, která se stará o kompakci/zdvoj­násobení hashtabulek (zend_hash_do_re­size). Potom jsem na téměř nedokumentovaný kód zíral ještě chviličku, než mi došlo, že ona slabina nemůže nastat.

Proto jsem poslal pull request, který byl se slovy „nice catch, thanks, merged“ přijat.

Abych to upřesnil: Onen patch nezanesl do PHP enginu chybu, ale jen ho upravil tak, aby fungoval podle představ jeho vývojářů. A shodou náhod jejich vize obsahovala jednu potenciálně závažnou slabinu.

S tímto zlepšovákem je ono chování jasně vidět. Vezměte si následující kus kódu:

$max = 2 ** 20;
$idxs = range(1, $max+1);
shuffle($idxs);
$arr = [];
foreach ($idxs as $idx) {
    $arr[$idx] = 1;
}

for ($i = 1; $i < 200000; $i++) {
    unset($arr[$i]);
    $arr[] = 1;
}

A pak tento fragment:

$max = 2 ** 20;
$idxs = range(1, $max-1); // tady je minus místo plusu
shuffle($idxs);
$arr = [];
foreach ($idxs as $idx) {
    $arr[$idx] = 1;
}

for ($i = 1; $i < 200000; $i++) {
    unset($arr[$i]);
    $arr[] = 1;
}

Oba jsou si až nepříjemně podobné, jen první běží o něco rychleji než ten druhý. A když říkám o něco rychleji, myslím tím o něco rychleji. První kus se na mém stroji vykoná za ±1 milisekundu, druhý bude trvat 96 vteřin. To je rozdíl mezi programem, který běží rychle a který neběží vůbec.

O co jde?

Vysvětlení je až nebezpečně prozaické. PHP7 s sebou přineslo veliké změny v reprezentacích interních struktur: zval je jiný, stejně jako implementace hash tabulek. Už nejde o divokou změť dynamicky alokovaných bucketů a spojových seznamů (první obrázek), ale o dvě kompaktní pole (druhý obrázek). Jedno se stará asociace mezi hashi klíčů a buckety a druhé pole bucketů udržuje pořadí v jakém byly hodnoty vloženy.

Tato změna přinesla spoustu dobrého, ale také jeden problém: Co se má stát, když je některá položka vymazána? Pokud je tabulka implementovaná pomocí spojových seznamů, je to jednoduché: Stačí položku vymazat a přesměrovat pointery. Ale když je pole nově vytesáno do souvislého kusu paměti, není to možné. PHP proto smazané elementy jen jako smazané označuje, ale v tabulce stále zabírají místo.

Když se hash tabulka naplní, implementace se nejdřív podívá, jestli některé sloty nejsou označeny jako smazané (udržuje proto několik čítačů). Pokud některý je, PHP provede kompakci a položky „sklepe“. Pokud jsou všechny obsazené, zdvojí velikost hash tabulky (resp. oněch dvou polí) a rehashuje všechny klíče, jak je zvykem ve slušné společnosti.

A právě tady leží jádro pudla. Když druhý ukázkový kód odebere jeden element, označí jeden slot jako smazaný. Když pak vzápětí jeden element přidá, vynutí tak kompaci, protože počet elementů označených jako smazané je větší než nula a počet elementů, kterými byla tabulka naplněna byl zvolen těsně na hranici. Takhle to dělá pořád dokola a vynutí jednu kompaci na každou iteraci smyčky.

(Tady si dovolím malou odbočku, která ve výsledku nikam nepovede: Když jsem na tohle narazil někdy v prosinci, napsal jsem snippet testovacího kódu, který hlásil asi čtyřicetisedmi­násobné zpomalení. Později se však ukázalo, že vůbec netestoval to, co jsem si myslel, že testoval. PHP7 jako další optimalizaci zavedlo takzvané packed arrays. Jde o hashtabulky, které mají pouze numerické klíče z určitého spojitého intervalu, typicky z 0-N jako reálná pole reálných jazyků. V těch případech se struktura vůbec nechová jako hashtabulka a lookup probíhá přímo podle numerického klíče. Jak se zdá, tak packed arrays slabinou opakované kompakce netrpí. Z tohoto důvodu testovací programu provádí shuffle – rozbije tak packed array na obyčejnou hash tabulku.)

Rozdíl mezi jednou a devadesáti šesti tisíci milisekundami je značný, ale přestavuje jen teoretickou hrozbu, pokud její zlobu nikdo nedokáže zneužít k útoku. Dovedu si představit dva scénáře, kdy tohle může představovat problém: dávkové zpracování a websockety. Můžu mít například eshop, který je hip a moderní a celý napsaný v React.PHP a nákupní košík je v paměti PHP procesu. A protože chci, aby lidé nakupovali, není velikost košíku nijak omezena. To představuje ideální půdu pro útočníka, který může košík naplnit do přesně určené míry a pak opakovaně odebírat a přidávat jednu položku, a rozpoutat tak peklo kompakce.

Druhý případ na sebe přivolá nic netušící vývojář, který si do paměti procesoru načte určité nešťastně zvolené množství položek (jsme programátoři a proto zvolíme mocninu dvěma, proč ne žejo?) a pak je bude zpracovávat a při této činnosti odebírat zpracované položky a přidávat nové.

Ok to by stačilo. Teď co s tím?

Řešení je jednoduché: amortizovat. Problém spočívá v tom, že lineární množství práce je možné spustit vykonáním konstantního množství kroků. Když zařídím, aby tuto práci spustilo jen lineární množství kroků, problém zcela zmizí.

Ze stejného důvodu se například velikost hash tabulky zdvojuje – lineární práce zdvojení je amortizování přes lineární počet přidání nových položek do tabulky. Jinými slovy musím přidat n položek, než bude třeba alokovat 2n paměti a přesunout oněch n položek. Amortizovaná cena každého vložení je alokace 2 slotů a jedno přesunutí do nové tabulky. I když jednou za čas jedna operace bude velice drahá, její cena se rozloží v úměrném množství levnějších operací.

Do PHP jsem poslal pull request s jednořádkovou opravou, která povolí kompakci jen pokud je smazaných víc jak 1/32 elementů. Tato změna způsobí, že v nejhorším případě musím provést 1/32 n kroků na to, abych vynutil kompakci, která udělá n kroků, a tedy v patologickém případě je cena jedné operace 32 – a i když to není malá konstanta, jde stále o konstantu. Hodnotu 32 jsem zvolil jako kompromis. Kdyby byla menší operace by měly těsnější garance, ale zároveň by prováděly kompakci méně často, protože by potřebovaly víc smazaných elementů, než by se do ní pustily. Tento patch zatím stále čeká na přijetí. Patch byl konečně začleněn poté, co k němu Martin Major přitáhl pozornost.


Dále k tématu:


Pozn:

 1. Bylo to už před pár měsíci. Tenhle článek jsem napsal už před nějakou dobou, ale dlouho mi ležel ladem na disku.
 2. Pro úplnost se sluší dodat, že v Javě je možné napsat vlastní specializované verze kolekcí, které jsou efektivnější než ty z PHP7, co se týká jak paměti tak rychlosti (viz tento článek a taky tento). Proti Javě hrají hlavně erased generika a nutnost dělat boxing primitivních typů. C# tento problém nemá (CLR specializuje pro hodnotové typy) a říká se o něm, že velké kolekce primitivních typů jsou až 10× rychlejší než jejich generické obdoby z Javy.

Flattr this!

Posted in Hashování, PHP | 1 Comment

Inkluzivní cache, mnoho vláken a problémy

Hardware mě nikdy nepřestane udivovat. Když si začnu myslet, že vím už (více méně) všechno, narazím na něco nečekaného. Nedávno mě překvapila jedna záludnost v chování inkluzivní cache v Intelích procesorech.

Inkluzivní cache funguje tak, že všechna data, která jsou v L1, se nachází také v L2, a data v L2 se nacházejí také v L3. Tohle uspořádání funguje, protože L2 je větší než L1 a L3 je větší než L2. Když jsou nějaká data vyhozená z L1, jsou stále k dispozici o úroveň níž, pro případ kdyby byla náhodou zase třeba.1

Současné procesory od Intelu mají tříúrovňovou3 inkluzivní cache: 32KB L1 a 256KB L2 jsou soukromé cache každého jádra a pod nimi leží několik megabajtů sdílené L3 cache (která se také označuje jako LLC – last level cache).

Tohle vypadá na první pohled jako nepřekonatelná kombinace pro běh mnoha vláken najednou: Trochu cache pro každé jádro, trochu sdílené cache, když více vláken potřebuje stejná data. V určitých případech si ale souběžně běžící procesy mohou škodit způsobem, který je mnohem záludnější než obyčejné soupeření o sdílenou LLC. Například když na různých jádrech CPU běží dva procesy – jeden provádí výpočetně složitou úlohu a má všechna potřebná data v soukromých L1 a L2, a druhý streamuje data z paměti a lineárně načítá velký blok dat, ale skoro nic s ním nedělá.

Problém je v tom, že LLC je sdílená a inkluzivní. Když jeden proces načte kus dat z paměti, musí ho uložit do cache. Protože cache je inkluzivní, musí ho napasovat aspoň to L3 (ale nejspíše i do ostatních úrovní). Když v L3 není místo, vybere nějakou cache-line, kterou vyhodí (evict) a nahradí ji novými daty. Protože je cache inkluzivní, může se stát, že tato vyhozená cache-line byla v soukromé cache jiného jádra. V takovém případě musí být vyhozena i z ní. Jedno jádro tedy způsobilo cache-line eviction v soukromé cache úplně jiného jádra.

Zpět k příkladu s dvěma procesy: Druhý proces, který excesivně čte z paměti, způsobí vyhození velkého množství cache-line z LLC, některé z nich jsou následně vystěhované z L1/L2 prvního procesu a to vede ke cache-miss a zpomalení, které by jinak nebylo možné.

Pěkné, žeano? Jedno vlákno, které excesivně čte z paměti2, může zpomalit ostatní vlákna, která z paměti vůbec číst nemusí.

Intel si je tohoto problému vědom a do serverových Broadwellů přidal cache allocation technology (CAT), která může omezit, do jakých části LLC může proces zapisovat. S tímto omezením i proces utržený ze řetězu nemůže narušit chování jiných procesů, které mají dobré využití cache.

CAT je dalším krokem k zlepšení efektivity serverů, které se typicky pohybuje mezi 10% a 50%. Je to z části způsobeno nesouladem mezi mikroarchitekturou procesorů a zátěží, která na nich běží. Na jedné straně jsou velice agresivní out-of-order jádra a na druhé straně výpočetně nepříliš náročné úlohy, které mají mizerné ILP a skoro žádné MLP a spekulativní mašinérii nedokážou využít. Typická serverová úloha potřebuje víc paralelismu ať už ve formě širokého SMT nebo většího počtu hloupých jader), větší instrukční cache (typická horká část programu se nevejde do L1I a ani do L2 a to vede k drastickému propadu výkonu) a dokonce by benefitovala z mělčí cache hierarchie a menší L3 (víc jak 4MB nepřináší skoro žádné zrychlení a jen zbytečně zabírá křemík). Řešením může být ve scale-out situacích nasadit Atomy místo Xeonů nebo ARM čipy s lepší energetickou efektivitu.

V tomto ohledu budoucnost vypadá chmurně. Skylake od Intelu zvládá 5-wide dispatch a chystaný Zen od AMD má 10 pipeline a 4-wide dispatch, ale jen 2× SMT/HyperThreading. Nic jako Power8, který zvládá osm nezávislých vláken na každém jádře nebo moře hloupých in-order jader ve Vega procesorech od Azulu.

Na druhou stranu pro výpočetně náročné úlohy a programy, které dobře využívají cache, čtou z paměti v předvídatelných vzorech a mají dobré ILP a MLP, nemůže být situace lepší.


Dále k tématu:


Pozn:

 1. Opakem je exkluzivní cache, která garantuje, že cache-line bude jen v jedné úrovni cache. Toto uspořádání bylo použité například v Athlonu od AMD. Zlatou střední cestu představuje kompromis, kdy data můžou být v několika úrovních cache, ale také jen v jedné. Výhodou exkluzivní cache je větší kapacita, inkluzivní cache jsou naproti tomu jednodušší.
 2. To může být vyvoláno například častou alokací. Za každou alokaci se navíc (aspoň v případě JVM) platí dvakrát v propustnosti pamětí – jednou když je načtená z paměti do cache a podruhé, když je z cache vyhozená a je třeba objekt zapsat zpátky do paměti.
 3. Některé modely mají i off-chip L4 cache, ale to je pouze tzv. victim cache.

Flattr this!

Posted in CPU, Paměť | 2 Comments

Jak JVM volá virtuální metody, jaká temná božstva musí vzývat, aby to bylo aspoň trochu rychlé

Aleksey Shipilёv v (ne)dávné době napsal velice obsáhlý článek o volání virtuálních metod v JVM: The Black Magic of (Java) Method Dispatch. Do detailů v něm popsal všechny způsoby, jak lze volat virtuální metody, vysvětlil všechny optimalizace, které JIT javovského virtuálního stroje dělá a otestoval jaký mají dopad na výkon.

Jde o velice hutné čtení, které přetéká výpisy x86 assembleru a low-level detaily fungování kompilátorů JVM. Několik z nich pro bylo i pro mě úplnou novinkou. Rozhodl jsem se proto tady shrnout ty nejzajímavější informace.


Java má nejenom tabulku virtuálních metod (vtable), ale také vtable pro každý implementovaný interface (itable). Pokud JVM nedokáže metodu inlinovat, je volání interface metody (bytecode invokeinterface) o něco pomalejší než volání „třídní“ metody (bytecode invokevirtual).

Důvod je jasný: Hierarchie tříd v Javě tvoří strom a potomkové mohou metody pouze přidávat nebo přepisovat (ale ne odstraňovat). Potomkova vtable tedy obsahuje všechny zděděné metody na stejných pozicích jako předkova vtable a nakonec přidává své nové metody. Z toho důvodu je možné volání určité třídní metody přeložit jako skok na offset v této tabulce, který je stejný pro všechny potomky určité třídy.

class A {
 def method1 = A1
 def method2 = A2
 def method3 = A3
}

class B extends A {
 override def method2 = B9000
 def method4 = B9001
}
vtable A:
method1 -> A1
method2 -> A2
method3 -> A3

vable B
method1 -> A1
method2 -> B9000
method3 -> A3
method4 -> B9001

I když se může zdát, že volání třídní virtuální metody jde velice rychlé (konec konců jde jen o pár instrukcí: skok na adresu, která se nachází na daném offsetu ve vtable), přesto není ideální. Problém spočívá pochopitelně v tom, že cíl skoku není staticky známý a může se měnit za běhu programu. To může způsobit branch miss-prediction (CPU předem neví, kam skočit, nebo skočí špatně, a tak musí počkat)1, ale hlavně to znemožní inlinování, což je jedna z nejdůležitějších optimalizačních technik, protože otevírá dveře dalším optimalizacím kódu.

Naproti tomu volání interface metody není možné uskutečnit jednoduchým skokem na offset, protože libovolná třída může implementovat libovolný počet interface a metody těchto interfaců netvoří jednu globální hierarchickou strukturu, jako metody tříd. Když volám interface metodu, v místě volání je známé jen statické jméno daného interface a instance třídy, která ho implementuje. Z instance musím zjistit o jakou třídu jde a pak iterativně projít její itable, najít v ní záznam, kde se nachází vtable požadovaného interfece a tam provést už známý skok na offset. Jak je vidět, to obnáší mnohem víc práce než v případě třídních metod. Ale naštěstí nic z toho není třeba dělat, pokud virtuální stroj dokáže metodu inlinovat.


JVM (respektive jeho C2 kompilátor) rutině provádí celou řadu spekulativních optimalizací. Může udělat class hierarchy analysis (CHA) a když například vidí, že daná abstraktní třída má jen jednoho konkrétního potomka (resp. jen jeden je právě načtený do JVM), může zcela devirtualizovat2 a inlinovat všechna virtuální volání metod této abstraktní třídy a umožnit tak další optimalizace kódu.

JVM nejprve provádí profilování a když zjistí, že na jednom místě (callsite) se volá jen jedna implementace interface nebo třídní metody, inlinuje tělo této metody a před něj vloží jednoduchý guard, který kontroluje, zdali instance nemá jinou třídu. Když se změní, kód je deoptimalizován, proběhne nové profilování a kompilace s nově zjištěnými fakty. Stejně JVM nakládá s podmínkami – pokud se jedna větev během profilování vůbec nevykoná, JVM její tělo vůbec nezkompiluje, ale místo něho opět vygeneruje jen rychlý guard.

Pokud je callsite bimorfní (tedy z jednoho místa v programu se volá metoda na objektech dvou tříd, viz kus kódu níže), JVM inlinuje obě možné metody. Tyto dva bloky seřadí tak, že nejpravděpodobnější cesta je ta nejpřímější a na tu méně pravděpodobnou se musí odskočit (a ta také obsahuje guard pro případ, že se tam dostane objekt jiné třídy).

abstract class Base {
 def meth
}

class A extends Base {
 def meth
}

class B extends Base {
 def meth
}


val x: Base = getBase()
x.meth // může být A nebo B

Na megamorfní callsite JVM typicky nestačí. Pokud by inlinovala všechny možné metody (nebo jen statické skoky na tyto metody), pak by byl výsledný kód příliš velký. Proto výsledný kód volá metody normální cestou jak je popsáno na začátku článku – pomalu a bez možnosti dalších optimalizací.

Avšak toto pravidlo má jednu výjimku – pokud je metoda volána na objektech jedné třídy velice často (ve více než 90% případů), tak tato metoda je inlinována, ostatní se volají jako obyčejné virtuální/interface metody.

Aleksey Shipilёv ještě zmiňuje jeden trik, jak lze určité megamorfní callsite, kde se volá relativně malý počet metod, transformovat na bimorfní, se kterými si JVM dokáže poradit, devirtualizovat, inlinovat a optimalizovat.

abstract class Base {
 def meth
}

class A extends Base {
 def meth = ???
}

class B extends Base {
 def meth = ???
}

class C extends Base {
 def meth = ???
}


val x: Base = getBase()

if (x.isInstanceOf[A]) {
 x.meth // monomorfní callsite
} else {
 x.meth // bimorfní callsite
}

Ale tento trik se počítá mezi zapovězenou černou magii. Jeho fungování záleží na specifickém chování specifického JITu, které se může kdykoli v budoucnu změnit.


Mezi další perličky patří ještě tyto dvě věci:

Většinu kontrol, zdali má proměnná hodnotu null, JVM vůbec nedělá. Toto je ošetřeno v handleru CPU výjimky SEGV, která je vyhozená při přístupu do paměti s adresou 0.

Do vygenerovaného kódu je nutné přidat checkpointy. Ty jsou potřeba například, když se například změnily optimistické předpoklady a JVM musí deoptimalizovat nějaký kód nebo chce spusit stop-the-world garbage collector. Než tyto věci může udělat, musí pozastavit všechna běžící vlákna a zaparkovat je v bezpečném stavu (například proto, aby nevykonávaly starý neplatný kód nebo neměnily data pod rukama GC). Toho je docíleno jednou instrukcí, která čte ze stránky paměti, která má nastavena přístupová práva na READ. Když je třeba přerušit vlákna, této stránce JVM nastaví přístupová práva na NONE, následující čtení vyvolá trap, předá kontrolu příslušnému trap handleru, který zaparkuje vlákno.

Kontrola těchto dvou stavů využívá page-table, je velice rychlá a nezdržuje běžící kód.


Dále k tématu:


 1. Branch prediction a branch target prediction může v této situaci pomoci, ale jen pokud mají skoky opakující se a předvídatelný vzor.
 2. Devirtualizace je jen nóbl jméno pro převedení virtuální metody na statickou. Statické metody mají mnoho výhod. Jednak představují statický cíl a jejich volání je tak pouhý nepodmíněný skok, který může CPU snadno předpovědět a neutrpět pipeline stall, ale hlavně (jak jsem už psal výše) je možné metody inlinovat, tedy vložit jejich těla na místa odkud se volají, což umožní provést další z celé řady optimalizací jako propagace konstant, odrolování smyček, eliminace mrtvého kódu, eliminace duplicit, loop hoisting, escape analysis atd. To je možné proto, že inlinovaný kód má k dispozici přesnější a bohatší kontext – proměnné se mohou ukázat jako konstanty, integery pocházejí jen z určitého rozmezí atd.

  Například lidé ze Stack Overflow (který běží na C# a .NET), preferují použití statických metod, pokud je to jen možné: Heavy usage of static classes and methods, for simplicity and better performance. viz StackOverflow Update: 560M Pageviews a Month, 25 Servers, and It's All About Performance

  Protože každá metoda v Javě je virtuální (vyjma final metod), JVM se během let stalo velice dobrým v devirtualizaci a spekulativní optimalizaci metod, ať už prostřednictvím profilování kódu, CHA nebo jinými prostředky. Toto je jeden z důvodů proč Java může generovat rychlejší kód než C++. C++ je kompilované předem a tedy v okamžiku kompilace nemá k dispozici stejné informace jako JVM JIT za běhu a nemůže tedy vygenerovat optimální kód pro konkrétní workload, ale musí se spokojit s generickým kódem, který volá virtuální metody.

  Pro úplnost by se slušelo dodat, že existuje profile-guided optimization, kdy GCC vygeneruje binárku, která obsahuje čítače profileru, ta se nechá chvíli běžet na typickém problému a nasbírá statistiky za běhu, které se pak použijí pro vygenerování binárky, která by měla být o něco optimálnější a bližší tomu, co by JVM vygenerovalo za běhu. Problém je v tom, že jde o statické profilování a když se změní charakteristicky zátěže, program na to nemůže zareagovat, deoptimalizovat se a zkompilovat znovu a lépe. Sám jsem to nikdy nepoužil a většina mých informací o PGO pocházejí od Cliffa Clicka, který tvrdí, že PGO se v C++ skoro nepoužívá, zatímco JVM ho provádí milionkrát denně ještě před snídaní. Místo toho se v C++ virtuální metody ve výkonnostně kritickém kódu nepoužívají.

Flattr this!

Posted in CPU, Java, JVM, Typy, VM | 1 Comment

Grim hardware realities of functional programming

slides

Flattr this!

Posted in CPU, Funkcionální programování | 1 Comment