Inkluzivní cache, mnoho vláken a problémy

Hardware mě nikdy nepřestane udivovat. Když si začnu myslet, že vím už (více méně) všechno, narazím na něco nečekaného. Nedávno mě překvapila jedna záludnost v chování inkluzivní cache v Intelích procesorech.

Inkluzivní cache funguje tak, že všechna data, která jsou v L1, se nachází také v L2, a data v L2 se nacházejí také v L3. Tohle uspořádání funguje, protože L2 je větší než L1 a L3 je větší než L2. Když jsou nějaká data vyhozená z L1, jsou stále k dispozici o úroveň níž, pro případ kdyby byla náhodou zase třeba.1

Současné procesory od Intelu mají tříúrovňovou3 inkluzivní cache: 32KB L1 a 256KB L2 jsou soukromé cache každého jádra a pod nimi leží několik megabajtů sdílené L3 cache (která se také označuje jako LLC – last level cache).

Tohle vypadá na první pohled jako nepřekonatelná kombinace pro běh mnoha vláken najednou: Trochu cache pro každé jádro, trochu sdílené cache, když více vláken potřebuje stejná data. V určitých případech si ale souběžně běžící procesy mohou škodit způsobem, který je mnohem záludnější než obyčejné soupeření o sdílenou LLC. Například když na různých jádrech CPU běží dva procesy – jeden provádí výpočetně složitou úlohu a má všechna potřebná data v soukromých L1 a L2, a druhý streamuje data z paměti a lineárně načítá velký blok dat, ale skoro nic s ním nedělá.

Problém je v tom, že LLC je sdílená a inkluzivní. Když jeden proces načte kus dat z paměti, musí ho uložit do cache. Protože cache je inkluzivní, musí ho napasovat aspoň to L3 (ale nejspíše i do ostatních úrovní). Když v L3 není místo, vybere nějakou cache-line, kterou vyhodí (evict) a nahradí ji novými daty. Protože je cache inkluzivní, může se stát, že tato vyhozená cache-line byla v soukromé cache jiného jádra. V takovém případě musí být vyhozena i z ní. Jedno jádro tedy způsobilo cache-line eviction v soukromé cache úplně jiného jádra.

Zpět k příkladu s dvěma procesy: Druhý proces, který excesivně čte z paměti, způsobí vyhození velkého množství cache-line z LLC, některé z nich jsou následně vystěhované z L1/L2 prvního procesu a to vede ke cache-miss a zpomalení, které by jinak nebylo možné.

Pěkné, žeano? Jedno vlákno, které excesivně čte z paměti2, může zpomalit ostatní vlákna, která z paměti vůbec číst nemusí.

Intel si je tohoto problému vědom a do serverových Broadwellů přidal cache allocation technology (CAT), která může omezit, do jakých části LLC může proces zapisovat. S tímto omezením i proces utržený ze řetězu nemůže narušit chování jiných procesů, které mají dobré využití cache.

CAT je dalším krokem k zlepšení efektivity serverů, které se typicky pohybuje mezi 10% a 50%. Je to z části způsobeno nesouladem mezi mikroarchitekturou procesorů a zátěží, která na nich běží. Na jedné straně jsou velice agresivní out-of-order jádra a na druhé straně výpočetně nepříliš náročné úlohy, které mají mizerné ILP a skoro žádné MLP a spekulativní mašinérii nedokážou využít. Typická serverová úloha potřebuje víc paralelismu ať už ve formě širokého SMT nebo většího počtu hloupých jader), větší instrukční cache (typická horká část programu se nevejde do L1I a ani do L2 a to vede k drastickému propadu výkonu) a dokonce by benefitovala z mělčí cache hierarchie a menší L3 (víc jak 4MB nepřináší skoro žádné zrychlení a jen zbytečně zabírá křemík). Řešením může být ve scale-out situacích nasadit Atomy místo Xeonů nebo ARM čipy s lepší energetickou efektivitu.

V tomto ohledu budoucnost vypadá chmurně. Skylake od Intelu zvládá 5-wide dispatch a chystaný Zen od AMD má 10 pipeline a 4-wide dispatch, ale jen 2× SMT/HyperThreading. Nic jako Power8, který zvládá osm nezávislých vláken na každém jádře nebo moře hloupých in-order jader ve Vega procesorech od Azulu.

Na druhou stranu pro výpočetně náročné úlohy a programy, které dobře využívají cache, čtou z paměti v předvídatelných vzorech a mají dobré ILP a MLP, nemůže být situace lepší.


Dále k tématu:


Pozn:

 1. Opakem je exkluzivní cache, která garantuje, že cache-line bude jen v jedné úrovni cache. Toto uspořádání bylo použité například v Athlonu od AMD. Zlatou střední cestu představuje kompromis, kdy data můžou být v několika úrovních cache, ale také jen v jedné. Výhodou exkluzivní cache je větší kapacita, inkluzivní cache jsou naproti tomu jednodušší.
 2. To může být vyvoláno například častou alokací. Za každou alokaci se navíc (aspoň v případě JVM) platí dvakrát v propustnosti pamětí – jednou když je načtená z paměti do cache a podruhé, když je z cache vyhozená a je třeba objekt zapsat zpátky do paměti.
 3. Některé modely mají i off-chip L4 cache, ale to je pouze tzv. victim cache.

Flattr this!

Posted in CPU, Paměť | Leave a comment

Jak JVM volá virtuální metody, jaká temná božstva musí vzývat, aby to bylo aspoň trochu rychlé

Aleksey Shipilёv v (ne)dávné době napsal velice obsáhlý článek o volání virtuálních metod v JVM: The Black Magic of (Java) Method Dispatch. Do detailů v něm popsal všechny způsoby, jak lze volat virtuální metody, vysvětlil všechny optimalizace, které JIT javovského virtuálního stroje dělá a otestoval jaký mají dopad na výkon.

Jde o velice hutné čtení, které přetéká výpisy x86 assembleru a low-level detaily fungování kompilátorů JVM. Několik z nich pro bylo i pro mě úplnou novinkou. Rozhodl jsem se proto tady shrnout ty nejzajímavější informace.


Java má nejenom tabulku virtuálních metod (vtable), ale také vtable pro každý implementovaný interface (itable). Pokud JVM nedokáže metodu inlinovat, je volání interface metody (bytecode invokeinterface) o něco pomalejší než volání „třídní“ metody (bytecode invokevirtual).

Důvod je jasný: Hierarchie tříd v Javě tvoří strom a potomkové mohou metody pouze přidávat nebo přepisovat (ale ne odstraňovat). Potomkova vtable tedy obsahuje všechny zděděné metody na stejných pozicích jako předkova vtable a nakonec přidává své nové metody. Z toho důvodu je možné volání určité třídní metody přeložit jako skok na offset v této tabulce, který je stejný pro všechny potomky určité třídy.

class A {
 def method1 = A1
 def method2 = A2
 def method3 = A3
}

class B extends A {
 override def method2 = B9000
 def method4 = B9001
}
vtable A:
method1 -> A1
method2 -> A2
method3 -> A3

vable B
method1 -> A1
method2 -> B9000
method3 -> A3
method4 -> B9001

I když se může zdát, že volání třídní virtuální metody jde velice rychlé (konec konců jde jen o pár instrukcí: skok na adresu, která se nachází na daném offsetu ve vtable), přesto není ideální. Problém spočívá pochopitelně v tom, že cíl skoku není staticky známý a může se měnit za běhu programu. To může způsobit branch miss-prediction (CPU předem neví, kam skočit, nebo skočí špatně, a tak musí počkat)1, ale hlavně to znemožní inlinování, což je jedna z nejdůležitějších optimalizačních technik, protože otevírá dveře dalším optimalizacím kódu.

Naproti tomu volání interface metody není možné uskutečnit jednoduchým skokem na offset, protože libovolná třída může implementovat libovolný počet interface a metody těchto interfaců netvoří jednu globální hierarchickou strukturu, jako metody tříd. Když volám interface metodu, v místě volání je známé jen statické jméno daného interface a instance třídy, která ho implementuje. Z instance musím zjistit o jakou třídu jde a pak iterativně projít její itable, najít v ní záznam, kde se nachází vtable požadovaného interfece a tam provést už známý skok na offset. Jak je vidět, to obnáší mnohem víc práce než v případě třídních metod. Ale naštěstí nic z toho není třeba dělat, pokud virtuální stroj dokáže metodu inlinovat.


JVM (respektive jeho C2 kompilátor) rutině provádí celou řadu spekulativních optimalizací. Může udělat class hierarchy analysis (CHA) a když například vidí, že daná abstraktní třída má jen jednoho konkrétního potomka (resp. jen jeden je právě načtený do JVM), může zcela devirtualizovat2 a inlinovat všechna virtuální volání metod této abstraktní třídy a umožnit tak další optimalizace kódu.

JVM nejprve provádí profilování a když zjistí, že na jednom místě (callsite) se volá jen jedna implementace interface nebo třídní metody, inlinuje tělo této metody a před něj vloží jednoduchý guard, který kontroluje, zdali instance nemá jinou třídu. Když se změní, kód je deoptimalizován, proběhne nové profilování a kompilace s nově zjištěnými fakty. Stejně JVM nakládá s podmínkami – pokud se jedna větev během profilování vůbec nevykoná, JVM její tělo vůbec nezkompiluje, ale místo něho opět vygeneruje jen rychlý guard.

Pokud je callsite bimorfní (tedy z jednoho místa v programu se volá metoda na objektech dvou tříd, viz kus kódu níže), JVM inlinuje obě možné metody. Tyto dva bloky seřadí tak, že nejpravděpodobnější cesta je ta nejpřímější a na tu méně pravděpodobnou se musí odskočit (a ta také obsahuje guard pro případ, že se tam dostane objekt jiné třídy).

abstract class Base {
 def meth
}

class A extends Base {
 def meth
}

class B extends Base {
 def meth
}


val x: Base = getBase()
x.meth // může být A nebo B

Na megamorfní callsite JVM typicky nestačí. Pokud by inlinovala všechny možné metody (nebo jen statické skoky na tyto metody), pak by byl výsledný kód příliš velký. Proto výsledný kód volá metody normální cestou jak je popsáno na začátku článku – pomalu a bez možnosti dalších optimalizací.

Avšak toto pravidlo má jednu výjimku – pokud je metoda volána na objektech jedné třídy velice často (ve více než 90% případů), tak tato metoda je inlinována, ostatní se volají jako obyčejné virtuální/interface metody.

Aleksey Shipilёv ještě zmiňuje jeden trik, jak lze určité megamorfní callsite, kde se volá relativně malý počet metod, transformovat na bimorfní, se kterými si JVM dokáže poradit, devirtualizovat, inlinovat a optimalizovat.

abstract class Base {
 def meth
}

class A extends Base {
 def meth = ???
}

class B extends Base {
 def meth = ???
}

class C extends Base {
 def meth = ???
}


val x: Base = getBase()

if (x.isInstanceOf[A]) {
 x.meth // monomorfní callsite
} else {
 x.meth // bimorfní callsite
}

Ale tento trik se počítá mezi zapovězenou černou magii. Jeho fungování záleží na specifickém chování specifického JITu, které se může kdykoli v budoucnu změnit.


Mezi další perličky patří ještě tyto dvě věci:

Většinu kontrol, zdali má proměnná hodnotu null, JVM vůbec nedělá. Toto je ošetřeno v handleru CPU výjimky SEGV, která je vyhozená při přístupu do paměti s adresou 0.

Do vygenerovaného kódu je nutné přidat checkpointy. Ty jsou potřeba například, když se například změnily optimistické předpoklady a JVM musí deoptimalizovat nějaký kód nebo chce spusit stop-the-world garbage collector. Než tyto věci může udělat, musí pozastavit všechna běžící vlákna a zaparkovat je v bezpečném stavu (například proto, aby nevykonávaly starý neplatný kód nebo neměnily data pod rukama GC). Toho je docíleno jednou instrukcí, která čte ze stránky paměti, která má nastavena přístupová práva na READ. Když je třeba přerušit vlákna, této stránce JVM nastaví přístupová práva na NONE, následující čtení vyvolá trap, předá kontrolu příslušnému trap handleru, který zaparkuje vlákno.

Kontrola těchto dvou stavů využívá page-table, je velice rychlá a nezdržuje běžící kód.


Dále k tématu:


 1. Branch prediction a branch target prediction může v této situaci pomoci, ale jen pokud mají skoky opakující se a předvídatelný vzor.
 2. Devirtualizace je jen nóbl jméno pro převedení virtuální metody na statickou. Statické metody mají mnoho výhod. Jednak představují statický cíl a jejich volání je tak pouhý nepodmíněný skok, který může CPU snadno předpovědět a neutrpět pipeline stall, ale hlavně (jak jsem už psal výše) je možné metody inlinovat, tedy vložit jejich těla na místa odkud se volají, což umožní provést další z celé řady optimalizací jako propagace konstant, odrolování smyček, eliminace mrtvého kódu, eliminace duplicit, loop hoisting, escape analysis atd. To je možné proto, že inlinovaný kód má k dispozici přesnější a bohatší kontext – proměnné se mohou ukázat jako konstanty, integery pocházejí jen z určitého rozmezí atd.

  Například lidé ze Stack Overflow (který běží na C# a .NET), preferují použití statických metod, pokud je to jen možné: Heavy usage of static classes and methods, for simplicity and better performance. viz StackOverflow Update: 560M Pageviews a Month, 25 Servers, and It's All About Performance

  Protože každá metoda v Javě je virtuální (vyjma final metod), JVM se během let stalo velice dobrým v devirtualizaci a spekulativní optimalizaci metod, ať už prostřednictvím profilování kódu, CHA nebo jinými prostředky. Toto je jeden z důvodů proč Java může generovat rychlejší kód než C++. C++ je kompilované předem a tedy v okamžiku kompilace nemá k dispozici stejné informace jako JVM JIT za běhu a nemůže tedy vygenerovat optimální kód pro konkrétní workload, ale musí se spokojit s generickým kódem, který volá virtuální metody.

  Pro úplnost by se slušelo dodat, že existuje profile-guided optimization, kdy GCC vygeneruje binárku, která obsahuje čítače profileru, ta se nechá chvíli běžet na typickém problému a nasbírá statistiky za běhu, které se pak použijí pro vygenerování binárky, která by měla být o něco optimálnější a bližší tomu, co by JVM vygenerovalo za běhu. Problém je v tom, že jde o statické profilování a když se změní charakteristicky zátěže, program na to nemůže zareagovat, deoptimalizovat se a zkompilovat znovu a lépe. Sám jsem to nikdy nepoužil a většina mých informací o PGO pocházejí od Cliffa Clicka, který tvrdí, že PGO se v C++ skoro nepoužívá, zatímco JVM ho provádí milionkrát denně ještě před snídaní. Místo toho se v C++ virtuální metody ve výkonnostně kritickém kódu nepoužívají.

Flattr this!

Posted in CPU, Java, JVM, Typy, VM | 1 Comment

Grim hardware realities of functional programming

slides

Flattr this!

Posted in CPU, Funkcionální programování | 1 Comment

Generování kódu za běhu (ve Scale)

Někdy je zkrátka potřeba dynamicky generovat kód.

Důvodů pro to může být mnoha: Například můžu mít nějakou formu externího doménového jazyka (DSL), který musí běžet rychle, nebo musí být staticky integrován do zbytku programu bez použití reflexe1, nebo chci provést nějakou instrumentaci nebo statickou analýzu existujícího kódu. V některých případech to může být zbytečné, ale jindy je dynamické generování kódu ta správná věc.

A když říkám dynamické generování kódu, nemyslím během kompilace pomocí klasických maker, ale za běhu, na základě nějakých data, které v době kompilace nejsou a nemohou být známé. Pokud nemluvíme o makrech céčkovského typu, je mezi statickým a dynamickým generováním kódu jen pramalý rozdíl. Oba potřebují kompilátor a program, který vygeneruje jiný program a pak ho nechá zkompilovat.

A jak se tohle dělá ve Scale ukážu právě teď.


Jako příklad budu používat AST reprezentující jednoduché aritmetické výrazy.

sealed trait Expr

case class Const(value: Int) extends Expr
case class Plus(x: Expr, y: Expr) extends Expr
case class Minus(x: Expr, y: Expr) extends Expr
case class Times(x: Expr, y: Expr) extends Expr

V něm můžu zapsat například výraz

val ast = Times(
 Plus(Const(1), Const(2)),
 Minus(Const(3), Const(4))
)

který reprezentuje (1 + 2) * (3 - 4).

Za povšimnutí stojí fakt, že AST reprezentuje program a když chci zjistit jeho hodnotu, musím tento program vykonat. Na to budu potřebovat interpreter, který rekurzivně prochází AST a vyhodnocuje onen program.

def evalExpr(e: Expr): Int = e match {
 case Const(x)  => x
 case Plus(x, y) => evalExpr(x) + evalExpr(y)
 case Minus(x, y) => evalExpr(x) - evalExpr(y)
 case Times(x, y) => evalExpr(x) * evalExpr(y)
}

Výsledkem volání evalExpr(ast) je pak pochopitelně –3.

Kdybych chtěl, aby můj malý programovací jazyk uměl víc věcí, musel bych přidat další druhy AST uzlů, které by reprezentovaly nové operace nebo koncepty jako podmínky, smyčky nebo proměnné (aby tyto fungovaly, bylo by třeba změnit interpreter, aby jako další parametr bral mapování mezi proměnnými a jejich hodnotami).

Tento přístup funguje, ale interpretace má nezanedbatelnou režii. Program popisuje primitivní operace, které odpovídají jedné procesorové instrukci, ale na to aby ji interpreter vykonal musí procházet stromovou strukturu. volat metody a provádět pattern matching ve funkci evalExpr2.

Když ale program zkompiluji do nějaké nativnější formy (ať už nativního kódu nebo bytekódu, který je vzápětí přeložen JITem virtuálního stroje), zbavím se této režie a program může běžet znatelně rychleji.

V poslední verzi Scaly 2.11 se ke kompilaci dají použít takzvané quasiquotes a ToolBox API.

Nejprve musím importovat pár záludností.

import scala.reflect.runtime.currentMirror
import scala.tools.reflect.ToolBox
val toolbox = currentMirror.mkToolBox()
import toolbox.u._
import toolbox.{ u => universe }

A pak vytvořím metodu, která každou variantu Expr převede na odpovídající fragment kódu.

def compileExpr(e: Expr): universe.Tree = e match {
 case Const(x)  => q"$x"
 case Plus(x, y) => q"${compileExpr(x)} + ${compileExpr(y)}"
 case Minus(x, y) => q"${compileExpr(x)} - ${compileExpr(y)}"
 case Times(x, y) => q"${compileExpr(x)} * ${compileExpr(y)}"
}

Kód pro kompilaci vypadá skoro stejně, jako kód pro interpretaci3. Jediný rozdíl je v tom, že zatímco program interpreteru se přímo vykoná, program kompilátoru – obalený interpolátorem q"..." se převede na kód. To co vypadá jako interpolace stringů ve skutečnosti nepracuje s textovou reprezentací programu, ale s AST, které Scala kompilátor interně používá k reprezentaci kódu. Obsah q"..." (q jako quasiquotes) je přeložen na potomky universe.Tree a na místa označená ${...} se rekurzivně vloží další kusy AST. A protože nejde o textové šablony, dá se s tím dělat mnohem víc věcí, které jsou popsány v dokumentaci quasiquotes a maker.

compileExpr ale neprovede kompilaci, jen připraví AST, se kterými si umí Scala kompilátor poradit. Ale předtím je ještě nutné výraz zabalit do funkce, kterou bude možné volat.

val qq = q"""
 () => {
  println("running function that was compiled during runtime")
  ${compileExpr(ast)}
 }
"""

Můžu si nechat vypsat, jak by asi vypadal zkompilovaný kód:

println(showCode(qq))

To ukáže něco jako:

(() => (1).+(2).*((3).-(4)))

Samotnou kompilaci pak provedu takto:

val f = toolbox.compile(qq)().asInstanceOf[() => Int]

A teď už mám funkci typu Unit => Int, kterou můžu volat jako jakoukoli jinou funkci.

f() // vypíše hlášku a vrátí -3

f obsahuje jen kód samotného výpočtu bez režie interpretace. A protože jde o jednoduchý bytecode, může být JITem dále optimalizován. I v případě interpreteru mi může JIT trochu pomoct spekulativními optimalizacemi, ale rozhodně nemůže aplikovat celou řadu triků a heuristik a metod, kterými se kompilátory naučily vylepšovat jednoduchý kód bez zbytečných abstrakcí a komplikací5.

Lispeři se teď musí smát, protože se ve Scale objevilo něco, co oni mají už od šedesátých let. Lispeři se však zbytku světa smějí tak jako tak a proto je můžeme ignorovat.


Já se o tyto techniky začal zajímat po jednom obzvláště neklidném snu, kdy jsem se rozhodl naprogramovat hrubý prototyp sloupcové databáze později pojmenované DilettanteDB. V mých testech se ukázalo, že zkompilovaný kód může být 30× rychlejší než naïvní interpretace. Výsledek dokáže skenovat data 10GB/s a vykonává pouhých 1.7 instrukcí za takt a i v jednom vláknu je omezený jen propustností pamětí. To je téměř ideální stav.4 Stejnou techniku ke kompilování SQL dotazů používá optimalizátor Catalyst ze Sparku.

Jediný problém na který jsem narazil byla pomalá kompilace. Scala kompilátor není ani rychlý ani kompaktní a proto, když ho chci na něco použít, musím ho načíst, nechat ho rozhýbat a to nějakou dobu trvá. První kompilace jedné funkce o padesáti řádcích trvala 3 vteřiny. Další už byly rychlejší, ale zdaleka ne tak rychlé, jak by se mi líbilo.


Když už jsem v tom, slušelo by se zmínit projekt Scala.meta, který se snaží vylepšit metaprogramování ve Scale, které má pořád svoje nedostatky. Jeden z nich je například fakt, že Scala kompilátor nezachovává nepotřebné informace jako je formátování nebo syntaktické konstrukce, které použil programátor (ale jejich jednodušší formy) a proto se nehodí pro určitou kategorii nástrojů.


Dále k tématu:


 1. I když jak se ukazuje, tak režii reflexe a metaobjektových protokolů je možné vhodnými technikami téměř zcela odstranit. Viz Zero-Overhead Metaprogramming Reflection and Metaobject Protocols Fast and without Compromises
 2. Pattern matching je možné pochopitelně nahradit metodou eval na třídě Expr. Virtuální volání někdy může být rychlejší než pattern matching, jindy pomalejší. Záleží na detailech a jak se s nimi popere just-in-time kompilátor.
 3. To není úplná náhoda, protože jak Erik Meijer ukazuje ve své poněkud vulgární přednášce The Lost Art of Denotational Semantics, interpreter je možné automaticky převést na kompilátor. Jako další příklad může posloužit pythonovský projekt PyPy, který vytváří tracing JIT kompilátory z interpreterů. PyPy zaznamenává trace akcí interpreteru a výslednou sekvenci instrukcí a operací pak optimalizuje až na binární kód. V PyPy je například napsána implementace PHP HippyVM nebo kompilátor lispovského Racketu.
 4. V takové situaci se dá zrychlit už jedině komprimací dat, jako to třeba dělá například 0×data H₂0. Viz In-Memory Processing, 0×data H20, Efficient Low Latency Java and GCs a An API for Distributed Computing.
 5. Viz poznámky pod Jak JVM volá virtuální metody a jaká temná božstva při tom uctívá. Kompilátor/JIT se jako první snaží zbavit abstrakcí, aby odhalil jádro kódu, které je možné jednoduše optimalizovat.

Flattr this!

Posted in Scala | 1 Comment

Pár poznámek k pár poznámkám o sloupcových databázích

Teorie je jednoduchá: Sloupcové databáze jsou takové, které ukládají data po sloupcích místo po řádcích, jak je v databázovém světě běžné.

To má několik zásadních výhod, které jsou v určitých situacích k nezaplacení. Když potřebuji přistoupit jen k několika málo sloupcům, načtu pouze jejich data a nemusím se obtěžovat s jinými položkami ze stejného řádku. V řádkových databázích je vždycky nutné načíst celý řádek, protože data se z disků načítají po blocích, které obsahují mnoho řádků najednou. Nemůžu si vynutit, aby mi disk poskytl jen bajty z těch pár sloupců, které mě zajímají. Dostanu všechno nebo nic. Naproti tomu ve sloupcové DB je každý sloupec uložen jako souvislý region dat. Jeden diskový blok tedy obsahuje jen a pouze data jednoho sloupce. V nejjednodušší podobě jde o velké pole (jehož prvky mají často fixní délku) pro každý sloupec (jako v případě MonetDB) nebo o sérii kratších segmentů (jako v X100).

Takovéto uspořádání dat se hodí pro OLAP, tedy když mě místo jednotlivých záznamů zajímají agregace jednoho nebo několika málo sloupců (např. tabulka jich má 50, ale v dotazu se dva vyskytují v podmínce a z několika dalších se počítají průměry). Protože jde koncepčně o pole, nalezení odpovídajících položek v různých sloupcích je triviální: jde o pouhý index * velikost položky a dotaz se dá přeložit do série jednoduchých a velice efektivních smyček.5

Sloupcové databáze jsou krásné (jak je vidět v The Design and Implementation of Modern Column-Oriented Database Systems), ale přesto o nich dneska nechci psát.

Nedávno jsem si přečetl článek Několik poznámek ke sloupcovým databázím, který ve mě zanechal příjemný hřejivý pocit, hlavně proto, že se zmiňoval o hardwaru, SIMD instrukcích a efektivitě práce s in-memory daty. Tam někde mě napadlo vyzkoušet, jak rychle taková teoretická in-memory databáze může běžet. Když z rovnice vypadnou všechny rotující disky, SSD nebo síťové karty, záleží jen na pamětech a procesoru. Z komplikovaného systému se stane něco triviálního, co je možné prozkoumat a pochopit. Například jaký vliv má komprese, SIMD operace, instrukce gather (která načte několik procesorových slov najedou, potenciálně paralelně), prefetch (která signalizuje procesoru, jaká data budou brzo potřeba)2 nebo non-temporal load4?

Ale tak daleko jsem se nedostal. Protože jak to vypadá na tom zas tak moc nezáleží, limitujícím faktorem je hlavně propustnost pamětí.

Napsal jsem triviální test, který definoval struct row s několika osmibajtovými položkami.

struct row {
    long a,b,c,d,e,f,g,h;
    long i,j,k,l,m,n,o,p;
};

Pak jsem vytvořil veliký špalek dat, který se vešel do paměti.

struct row *rows = malloc(sizeof(struct row) * 50000000);

for (int i = 0; i < 50000000; i++) {
    rows[i].a = 1;
}

Nakonec jsem jím proletěl během jedné krásné iterace.

for (int i = 0; i < 50000000; i++) {
    sum += rows[i].a;
}

Zaznamenával jsem výsledky s různým počtem položek ve structu row. V prvním řádku má row položky od a do p (dohromady 128 bajtů), v posledním obsahuje jen jedinou položku (8 bajtů). Výsledky byly celkem překvapivé.

longs bytes time throughput
16 128 B 320 ms ~
8 64 B 227 ms 13.1 GB/s
4 32 B 112 ms 13.3 GB/s
2 16 B 55 ms 13.5 GB/s
1 8 B 33 ms 11.3 GB/s

Jak je vidět, že i když sčítám jen hodnoty prvního atributu, rychlost klesá plus/mínus lineárně s přibývajícím počtem položek v řádku. Procesor totiž z paměti nenačítá data po 64-bitových slovech, ale po cache line, které mají 64 bajtů. Musí tedy z RAM vydolovat celých 64 bajtů, i když z nich využije jen jednu osminu a to věci značně zpomalí.

Dále je vidět, že rychlost je limitovaná propustností pamětí. V mém desktopu jsou dva 1333MHz DDR3 moduly, které by podle tabulek měly dokázat protlačit 2×10.6 GB za vteřinu. Jedno jádro běžící na plné otáčky dokáže rozpoutat takové peklo, že sežere většinu tohoto objemu. Kdybych použil všechna čtyři jádra, program by byl limitován propustností pamětí a běžel by v nejlepším případě ~2× rychleji. Hyperthreading by v tomto případě nepřinesl žádné zrychlení.

Z toho vyplývá, že v této situaci komplikované gather/prefetch instrukce nemají moc velký význam. Program ve všech případech běží s nízkým IPC (lehce nad 1 instrukci na takt pro velké row structy, skoro 1.2 pro row s jednou položkou). gather může načíst několik míst paměti, ale stejně jako normální load musí načítat celé cache line. Může tak skrýt latence, ale když je hlavním nepřítelem paměťová propustnost, nemá žádný pozitivní dopad.

Toto zjištění jen dále potvrzuje výhody sloupcových databází: I když se všechna data nacházízcela v paměti, je čtení po sloupcích rychlejší než po řádcích. V nejhorším případě, kdy mě zajímají všechny sloupce, bude stejně rychlé, jako čtení po řádcích. Podobná situace platí v případě diskových bloků1.

Propustnost je natolik limitující, že když mám struct row s 8 atributy

struct row {
    long a,b,c,d,e,f,g,h; // 64 bajtů
};

tak tato smyčka

for (int i = 0; i < N; i++) {
    sums[0] += rows[i].a;
}

běží stejně rychle jako tato

for (int i = 0; i < N; i++) {
    sums[0] += rows[i].a;
    sums[1] += rows[i].b;
    sums[2] += rows[i].c;
    sums[3] += rows[i].d;
    sums[4] += rows[i].e;
    sums[5] += rows[i].f;
    sums[6] += rows[i].g;
    sums[7] += rows[i].h;
}

Při 10GB/s nová cache-line dorazí každých 6.4 ns, což při 3 GHz odpovídá skoro 20 taktům a to stačí na vykonání všech movů, addů a instrukcí smyčky s rozumným ILP.6

MonetDB je na tom ještě hůř, protože v jednom okamžiku zpracovává jeden operátor. Musí tedy číst jeden nebo více sloupců a výsledná data, která budou použita v dalších operátorech, zapisovat do paměti. A k tomu si je nutné připočítat fakt, že některé sloupce můžou být zpracovávány několika různými operátory. Ve výsledku je tedy Monet propustností limitován mnohem více.

Logickým řešením (jak to dělají některé novější a rafinovanější, viz) je rozlámat sloupec na menší bloky, které se vejdou do nějaké úrovně cache (L1 nebo L2) a provést všechny operace na nich a pak se posunout na další blok. Jde tedy o jakýsi hybrid mezi zpracováváním po celých řádcích a po celých sloupcích. Když se dočasné výsledky vejdou do procesorových cache, není je třeba streamovat do hlavní paměti a propustnost paměti přestane představovat takový problém. CPU dokáže z cache tahat data mnohem větší rychlostí. V případě Haswellu to je 64 bajtů každý takt – tedy něco jako 192 GB/s pro každé jádro. A tady přijde ke slovu rychlý kód, SIMD instrukce a mikro-optimalizace, nebo jen jednoduché gcc -O3 -mavx2 -funroll-loops.

S tímhle vším na mysli jsem v jednom nestřeženém okamžiku zkusmo napsal DilettanteDB – program, který dotazy na nějakou hypotetickou sloupcovou databázi přeloží do javovského bytekódu. Výsledkem je jednoduchá smyčka, ktera v jedné iteraci proletí databázi, čte data plnou rychlostí 10GB/s a spočítá všechny požadované agregace. Najednou nevyhodnocuje jeden operátor, ale všechny.


Dále k tématu:


 1. Tady se sluší krátce zmínit o takzvaných cache-oblivious algoritmech, které berou v potaz, že data data jsou přístupná jen v blocích větších než jedno procesorové slovo, a chovají se optimálně, i když neznají velikost těchto bloků. Viz např. tohle nebo tohle nebo toto nebo tohleto.
 2. Jak se ukazuje, tak softwarový prefetch často nemá žádný pozitivní dopad (ale ani neublíží), protože hardwarový prefetch dělá svoji práci velice dobře.
 3. Program neužije celou přenosovou kapacitu obou modulů nejspíš kvůli tomu, jak je fyzická paměť mapována na jednotlivé moduly. Hlavní paměť používá high-order interleaving, kdy je fyzická paměť rozdělena na velké spojité kusy, které jsou rozděleny na paměťové banky. Když tedy čtu sekvenčně z paměti, čtu z jednoho paměťového modulu a dvojitou kapacita nemůžu využít. GPU naproti tomu mají low-order interleaving, kdy je jedno slovo namapované na modul 0, další na modul 1, další na modul 2 a tak dále dokola. To se hodí pro GPU model výpočtů, který je optimalizovaný pro vysoký paralelismus a průtok. Viz první kapitoly Programming on Parallel Machines – GPU, Multicore, Clusters and More (Aktualizace: Rozložením paměti na PC si nejsem tak jistý, viz: tento článek, který říká, že dual-channel paměti se netváří jako dvě 64-bitová zařízení, ale jako jedno 128 bitové a to znamená, že tam jde o low-order interleaving.)
 4. Jak se ukazuje, tak s non-temporal instrukcemi to není tak jednoduché a v tomto případě vůbec nemusejí pomoci, protože stejně načítají celou cache line.
 5. Tak je například implementován MonetDB. Každý operátor (porovnání, join, podmínka, atd) odpovídá jednomu předkompilovanému fragmentu v C. Tím se eliminuje režie interpreteru, který je v typické databázi volán nad každým sloupcem.
 6. A co je nejhorší, když paměť nesíhá dodávat data, v perfu se to ukáže jako obyčejný cache-miss, bez indikace, co ho způsobilo.

Flattr this!

Posted in CPU, DB, Paměť | Leave a comment