Generování real-time statistik aneb jak jsme se zbavili cronu

Znáte to především z globálních sítí – málokdo má real time statistiky pohromadě s ostatními. Na dnešní detailní výsledky se tak musíte podívat jinam než na zbytek. Po technické stránce je to s velkým objemem dat totiž celkem oříšek! V dnešním příspěvku vás necháme nahlédnout pod pokličku technického řešení, jak jsme si s tímto problémem poradili my.

Generování podrobných statistik kampaní tak, aby je bylo možné jednoduše a rychle filtrovat dle požadavků uživatele, nebylo ani pro náš systém vždy snadné. Jak bývá pro tento úkol zvykem, používali jsme skript spouštěný tzv. „cronem“. Čím více jsme však měli dat, tím více náročné na strojový výkon generování bylo. Naše stroje dostávaly dost zabrat a museli jsme najít jinou cestu.

Největší nevýhodou generování statistik cronem bylo, že jsme nemohli nabídnout aktuální čísla v reálném čase. Skript se spouštěl každých 5 minut, aby aktualizoval dnešní statistiky. Opravy statistik za předchozí dny probíhaly jen jednou denně během noci. Dat bylo tolik, že generování nešlo spustit přes den při normální zátěži.

Při hledání nové cesty jsme tedy chtěli vyřešit dva problémy:

1. Co nejvíce snížit zátěž na naše stroje

2. Zákazníkům nabídnout statistiky v reálném čase

Přemýšleli jsme o různých nových technologiích, ale nakonec jsme finální řešení postavili na technologiích, které už máme a známe.

MySQL replikace budiž záchranou

Většinu dat máme uloženou v databázi MySQL. Již před časem jsme byli kvůli rychlosti nuceni přidat databázi druhou, tzv. „slave“. Mezi hlavní databází a slave databází pak probíhá tzv. „replikace“ dat. Hlavní databáze data ukládá ve speciálním binárním formátu a slave databáze si je v reálném čase stahuje, aby měla stejná data jako hlavní databáze.

Jak tento již zavedený proces využít? Vytvořili jsme prototyp aplikace pomocí knihovny python-mysql-replication, která se umí stejně jako slave databáze připojit na hlavní databázi a v reálném čase tak přijímat veškeré změny, které v databázi proběhnou. Ty pak propisuje již agregované do speciální tabulky v hlavní databázi, která je určena pro zobrazení statistik v systému.

Prototyp se osvědčil

Po prvních lapsech, kdy nám čísla v některých případech neseděla, a důkladném testování nyní pomocí tohoto „agregátoru“ generujeme veškeré statistiky. Agregátor reaguje na aktuální změny v databázi, zátěž oproti dávkovému zpracování je jen mírná a jsme schopni vám poskytnout statistiky v reálném čase.

Agregátor nyní zvládne propagovat do tabulky statistik i tisíce změn za vteřinu bez významného vytížení našich serverů. Jsme tak perfektně připraveni na téměř jakoukoliv zátěž.

Autor článku

Adam Hájek

Adam Hájek

Affiliate manager
adam@ehub.cz

Adam působí v eHUB.cz od roku 2017 a v affilu se specializuje hlavně na segmenty dětského zboží a doplňků stravy. Ať už jste začátečník nebo zkušený affilák a zajímá vás cokoli od affiliate odkazů po vyplácení provizí, určitě se nebojte na cokoli zeptat.

Další články

ROZHOVOR: Petr Sysel z Twisto

Affiliate program Twisto fungoval v několika sítích. Nyní funguje pouze v eHUB. Co vedlo Twisto k tomuto rozhodnutí? Odpovídá Petr Sysel z Twisto.

Čti dál

Jak se daří nám a Publisherům – aneb pár čísel za srpen

Přehled dat za srpen 2020. Zajímá vás jaké je nejvyšší provize, affiliate programy s největším růstem a kolik si vydělali nejlepší partneři?

Čti dál

Affiliate síť eRetail přechází od 1.10.2020 pod eHUB

Od 1.10.2020 přechází affiliate síť eRetail kompletně do eHUBu. Na co si dát pozor a co to znamená pro partnery? Důležité info na jednom místě.

Čti dál

Komentáře