Generování real-time statistik aneb jak jsme se zbavili cronu

Generování podrobných statistik kampaní tak, aby je bylo možné jednoduše a rychle filtrovat dle požadavků uživatele, nebylo ani pro náš systém vždy snadné. V dnešním příspěvku vás necháme nahlédnout pod pokličku technického řešení, jak jsme si s tímto problémem poradili my.

Adam
13.09.2017
blog picture

Znáte to především z globálních sítí – málokdo má real time statistiky pohromadě s ostatními. Na dnešní detailní výsledky se tak musíte podívat jinam než na zbytek. Po technické stránce je to s velkým objemem dat totiž celkem oříšek! V dnešním příspěvku vás necháme nahlédnout pod pokličku technického řešení, jak jsme si s tímto problémem poradili my.

Generování podrobných statistik kampaní tak, aby je bylo možné jednoduše a rychle filtrovat dle požadavků uživatele, nebylo ani pro náš systém vždy snadné. Jak bývá pro tento úkol zvykem, používali jsme skript spouštěný tzv. „cronem“. Čím více jsme však měli dat, tím více náročné na strojový výkon generování bylo. Naše stroje dostávaly dost zabrat a museli jsme najít jinou cestu.

Největší nevýhodou generování statistik cronem bylo, že jsme nemohli nabídnout aktuální čísla v reálném čase. Skript se spouštěl každých 5 minut, aby aktualizoval dnešní statistiky. Opravy statistik za předchozí dny probíhaly jen jednou denně během noci. Dat bylo tolik, že generování nešlo spustit přes den při normální zátěži.

Při hledání nové cesty jsme tedy chtěli vyřešit dva problémy:

1. Co nejvíce snížit zátěž na naše stroje

2. Zákazníkům nabídnout statistiky v reálném čase

Přemýšleli jsme o různých nových technologiích, ale nakonec jsme finální řešení postavili na technologiích, které už máme a známe.

MySQL replikace budiž záchranou

Většinu dat máme uloženou v databázi MySQL. Již před časem jsme byli kvůli rychlosti nuceni přidat databázi druhou, tzv. „slave“. Mezi hlavní databází a slave databází pak probíhá tzv. „replikace“ dat. Hlavní databáze data ukládá ve speciálním binárním formátu a slave databáze si je v reálném čase stahuje, aby měla stejná data jako hlavní databáze.

Jak tento již zavedený proces využít? Vytvořili jsme prototyp aplikace pomocí knihovny python-mysql-replication, která se umí stejně jako slave databáze připojit na hlavní databázi a v reálném čase tak přijímat veškeré změny, které v databázi proběhnou. Ty pak propisuje již agregované do speciální tabulky v hlavní databázi, která je určena pro zobrazení statistik v systému.

Prototyp se osvědčil

Po prvních lapsech, kdy nám čísla v některých případech neseděla, a důkladném testování nyní pomocí tohoto „agregátoru“ generujeme veškeré statistiky. Agregátor reaguje na aktuální změny v databázi, zátěž oproti dávkovému zpracování je jen mírná a jsme schopni vám poskytnout statistiky v reálném čase.

Agregátor nyní zvládne propagovat do tabulky statistik i tisíce změn za vteřinu bez významného vytížení našich serverů. Jsme tak perfektně připraveni na téměř jakoukoliv zátěž.

Adam Hájek
Affiliate manager

Další články

blog picture
03.04.2024 Rubrika
Affiliate není jen o e-commerce! Jaké další segmenty skvěle fungují?
Rozhodli jsme se vám přiblížit téma, které bychom mohli stručně nazvat jako „affil mimo ecommerce“. O co jde, jací partneři toto propagují a kdy dává smysl affil využít? Přečtěte si v našem článku.
blog picture
02.04.2024 Rubrika
Reálná zkušenost CSS partnera v affiliate síti
Po úvodním teoretickém článku k CSS jsme ve spolupráci s Kristýnou Gröbnerovou ze Srovname.cz připravili case study zaměřenou na CSS v affiliate z pohledu partnera. Jak hodnotí spolupráci a jaké byly výsledky? Přečtěte si.
blog picture
02.04.2024 Rubrika
Jak se daří nám a Partnerům – aneb pár čísel za březen
Přehled dat za březen 2024. Zajímá vás jaká je nejvyšší provize, affiliate programy s největším růstem nebo kolik si vydělali nejlepší partneři?

Chcete něco podobného?

Zaregistrujte se.