BigHub má dlouhodobé partnerství s významnou mezinárodní logistickou firmou, během níž úspěšně realizovala rozmanitou škálu datových projektů. Tyto projekty zahrnovaly celou řadu oblastí, včetně datového inženýrství, zpracování dat v reálném čase, cloudu a aplikací založených na strojovém učení, které byly navrženy a vyvinuty s cílem zlepšit provoz logistických společností, včetně správy skladu, optimalizace dodavatelského řetězce a přepravy tisíců balíků po celém světě denně.
V roce 2022 byla BigHub postavena před novou výzvu: pomoci při implementaci systému včasného odhalování podezřelých podvodných zásilek vstupujících do logistické sítě společnosti. Na základě pilotního řešení klienta, které bylo vyvinuto a testováno na základě historických dat, BigHub vylepšil algoritmy a nasadil je do výrobního prostředí pro vyhodnocování zásilek v reálném čase při vstupu do přepravní sítě. Počáteční pilotní řešení bylo založeno na dávkovém vyhodnocení, ale požadavkem pro náš tým bylo vytvoření REST API, které by zvládlo jednotlivé dotazy s dobou odezvy kratší než 200 milisekund. Toto API by bylo připojeno k síti klienta, kde by na datech byly prováděny další operace.
.png)
Navrhovaná aplikace je navržena s architekturou na vysoké úrovni, jak je znázorněno na doprovodném diagramu. Jádrem systému je REST API, které je připojeno k síti klienta pro příjem a zpracování dotazů. Tyto dotazy podléhají ověření a vyhodnocení, přičemž výsledky se pak vrátí koncovému uživateli. Datová vrstva slouží jako základ pro výpočty, stejně jako pro trénink modelů a předzpracování tabulek prvků. Výsledky hodnocení jsou také uloženy v datové vrstvě, aby se usnadnilo vytváření souhrnných analýz ve vrstvě vykazování. Vrstva MLops spravuje životní cyklus modelu strojového učení, včetně školení, validace, ukládání metrik pro každou verzi modelu a zpřístupnění aktuální verze modelu prostřednictvím rozhraní REST API. K dosažení tohoto cíle celé řešení využívá celou řadu moderních datových technologií, včetně Kubernetes, MLFlow, AirFlow, Teradata, Redis a Tableau.
Během vývoje systému potřeboval náš tým řešit několik výzev, mezi které patří:
- Nastavení a škálování REST API pro zpracování velkého objemu dotazů (260 dotazů z 30 paralelních zdrojů za sekundu) v reálném čase, což zajišťuje jeho připravenost pro globální nasazení.
- Optimalizace rychlosti vyhodnocování jednotlivých dotazů pomocí nízkoúrovňových programovacích technik ke zkrácení času ze stovek milisekund na desítky milisekund.
- Správa životního cyklu modelu strojového učení, včetně automatizovaného rekvalifikace, nasazení nových verzí do API, monitorování kvality a oznámení, pro zajištění spolehlivého dlouhodobého výkonu.
- Implementace úprav v běhu - náš agilní přístup zajistil flexibilitu a umožnil rychlé a úspěšné změny probíhajícího projektu pro spokojenost obou stran a lepší výsledky.
Shrnutí
Jsme hrdí na to, že jsme do šesti měsíců úspěšně nasadili řešení ve výrobním prostředí. Naše průběžné monitorování a validace výkonnosti pro 12 zemí původu byly úspěšné a země jsou postupně přidávány a testovány. Cílem je zavést aplikaci globálně v první polovině roku 2023.