Jak Apache Kafka smaruje koła dla dużych danych

2024

Setting Up Virtual Hosts for the Apache Web Server - Tutorial

Analitykę często określa się jako jedno z największych wyzwań związanych z dużymi danymi, ale nawet zanim ten krok się wydarzy, dane muszą zostać połknięte i udostępnione użytkownikom korporacyjnym. Właśnie tutaj pojawia się Apache Kafka.

Pierwotnie opracowany na LinkedIn, Kafka jest systemem typu open-source do zarządzania strumieniami danych w czasie rzeczywistym ze stron internetowych, aplikacji i czujników.

Zasadniczo działa jak rodzaj przedsiębiorstwa " centralny układ nerwowy "zbierający na dużą skalę dane dotyczące czynności użytkownika, dzienników, wskaźników aplikacji, giełd papierów wartościowych i oprzyrządowania urządzeń, i udostępnia je jako strumień danych w czasie rzeczywistym do spożycia przez użytkowników w przedsiębiorstwach.

[ Więcej informacji: Najlepsze białe inteligentne żarówki LED

Kafka jest często porównywany do technologii takich jak ActiveMQ lub RabbitMQ do implementacji lokalnych lub do Kinesis Amazon Web Services dla klientów w chmurze, powiedział Stephen O'Grady, współzałożyciel i główny analityk z RedMonk.

"Jest coraz bardziej widoczny, ponieważ jest to projekt wysokiej jakości open-source, ale także dlatego, że jego zdolność do obsługi strumieni informacji o dużej prędkości jest coraz częściej potrzebna do wykorzystania w obsłudze obciążeń takich jak Internet Rzeczy, między innymi, "dodała O'Grady.

Odkąd został poczęty na LinkedIn, Kafka zyskał wysokie poparcie firm takich jak Netflix, Uber, Cisco i Goldman Sachs. W piątek firma otrzymała nowy impuls od firmy IBM, która ogłosiła dostępność dwóch nowych usług opartych na platformie Kafka za pośrednictwem platformy Bluemix.

Nowa usługa IBM Streaming Analytics ma na celu przeanalizowanie milionów zdarzeń na sekundę w zakresie czasów odpowiedzi poniżej milisekund. natychmiastowe podejmowanie decyzji. IBM Message Hub, obecnie w wersji beta, zapewnia skalowalne, rozproszone, wysokowydajne, asynchroniczne przesyłanie komunikatów dla aplikacji w chmurze, z opcją używania interfejsu REST lub Apache Kafka API (interfejsu programowania aplikacji) do komunikacji z innymi aplikacjami.

Kafka został open-source w 2011 roku. W ubiegłym roku trzej twórcy Kafki uruchomili Confluent, startup poświęcony pomaganiu przedsiębiorstwom w wykorzystywaniu go w produkcji na dużą skalę.

"W fazie eksplozji na LinkedIn, nie mogliśmy nadążyć za rosnącym użytkownikiem podstawa i dane, które mogą nam pomóc w poprawie komfortu użytkowania "- powiedział Neha Narkhede, jeden z twórców Kafki i współzałożycieli Confluent's.

" To, co Kafka pozwala ci robić, to przenosić dane w firmie i sprawiać, że dostępny w postaci ciągłego, swobodnie płynącego strumienia w ciągu kilku sekund ludziom, którzy muszą z niego skorzystać "- wyjaśnił Narkhede. "I robi to na dużą skalę."

Wpływ na LinkedIn był "transformacyjny", powiedziała. Dzisiaj LinkedIn pozostaje największym wdrożeniem Kafki w produkcji; przekracza 1,1 biliona wiadomości dziennie.

Confluent oferuje w międzyczasie zaawansowane oprogramowanie do zarządzania subskrypcją, aby pomóc dużym firmom uruchomić Kafkę dla systemów produkcyjnych. Wśród klientów jest duży sprzedawca dużych pudełek i "jeden z największych emitentów kart kredytowych w Stanach Zjednoczonych" - powiedziała Narkhede.

Ta ostatnia używa tej technologii do ochrony przed oszustwami w czasie rzeczywistym, powiedziała.

Kafka jest "niesamowicie szybkim komunikatorem", który pomaga szybko integrować wiele różnych typów danych, powiedział Jason Stamper, analityk z 451 Research. "Dlatego pojawia się jako jeden z najbardziej popularnych wyborów."

Oprócz ActiveMQ i RabbitMQ, innym produktem oferującym podobną funkcjonalność jest Apache Flume, zauważył; Storm i Spark Streaming są również pod wieloma względami podobne.

W przestrzeni komercyjnej konkurentami Confluent są: IBM InfoSphere Streams, Ultra Messaging Streaming Edition i SAS Process Process Engine Engine (ESP) wraz z Apamą Software, Tibbo's StreamBase i Dodano Aleri firmy SAP, Stamper. Mniejsi konkurenci to DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic i Glassbeam.

W chmurze usługa przetwarzania strumieniowego Kinesis firmy AWS "ma dodatkową zaletę, że integruje się z podobnymi do hurtowni danych Redshift i platformy pamięci masowej S3" - powiedział.

Nowo zapowiedziane urządzenie Teradata to kolejny rywal, a to bazuje na Kafce jak również zauważył Brian Hopkins, wiceprezes i główny analityk w Forrester Research.

Ogólnie rzecz biorąc, istnieje wyraźny trend w kierunku danych w czasie rzeczywistym, powiedział Hopkins.

Aż do roku 2013, tak "wszystkie dane były duże o ogromnych ilościach danych napakowanych do Hadoop ", powiedział. "Teraz, jeśli tego nie robisz, jesteś już za krzywą mocy."

Dzisiaj dane ze smartfonów i innych źródeł dają przedsiębiorstwom możliwość zaangażowania się w kontakt z konsumentami w czasie rzeczywistym i dostarczają kontekstowych doświadczeń, powiedziany. To z kolei zależy od umiejętności lepszego zrozumienia danych.

"Internet przedmiotów jest jak druga fala mobilna" - wyjaśnia Hopkins. "Każdy sprzedawca szuka lawiny danych."

W rezultacie technologia dostosowuje się odpowiednio.

"Do 2014 roku chodziło tylko o Hadoop, to był Spark," powiedział. "Teraz to Hadoop, Spark i Kafka, są to trzy równe rówieśniki w procesie przetwarzania danych w tej nowoczesnej analitycznej architekturze."