Jak duże dane zmieniają krajobraz bazy danych na dobre

2024

Baza danych w Access - praktyczny tutorial 2020

Wymień słowo "baza danych", a większość ludzi myśli o czcigodnych RDBMS, które zdominowały krajobraz przez ponad 30 lat. To jednak może wkrótce się zmienić.

Cała liczba nowych rywali walczy o kawałek tego kluczowego rynku dla przedsiębiorstw, a ich podejścia są różnorodne, większość łączy jedno: ostry jak brzytwa dane.

Wiele z tego, co napędza tę nową proliferację alternatyw, jest powszechnie określane jako "trzy V" leżące u podstaw dużych danych: objętość, prędkość i różnorodność.

Zasadniczo dane docierają do nas szybciej i bardziej objętości niż kiedykolwiek wcześniej; jest także bardziej zróżnicowany. Innymi słowy, jest to nowy świat danych, a tradycyjne systemy zarządzania relacyjnymi bazami danych nie były do tego przeznaczone.

"Zasadniczo nie można ich skalować na duże, szybkie lub różnorodne dane", powiedział Gregory Piatetsky-Shapiro, prezes KDnuggets, analityka i konsultant ds. danych.

Tak właśnie znalazł Harte Hanks. Aż do 2013 r. Agencja marketingu usług korzystała z kombinacji różnych baz danych, w tym Microsoft SQL Server i Oracle Real Application Clusters (RAC).

"Zauważyliśmy, że wraz z rozwojem danych w czasie nasze systemy nie mogły" t szybko przetwarzać informacje "- powiedział Sean Iannuzzi, szef działu technologii i rozwoju firmy. "Jeśli ciągle kupujesz serwery, możesz tylko posuwać się tak daleko." Chcieliśmy mieć pewność, że mamy platformę, która może skalować się na zewnątrz. "

Minimalizacja zakłóceń była kluczowym celem, powiedział Iannuzzi, więc" nie mogliśmy po prostu przełącz się na Hadoop. "

Zamiast tego wybrał Splice Machine, która zasadniczo umieszcza pełną bazę danych SQL na szczycie popularnej platformy danych Hadoop i pozwala istniejącym aplikacjom łączyć się z nią, powiedział.

Harte Hanks jest teraz na wczesnych etapach wdrażania, ale już dostrzegają korzyści, powiedział Iannuzzi, w tym poprawiona odporność na uszkodzenia, wysoka dostępność, redundancja, stabilność i "ogólna wydajność".

Jest to rodzaj idealnej burzy napędzającej pojawienie się nowej bazy danych - powiedział Carl Olofson, wiceprezes ds. badań w IDC.

Po pierwsze, "sprzęt, którego używamy, jest znacznie bardziej zdolny do szybkiego i elastycznego przenoszenia dużych zbiorów danych niż w przeszłości", zauważył Olofson.

In dawne czasy, takie kolekcje "prawie musiały być nakładane wirujący dysk "i dane musiały być skonstruowane w określony sposób, wyjaśnił.

Teraz jest 64-bitowa adresowalność, co umożliwia ustawienie większych przestrzeni pamięci, a także znacznie szybszych sieci i możliwość ciągnięcia wielu komputery razem, aby działać jako pojedyncze, duże bazy danych.

"Te rzeczy otworzyły możliwości, które wcześniej nie były dostępne," powiedział Olofson.

Jednocześnie zmieniły się obciążenia. Podczas gdy 10 lat temu strony internetowe były w dużej mierze statyczne, na przykład dzisiaj mamy żywe środowiska serwisów internetowych i interaktywne zakupy. To z kolei wymaga nowych poziomów skalowalności, powiedział.

Firmy również wykorzystują dane w nowy sposób. Podczas gdy tradycyjnie większość naszych działań skupiała się na przetwarzaniu transakcji - rejestrowaniu, ile sprzedawaliśmy i przechowywaniu tych danych w miejscu, w którym można je analizować - dzisiaj robimy więcej.

Zarządzanie stanem aplikacji jest jednym z przykładów .

Powiedz, że grasz w grę online. Technologia musi rejestrować każdą sesję z systemem i łączyć je ze sobą, aby przedstawić ciągłe doświadczenie, nawet jeśli zmienisz urządzenia lub różne ruchy, które wykonujesz, są przetwarzane przez różne serwery, wyjaśnił Olofson.

Dane muszą być trwałe aby firmy mogły analizować takie pytania, jak "dlaczego nikt nigdy nie przechodzi przez kryształowy pokój". W kontekście zakupów internetowych odpowiednikiem może być powód, dla którego więcej osób nie kupuje określonej marki butów po kliknięciu wybranych kolorów.

"Wcześniej nie próbowaliśmy rozwiązywać tych problemów, lub - jeśli tak było - próbowaliśmy wycisnąć je do pudełka, które nie pasowało" - powiedział Olofson.

Hadoop to ciężki gatunek wśród dzisiejszych nowi rywale. Chociaż nie jest to baza danych jako taka, to rośnie, aby wypełnić kluczową rolę dla firm zajmujących się dużymi danymi. Zasadniczo Hadoop to platforma skupiająca się na danych, przeznaczona do uruchamiania wysoce zrównoleglonych aplikacji i jest bardzo skalowalna.

Umożliwiając firmom skalowanie "na zewnątrz" w sposób rozproszony, zamiast skalowania "w górę" za pośrednictwem dodatkowych kosztownych serwerów, "to umożliwia do bardzo taniego zestawienia dużego zbioru danych, a następnie zobaczenia, co masz ", powiedział Olofson.

Wśród innych nowych alternatyw RDBMS znajduje się rodzina produktów NoSQL, w tym MongoDB - obecnie czwarty najpopularniejszy system zarządzania bazami danych, według DB-Engines - i MarkLogic.

"Relational był świetną technologią od 30 lat, ale został zbudowany w innej erze z różnymi ograniczeniami technologicznymi i różnymi potrzebami rynku," powiedział Joe Pasqua, wiceprezes firmy MarkLogic dla produktów.

Duże dane nie są jednorodne, powiedział, ale w wielu tradycyjnych technologiach to wciąż podstawowy wymóg.

"Wyobraź sobie, że jedynym programem jaki miałeś na swoim laptopie był Excel," powiedziała Pasqua. "Wyobraź sobie, że chcesz śledzić sieć znajomych - lub piszesz umowę, która nie pasuje do wierszy i kolumn."

Łączenie zestawów danych może być szczególnie trudne.

"Relacja mówi, że zanim zgromadzisz wszystkie te zbiory danych, musisz zdecydować, w jaki sposób masz zamiar ustawić wszystkie kolumny "- dodał. "Możemy przyjąć dowolny format lub strukturę i natychmiast zacząć z niego korzystać."

Bazy danych NoSQL nie używają relacyjnego modelu danych i zwykle nie mają interfejsu SQL. Podczas gdy wiele sklepów NoSQL zagraża spójności na korzyść szybkości i innych czynników, MarkLogic przygotowuje własną ofertę jako bardziej konsekwentną opcję dostosowaną do potrzeb przedsiębiorstw.

Według rynku Market Research Media, rynek rynkowy NoSQL ma znaczny wzrost, ale nie wszyscy uważają, że jest to właściwe podejście - przynajmniej nie we wszystkich przypadkach.

Systemy NoSQL "rozwiązały wiele problemów związanych z architekturą skalowalną, ale wyrzuciły SQL" - powiedział Monte Zweben, dyrektor generalny Splice Machine. To z kolei stanowi problem dla istniejącego kodu.

Splice Machine jest przykładem innej klasy alternatyw znanych jako NewSQL - kolejna kategoria spodziewa się silnego wzrostu w nadchodzących latach.

"Naszą filozofią jest utrzymanie SQL, ale dodaj skalowalną architekturę "- powiedział Zweben. "Czas na coś nowego, ale staramy się, aby ludzie nie musieli przerabiać swoich rzeczy".

Deep Information Sciences zdecydowało się również trzymać SQL, ale wymaga jeszcze innego podejścia.

Baza danych DeepSQL firmy wykorzystuje ten sam interfejs programowania aplikacji (API) i model relacyjny jak MySQL, co oznacza, że żadne zmiany aplikacji nie są wymagane, aby z niego skorzystać. Ale zajmuje się danymi w inny sposób, za pomocą uczenia maszynowego.

DeepSQL może automatycznie dostosowywać się do fizycznych, wirtualnych lub chmurowych hostów przy użyciu dowolnej kombinacji obciążeń, twierdzi firma, eliminując w ten sposób potrzebę ręcznej optymalizacji bazy danych.

Wśród Rezultaty to znacznie większa wydajność, a także możliwość skalowania "do setek miliardów wierszy" - powiedział Chad Jones, główny specjalista ds. strategii firmy.

Całkowicie odmienne podejście pochodzi z Algebraix Data, która mówi, że opracowała pierwsza prawdziwie matematyczna podstawa danych.

Podczas gdy sprzęt komputerowy jest matematycznie modelowany przed jego zbudowaniem, to nie jest tak w przypadku oprogramowania, powiedział Charles Silver, prezes Algebraix.

"Oprogramowanie, a zwłaszcza dane, nigdy nie zostały zbudowane na matematycznym fundacja "- powiedział. "Oprogramowanie było w dużej mierze kwestią lingwistyki."

Po pięciu latach badań i rozwoju Algebraix stworzył to, co nazywa "algebrą danych", która wykorzystuje matematyczną teorię zbiorów dla "uniwersalnego języka danych", powiedział Silver.

"Brudny mały sekret dużych ilości danych polega na tym, że dane wciąż znajdują się w małych silosach, które nie pokrywają się z innymi danymi" - wyjaśnił Silver. "Udowodniliśmy, że wszystkie mogą być reprezentowane matematycznie, więc wszystko się integruje."

Algebraix, wyposażony w platformę zbudowaną na tej podstawie, oferuje obecnie firmom analitykę biznesową jako usługę. Poprawiona wydajność, pojemność i szybkość należą do korzyści, jakie obiecuje Algebraix.

Czas pokaże, którzy nowi rywalizują, a którzy nie, ale w międzyczasie długoletni liderzy, tacy jak Oracle, nie stoją w miejscu.

Oprogramowanie jest bardzo modne przemysł ", powiedział Andrew Mendelsohn, wiceprezes wykonawczy Oracle Database Server Technologies. "Rzeczy często przechodzą od popularnego do niepopularnego, a znów do popularnego".

Wiele dzisiejszych startupów "przywraca te same stare rzeczy z odrobiną polerowania lub spinowania", powiedział. "To nowa generacja dzieci wychodzących ze szkoły i odkrywających nowe rzeczy".

SQL jest "jedynym językiem, który pozwala analitykom biznesowym zadawać pytania i uzyskiwać odpowiedzi - nie muszą to być programistki" - powiedział Mendelsohn. "Duży rynek zawsze będzie relacyjny."

Jeśli chodzi o nowe typy danych, relacyjne produkty bazodanowe ewoluowały w celu obsługi niestrukturalnych danych w latach 90., powiedział. W 2013 r. Baza danych Oracle podała obsługę JSON (JavaScript Object Notation) w wersji 12c.

Zamiast potrzeby korzystania z innego rodzaju bazy danych, bardziej zmienia się model biznesowy, który napędza zmiany w branży, powiedział Mendelsohn.

"Chmura jest tam, gdzie wszyscy idą, i to zakłóci tych małych facetów", powiedział. "Wielcy faceci są już w chmurze, więc gdzie jest miejsce dla tych małych facetów?

" Czy pójdą na chmurę Amazon i konkurują z Amazon? "Dodał." To będzie trudne. "

Oracle ma "najszersze spektrum usług w chmurze", powiedział Mendelsohn: "Czujemy się dobrze, gdzie jesteśmy dzisiaj."

Rick Greenwald, dyrektor ds. Badań w firmie Gartner, jest skłonny podjąć podobne view.

"Nowsze alternatywy nie są tak w pełni funkcjonalne i niezawodne, jak tradycyjne RDBMS", powiedział Greenwald. "Niektóre przypadki użycia mogą być adresowane z nowymi kandydatami, ale nie wszystkimi, a nie jedną technologią."

Patrząc w przyszłość, Greenwald oczekuje, że tradycyjni dostawcy usług RDBMS odczują rosnącą presję cenową i dodadzą nowe funkcje swoim produktom. "Niektórzy z nich swobodnie wprowadzą nowych rywali do swojego ogólnego ekosystemu zarządzania danymi", powiedział.

Jeśli chodzi o nowych facetów , niektórzy przetrwają, jak przewidział, ale "wielu zostanie albo nabytych, albo zabraknie funduszy".

Dziś ' s nowe technologie nie stanowią końca tradycyjnych RDBMS ", które szybko ewoluują same", zgodził się Olofson z IDC. "RDBMS jest potrzebny dla dobrze zdefiniowanych danych - zawsze będzie na to mieć wpływ."

Ale będzie też rola dla niektórych z nowych rywali, powiedział, szczególnie jako Internet Rzeczy i powstają nowe technologie, takie jak moduł pamięci nieulotnej Dual-Line (NVDIMM).

Liczne problemy wymagające licznych rozwiązań, dodał Olofson. "Jest mnóstwo interesujących rzeczy do obejrzenia."

Jak duże dane zmieniają krajobraz bazy danych na dobre

Wymień słowo "baza danych", a większość ludzi myśli o czcigodnych RDBMS, które zdominowały krajobraz dla ponad 30 lat. To jednak może wkrótce ulec zmianie.