IBM przygotowuje Spark do uczenia maszynowego

2024

Praktyczne uczenie maszynowe w przykładach (Titanic)

IBM wprowadza znaczne zasoby za Spark Apache Software Foundation, aby przygotować platformę do zadań związanych z uczeniem maszynowym, takich jak rozpoznawanie wzorców i klasyfikacja obiektów.

Firma planuje zaoferować Spark jako usługę i poświęciła 3.500 naukowców i programistów, aby pomóc w utrzymaniu i dalszym rozwoju .

Wnosi również część własnego oprogramowania do projektu Apache, a mianowicie SystemML, język programowania dla zadań uczenia maszynowego i będzie współpracował z Databricks, firmą, która w dużej mierze kierowała rozwojem Sparka do tej pory. W uczeniu maszynowym systemy komputerowe mogą udoskonalić swoją wydajność w zadanych zadaniach, gdy uzyskują nowe informacje.

"Spark reprezentuje dla nas zupełnie nowy sposób pracy z danymi," powiedział Joel Horowitz, dyrektor ds. Marketingu w dziale analitycznym IBM. "Jest to bardzo wydajny silnik obliczeniowy w pamięci z bardzo łatwym w użyciu interfejsem dla naukowców i programistów danych."

Spark, który wielu postrzega jako następcę wielkiej platformy przetwarzania danych Hadoop, dobrze nadaje się do zadania związane z uczeniem maszynowym, które zazwyczaj wymagają wykonania dużych klastrów komputerów.

Najnowsza wersja platformy wydana w ubiegłym tygodniu rozszerza ją na algorytmy uczenia maszynowego.

"Uczenie maszynowe jest bardzo skuteczną techniką wydobywania esencji wartości z danych ", powiedział Horowitz. Algorytmy uczenia się maszyn są szczególnie dobre w takich zadaniach, jak zautomatyzowana klasyfikacja i pomaganie urządzeniom wyczuwać otoczenie z większym wyrafinowaniem - powiedział. Takie zadania były wcześniej uważane za zbyt intensywne obliczeniowo, aby można je było wykonać na pojedynczym serwerze. Spark może koordynować wiele komputerów do pracy w tandemie.

IBM oferuje już wiele usług platformowych opartych na algorytmach uczenia maszynowego, takich jak tłumaczenie językowe i wizualizacja danych. Usługa Spark, która będzie dostępna pod koniec tego miesiąca, pozwoli programistom na tworzenie i uruchamianie własnych algorytmów uczenia maszynowego, powiedział Horowitz.

Spark będzie dostępny na IBM Bluemix, zestaw usług platformowych dla programistów . Usługa Spark zapewni łatwy sposób na załadowanie danych, zbadanie danych i przekazanie wyników z powrotem do innej aplikacji, bez konieczności przygotowywania infrastruktury pomocniczej.

W ciągu ostatniego roku Spark zyskał na popularności , ponieważ więcej organizacji wprowadziło do swoich operacji analizę na poziomie dużych zbiorów danych. Firmy takie jak eBay, NASA, Opentable i Yahoo wykorzystały Spark, aby nadać sens dużym zbiorom danych. Według ankiety przeprowadzonej w grudniu 2014 r. Przez dostawcę narzędzi Java, TypeSafe, około 17 procent z 3000 profesjonalistów Java zauważyło, że pracują oni nad Spark w swoich operacjach.