Алексей Комов, IT News
Над землей нависла угроза очередного всемирного потопа, только на этот раз его стихия – не вода, а информация. Из года в год объемы генерируемых в мире цифровых данных неуклонно растут: только в 2011 году человечество породило в электронном виде больше информации, чем за все время своего существования вплоть до XXвека включительно. Данный тренд вынуждает IT-рынок искать ответы на вопрос: как совладать с бесконечным информационным потоком?
Предвестники катаклизма
В 2012 году, по самым скромным прогнозам аналитиков, объем хранящихся в мире цифровых данных увеличится на 50%: с 1,8 до 2,7 зеттабайт. При сохранении таких темпов роста к 2015 году, по оценке Лоуренса Джеймса (Laurence James), менеджера по маркетингу продукции, альянсов и решений компании NetApp, каждые 10 минут в мире будет генерироваться столько же данных, сколько их было накоплено человечеством к 2003 году. Значительную лепту в этот процесс вносят неструктурированные данные из новых источников, такие как мобильные устройства, RFID-метки, камеры наблюдения и всевозможные датчики телеметрии. Но наибольшую волну информации порождает Интернет: каждую минуту в нем появляется свыше 600 новых записей в блогах и 34 тыс. постов в Twitter. К 2015 году объем мирового интернет-трафика превысит 966 эксабайт в год, а глобальное онлайновое видеосообщество вырастет до 1,5 млрд пользователей. При этом если до 2010 года почти 100% трафика генерировали ПК, то в ближайшие три года их потеснят мобильные гаджеты . Кроме того, меняется характер создаваемых в Интернете цифровых данных: если раньше это в основном была структурированная текстовая информация, то теперь большая часть приходится на разнородный мультимедийный трафик.
Глобальный информационный поток получил наименование Big Data («большие данные»), которое впервые было введено в обиход в конце 2000-х годов применительно к ситуациям, когда данные становятся большой проблемой. Однако с легкой руки игроков IT-рынка вскоре под данным термином стали подразумевать не только проблемы, но и методики обработки и анализа «больших данных», а также сопутствующие технологии. По словам Артема Гришковского, заместителя генерального директора компании Sybase CIS, наиболее точное определение термина Big Data гласит, что это «совокупность структурированных и неструктурированных данных в таких объемах, которые невозможно проанализировать традиционными технологиями за разумный отрезок времени». При этом Дмитрий Хорошев, менеджер компании Cisco по развитию бизнеса в области ЦОД, отмечает, что у задач, объединенных термином Big Data, есть ярко выраженные особенности, которые отличают их от традиционных методов работы с данными. Среди них - обработка данных внутри базы без создания промежуточных копий, возможность работы с неструктурированными данными, использование для хранения и обработки информации большого количества вычислительных узлов в параллельном режиме, в том числе и для реакции на один информационный запрос.
Артем Гришковский, заместитель генерального директора компании SybaseCIS:
«Несмотря на то что проблема Big Data в том или ином виде существует уже довольно долго, только начиная с прошлого года это направление действительно стало ключевым трендом в IT-индустрии».
© Copyright 2016, ООО "Сайбейс"