Параллельно с развитием Apache Spark, начался активный рост технологий NoSQL баз данных. Традиционные реляционные базы данных (RDBMS) оказались недостаточно гибкими для работы с разнообразными и неструктурированными данными, которые стали появляться в огромных объёмах с развитием интернета и мобильных устройств. NoSQL базы данных, такие как Cassandra, MongoDB, Couchbase и другие, предложили новые модели хранения данных, ориентированные на горизонтальную масштабируемость, высокую доступность и поддержку разнообразных структур данных. Например, Cassandra, изначально разработанная в Facebook, позволяла обрабатывать огромные объёмы данных в распределённых системах с высокой доступностью, что делало её идеальным выбором для приложений, работающих в реальном времени. MongoDB, с другой стороны, предложила документно-ориентированную модель, которая позволяла гибко хранить и управлять данными, не требующими фиксированной схемы.

Ещё одной важной вехой в развитии технологий больших данных стало появление и развитие инструментов для потоковой обработки данных, таких как Apache Kafka и Apache Flink. Apache Kafka, разработанная в LinkedIn и переданная в Apache Software Foundation в 2011 году, стала де-факто стандартом для передачи и обработки потоков данных в реальном времени. Kafka позволяла собирать, хранить и передавать большие объёмы данных с высокой пропускной способностью и низкой задержкой, что сделало её незаменимым инструментом для построения систем, требующих мгновенной обработки данных, таких как системы рекомендаций, мониторинг сетевого трафика, и многие другие. Apache Flink, появившийся чуть позже, предложил дополнительные возможности для обработки потоков данных, включая поддержку сложных событий и точную обработку состояния, что сделало его одним из самых мощных инструментов для анализа данных в реальном времени.

Одновременно с развитием технологий обработки данных происходило стремительное развитие облачных вычислений. Сервисы облачных платформ, таких как Amazon Web Services (AWS), Google Cloud Platform (GCP) и Microsoft Azure, значительно упростили процесс работы с большими данными, предоставляя масштабируемую инфраструктуру и разнообразные инструменты в качестве услуг по запросу. Эти облачные сервисы предложили интегрированные решения для хранения данных, такие как Amazon S3 или Google Cloud Storage, а также мощные аналитические инструменты, такие как Amazon Redshift или Google BigQuery. С помощью облачных платформ компании смогли быстро развертывать и масштабировать свои решения, не беспокоясь о поддержке собственной инфраструктуры. Это позволило не только снизить затраты, но и ускорить внедрение инноваций в области больших данных.

Кроме того, облачные платформы начали предлагать готовые сервисы для машинного обучения и искусственного интеллекта, что позволило компаниям интегрировать сложные аналитические функции в свои продукты и услуги без необходимости разработки собственных моделей с нуля. Эти облачные решения включали в себя инструменты для построения, обучения и развертывания моделей машинного обучения, такие как AWS SageMaker, Google AI Platform и Azure Machine Learning.

С 2010-х годов и до настоящего времени технологии и инструменты для работы с большими данными прошли значительный путь развития, предоставив мощные, гибкие и доступные решения для обработки, хранения и анализа данных. Эти инновации стали основой для современных подходов к управлению данными, позволяя организациям эффективно использовать большие данные для улучшения бизнеса, повышения производительности и внедрения новых технологий.