Articles

I am excited to share my experience with Spark Streaming, a tool which I am playing with on my own. Before we get started, let’s have a sneak peak at the code that lets you watch some data stream through a sample application.

from operator import add, sub
from time import sleep
from pyspark import SparkContext
from pyspark.streaming import StreamingContext # Set up the Spark context and the streaming context
sc = SparkContext(appName="PysparkNotebook")
ssc = StreamingContext(sc, 1) # Input data
rddQueue = []
for i in range(5): rddQueue += [ssc.sparkContext.parallelize([i, i+1])] inputStream = ssc.queueStream(rddQueue) inputStream.map(lambda x: "Input: " + str(x)).pprint()
inputStream.reduce(add) .map(lambda x: "Output: " + str(x)) .pprint() ssc.start()
sleep(5)
ssc.stop(stopSparkContext=True, stopGraceFully=True)

Spark Streaming has a different view of data than Spark. In non-streaming Spark, all data is put into a Resilient Distributed Dataset, or RDD. That isn’t good enough for streaming. In Spark Streaming, the main noun is DStream — Discretized Stream. Thats basically the sequence of RDDs. The verbs are pretty much the same thing — the way we have actions and transformations with RDDs, we also have actions and transformations with DStreams.

Source de l’article sur DZONE

How do you operate a data-driven application before you have any data? This is known as the cold start problem.

We faced this problem all the time when I designed clinical trials at MD Anderson Cancer Center. We used Bayesian methods to design adaptive clinical trial designs, such as clinical trials for determining chemotherapy dose levels. Each patient’s treatment assignment would be informed by data from all patients treated previously.

Source de l’article sur DZONE

In my previous post, Rule Execution with SHACL, I have looked at how SHACL rules can be utilized to make inferences. In this post, I consider a more complex situation where SHACL rules are used to classify baked goods as vegan friendly or gluten free based on their ingredients.

Why Use SHACL and Not RDF/RDFS/OWL?

In my discussion, I will only concentrate on the definition of vegan friendly baked goods since the translation to gluten free baked goods is similar. Gluten free baked goods are included to give a more representative example.

Source de l’article sur DZONE

I was lamenting to my friend and fellow MVP Shamir Charania (blog|Twitter) that I didn’t have a topic for this week’s blog post, so he and his colleague suggested I write about data lakes, and specifically the Azure Data Lake.

What Is a Data Lake?

This is what Wikipedia says:

Source de l’article sur DZONE

Objectif : proposer aux entreprises plus de visibilité et de contrôle sur les API qui connectent les applications et les données entre plusieurs clouds et avec leurs infrastructures sur site.
Source de l’article sur ZDNet

L’ESN Twin Solutions s’est associée avec deux unités mixtes de recherche du CNRS en vue de développer de nouveaux algorithmes d’intelligence artificielle. Un accord gagnant-gagnant.
Source de l’article sur ZDNet

A priori antinomique avec le principe de minimisation promu par le nouveau règlement, la constitution d’un data lake peut faciliter l’identification et la traçabilité des données sensibles. Des acteurs du marché du big data commercialisent opportunément des outils estampillés RGPD.
Source de l’article sur ZDNet

L’analyse fine des données de production permet à BNP Paribas de faire évoluer son infrastructure tout en luttant plus efficacement contre les cyber-attaques.
Source de l’article sur ZDNet

Figurez-vous des dindes dans un enclos. Au début elles ont peur de l’éleveur qui leur apporte à manger. Puis elles s’habituent à lui. D’autant plus que ces derniers temps la nourriture se fait de plus en plus abondante. Ce monsieur est vraiment gentil. La situation des dindes n’a jamais été aussi bonne que… la veille de Noël, jour de leur abattage.
Source de l’article sur ZDNet

Comme annoncé en novembre dernier, HPE Pointnext propose cinq solutions en paiement à l’usage, sans investissement : back-up, plateforme Big data, transformation de bases de données, SAP HANA et infrastructure réseau à la demande orientée IoT. 
Source de l’article sur ZDNet