LE BIG DATA : LES SOLUTIONS



MENU

Les solutions d’hébergement
OVH : Big Data and Analytics
SCALEWAY : Hébergeur du groupe ILIADE
Cloudera
AWS : Le service Amazon
pCloud
Article complémentaire

Les métiers du Big Data
L’architecte big data
Le directeur des données
Le data scientist et le data analyst

Architecte Big Data : diplôme et formation

Analyse de données : comment pallier la pénurie de Data Scientists
Recruter des spécialistes pour répondre aux besoins spécifiques de votre entreprise
Former vos propres experts en Data Science
Les plateformes externes qui remplacent ou assistent vos Data Scientists



Les solutions d’hébergement


Tous les établissements ne disposent pas forcement de la plateforme informatique de stockage des donnés ni des outils de base ou plus pour manipuler leurs données.
Le Cloud devient une alternative pratique et peu couteuse.

Aussi voici quelques possibilités pour répondre à ce besoin

Data Center

OVH : Big Data and Analytics


Dans tous les secteurs d’activité, les sources des données se multiplient, les volumes explosent. Les méthodes traditionnelles de traitement de ces données ne sont plus efficaces.

OVH vous propose des offres flexibles pour stocker et exploiter vos informations, afin d’en tirer profit rapidement. Nous nous reposons sur les logiciels et distributions standards du marché, comme Cloudera

Vos données sont précieuses. Nous possédons des data-centres dans de nombreux pays, respectant les législations en vigueur. OVH est également partenaire de l’Open Cloud Foundation, promouvant un cloud ouvert.

Confidentialité, sécurité et réversibilité

Vos données sont précieuses. Nous possédons des data centers dans de nombreux pays, respectant les législations en vigueur. OVH est également partenaire de l’Open Cloud Foundation, promouvant un cloud ouvert.

Un partenaire de vos projets, non un concurrent

Chacun son métier : OVH est un fournisseur de produits cloud et le restera. Nous n’entrons pas en compétition avec les entreprises de nos clients.

Flexibilité et performance

Nos offres s’appuient sur notre savoir-faire en termes d’infrastructures. Nous tirons parti des avantages de notre Public Cloud et des serveurs dédiés, vous permettant toutes les configurations possibles.

Des offres claires et des coûts maîtrisés

OVH est reconnu pour vous proposer des offres performantes et au meilleur prix. Nos offres big data respectent ces valeurs, vous permettant de calculer vos coûts en toute simplicité.

Source : OVHplateforme big data

Lire aussi :

OVH : La petite boîte française devenue leader européen du cloud
Surdoué de l’informatique, Octave Klaba a fait d’OVH un géant de l’hébergement. Grâce, notamment, au soutien d’un certain Xavier Niel.

OVH : OVH façonne un cloud d’infrastructure taillé pour l’IA
Optimisé pour le machine et deep learning, le IaaS a pour vocation de proposer toute une pléiade de services complémentaires pour gérer les pipelines d’entrainement et de déploiement.

Kubernetes as a Service : OVH dévoile sa nouvelle arme en version finale
Le 18 octobre dernier, lors de son événement annuel, OVH annonçait son offre de Kubernetes as a Service en bêta privée. Quelque mois et près de 2 000 demandes d’accès plus tard, le numéro un européen du cloud lance, ce mardi 26 février, la version commerciale de son service. Baptisé Managed Kubernetes Service, il comprend toutes les briques nécessaires pour industrialiser le déploiement, la mise à l’échelle et l’orchestration d’architectures de micro-services et d’applications containerisées.



SCALEWAY : Hébergeur du groupe ILIADE


Scaleway est la filiale d’hébergement cloud du groupe Illiad plus connu comme opérateur téléphonique et internet Free.


Manage Your Infrastructure at Scale

Build your cloud infrastructure in seconds.

Multiple Datacenters

Maximize your services reliability by running your infrastructure through autonomous facilities that are spread accross multiple geographic regions.
99.9 % SLA

We provide a 24×7 customer service, and are reachable via tickets with a 99.9 % network service-level agreement (SLA). If we fail to deliver, we will credit you back.

Over 5 Tb/s of internet bandwidth

We give you the power to deliver content anywhere thanks to our multiple high-end transit providers and the best peerings.
Multiple Architecture

Scaleway is the first platform to provide x86-64, ARMv7 as well as ARMv8 bare-metal and virtual cloud SSD servers.


Designed for the Cloud

Our hardware is designed by and for Scaleway in our headquarters located in Paris, France.

Developer Tools

Interact with Scaleway and take control of the cloud in minutes with our many tools, resources and third-party applications.


Hourly Billing

All our cloud resources are billed per hour with monthly capping. Scaleway pricing is predictable and transparent, with no hidden costs.


Infinite Cloud Combinations

Limitless infrastructure combinations: additional volumes, movable IPs, security groups and hot snapshots are available on all our servers.

Visite en images du data centre Scalway (En version PDF )
Publié sur La fibre.info

Scaleway annonce l’obtention de l’agrément Hébergeur de Données de Santé (HDS), lors de sa présence au Forum International de Cybersécurité (FIC)


Cloudera

Cloudera est une entreprise de la Silicon Valley, basée à Burlingame (Californie), qui se consacre au développement de logiciels de type Big Data basées sur le framework Hadoop avec des ouverture sur l’Intelligence Artificielle.

Pour faire mieux connaissance, le mieux de de se rendre sur la page youtube de Cloudera ; un ensemble de petites vidéos explique leurs activités.

Articles complémentaires:
1. Cloudera et Hortonworks fusionnent
2. Pour rendre l’IA utile, rendez-la plus ‘ennuyeuse’ !
3. Cloudera now supports Azure Data Lake Store


AWS : Le service Amazon

Tout le monde connait Amazon pour son hypermarché mondial en ligne ; mais peu savent que la moitié des revenus de l’entreprise viennent de son service cloud AWS

AWS met à disposition de ses clients un clustervirtuel de machines, disponible à tout moment, via Internet. Les machines virtuelles proposées émulent les caractéristiques d’un ordinateur réel, y compris le matériel physique (processeurs et carte graphiques pour le traitement, mémoire locale ou vive, stockage sur disque dur ou SSD) ; un choix de systèmes d’exploitation ; du réseau ; des applications pré-chargées telles que des serveurs web, des bases de données, des outils de gestion de la relation client, etc.


pCloud

Pcloud vient de Suisse et ne permet pas vraiment d’effectuer des opération Cloud. Mais son offre gratuite de 10Go est parfaite pour les TPE.


Article complémentaire


Delta Lake : tout savoir sur la solution Data Lake du créateur de Spark
Delta Lake est une solution proposée en open source par Databricks, le créateur original du moteur d’analyse Big Data Apache Spark. Il s’agit d’un outil permettant de rendre les données des Data Lakes plus fiables grâce à une épaisseur de stockage supplémentaire.
Publié sur Le Big Data le 29 avril 2019 par Bastien


Rappel :

Xénium-Partners est et reste indépendant de tout éditeurs, les entreprises présentées ci-dessous le sont pour leur importance sur le marché


Les métiers du Big Data


Face à la profusion des données numériques produites à travers le monde et particulièrement dans le monde de la finance, il devient indispensable, pour les entreprises qui ont l’intention de profiter pleinement de la valeur ajoutée du big data, de recruter de nouveaux talents pour améliorer leur productivité et valoriser leurs données.

Des profils rares, dotés de diplômes de différents horizons (scientifiques comme économiques ou mathématiques), bénéficiant d’une relative bonne rémunération, ont pour mission d’extraire ces informations pour les transformer en actions et opérations bénéfiques pour l’entreprise. Ces entreprises devront recruter des profils bien distincts en ayant une bonne connaissance des formations et des diplômes desservis par les différentes écoles et universités. Mais quels sont ces métiers ?

Chez Xénuim Partners, par soucis de clarté, nous avons classé les différents métiers du Big Data en 7 catégories :

1. L’ Architecte Big Data (Chief data officer)
2. Le Directeur des données (Business Intelligence Manager)
3. Le Data Scientist
4. L’Analyste de données (Data Analyst)
5. Le Data Miner
6. Le Master Data Manager
7. Le responsable de la protection des données (Data Protection Officer)



L’architecte big data

L’architecte big data conçoit des solutions techniques capables de gérer des gros volumes de données.

Face à la multiplication et à la profusion des données numériques, l’architecte big data fait partie des profils les plus recherchés du big data. Son rôle est d’organiser la récupération et la gestion des données brutes tout en veillant à la qualité.

L’architecte big data est chargé de la collecte de la donnée brute qui peut-être plus ou moins structurée, en plus ou moins grande quantité et qui peut provenir de sources différentes (internes, externes). Après cet inventaire, il crée et optimise les infrastructures de stockage, de manipulation et de restitution des données brutes. 
L’architecte big data maîtrise les principales technologies de big data en terme de bases de données NoSQL (MongoDB, Cassandra ou Redis), d’infrastructures serveurs (Hadoop, Spark) et de stockage de données en mémoire (Memtables). 

C’est un interlocuteur important du Data Scientist, à qui il fournit les données brutes que celui-ci va traiter.

Autrement dit, c’est la personne qui se charge de collecter des données brutes pour l’entreprise. Les données en question peuvent provenir d’une multitude de sources internes ou externes, et peuvent être structurées ou non. Leur quantité peut aussi varier énormément. Il doit mettre en place l’infrastructure qui permettra de stocker, d’ingérer les données dans les applications métiers.

Après avoir collecté les données brutes, l’architecte Big Data se charge de créer et d’optimiser des infrastructures de stockage, manipulation et restitution. Il doit élaborer une architecture de Data Management et concevoir un plan pour intégrer, centraliser, protéger et maintenir les données (objectif : se rapprocher du temps réel). Il est garant du bon fonctionnement du système qui doit pouvoir s’étendre selon les besoins du client.



Le directeur des données


Le chief data officer, ou directeur des données, est un nouveau métier du Big data. C’est un cadre qui participe au pilotage la stratégie globale de l’entreprise. A ce titre, il se situe au carrefour des différents services : finance, marketing, communication, RH, ingénierie, achats, qualité…

Le chief data officer, ou CDO ou directeur de la stratégie digitale, a pour fonction de faciliter l’accès aux données et repérer parmi toutes les informations disponibles les plus importantes à extraire pour des prises de décisions optimales de son entreprise.

Pour cela, il s’appuie sur une méthodologie devant retenir des éléments objectifs, particulièrement de type statistique.

Le CDO assume une fonction transversale afin d’acquérir la meilleure connaissance de son entreprise, qu’elle soit de services, de process, de métiers, d’enjeux business et d’historique. Il est donc au cœur des sujets.

Le chief data officer s’assure que les informations recueillies en interne comme en externe sont fiables, cohérentes entre elles et permettent un traitement ouvrant aux décisions adaptées. Il doit s’assurer du respect des normes, des lois, des règlements (MIFID) …
Il travaille aussi en relation avec d’autres spécialistes comme le data scientist ou l’analyste web.

Le chief data officer doit posséder une grande qualité d’écoute, de pédagogie et de communication.



Le data scientist et le data analyst


Le data analyst et le data scientist sont responsables de la gestion et de l’analyse de « données massives » (Big data). Ces spécialistes des chiffres, des statistiques et des programmes informatiques traitent les données d’une entreprise pour en extraire les informations susceptibles de l’aider dans sa prise de décisions. A l’inverse du data scientist qui a une vision transverse, le data analyst prend en charge un type de données spécifique.

Le data analyst et le data scientist sont responsables du croisement des données de l’entreprise avec celles mises à disposition.
Leur objectif : donner du sens à ces données et en extraire de la valeur pour aider l’entreprise à prendre des décisions stratégiques ou opérationnelles.

Dans ce cadre, ils conçoivent les modèles et algorithmes pour collecter, stocker, traiter et restituer les données. C’est justement cette forme de « créativité » qui distingue le data analyst et le data scientist du pur statisticien : ils sont capables d’imaginer de nouveaux modèles d’analyse pour traiter des données brutes et hétérogènes qui ne peuvent pas être analysées à l’aide d’outils classiques de gestion de bases de données.

Le data analyst et le data scientist travaillant sur un projet doivent mettre en œuvre les tâches suivantes : traduire un problème business en problème mathématiques/statistiques ; trouver les sources de données pertinentes ; proposer des recommandations sur les bases de données à modifier, rapatrier, externaliser, internaliser ; concevoir des « entrepôts de données » (datawarehouse) ; évaluer les données, les traiter et les resituer dans le système d’information cible.

Le data analyst (ou data miner) n’inspecte généralement qu’une seule source de données (par exemple le CRM – Customer Relationship Management – de l’entreprise) via un modèle défini. Chargé d’accroître la connaissance de la clientèle d’une entreprise, il conduit des études sur les bases de données, suit les outils datamining pour analyser l’impact des actions marketing.

Le data scientist, de son côté, dispose d’une vue plus globale et croise les données de différentes sources dispersées (internes, externes, données publiques…).

Ces professionnels combinent une triple compétence : expertise statistique et informatique, connaissance des bases de données et de l’informatique, voire, ce qui est un plus, expérience métier dans leur secteur d’activité (marketing, finance par exemple).

Ces deux métiers nécessitent de la rigueur et de l’organisation car le suivi des données de l’entreprise s’effectue régulièrement selon des procédures très ciblées. Il faut bien entendu être un passionné des chiffres et des statistiques et respecter des règles de confidentialité car les données que manipulent le data analyst et le data scientist sont par essence sensibles et stratégiques.

Le data analyst et le data scientist occupent une place centrale au sein d’une organisation car leur travail d’analyse est partie prenante de la stratégie donc des décisions prises par cette dernière. Ils peuvent ainsi dégager des tendances d’achat ou de consommation, élaborer le profil type de la clientèle,  déterminer ses attentes…  Mais aussi mettre en avant des niches trop peu exploitées

En conclusion il faut rappeler le rôle central de la DSI, sans son aide rien n’est possible.



Architecte Big Data : diplôme et formation

Pour accéder au poste d’architecte Big Data, un diplôme de niveau Bac+4 ou Bac+5 est nécessaire. Il est possible de miser sur une formation en informatique, management, statistiques ou marketing. Précisons toutefois que la plupart des architectes Big Data sont des profils seniors dotés d’une longue expérience dans le domaine de la Business Intelligence. C’est dans cette branche qu’ils auront appris à déployer des installations qui doivent supporter une charge forte tout en restant rapide.

Exemples de formations :


Analyse de données : comment pallier la pénurie de Data Scientists


La pénurie de Data Scientists est aujourd’hui un vrai problème pour les entreprises qui souhaitent profiter des vertus de l’analyse de données. Découvrez plusieurs solutions pour surmonter cet obstacle…

L’analyse de données est aujourd’hui un véritable atout compétitif pour les entreprises de tous les secteurs. En s’appuyant sur les informations dégagées par ces analyses, les dirigeants d’entreprises data-driven peuvent prendre de meilleures décisions pour améliorer leurs performances et atteindre leurs objectifs.

Malheureusement, à l’heure actuelle, les outils d’aide à la décision existants sont bien souvent insuffisants. Pour cause, les modèles d’analyse doivent faire face à la hausse de volumétrie et de complexité des ensembles de données à l’ère du Big Data. L’option la plus simple semblerait être de créer de nouveaux outils, mais le développement de tels modèles d’analyse en interne nécessite l’expertise d’analystes de données professionnels cumulant des compétences techniques et une capacité à comprendre les problématiques opérationnelles de l’entreprise.

Mais, ces experts se font rares, très rares. La demande dépasse largement l’offre, et les entreprises s’arrachent littéralement ces spécialistes de haut niveau. Ainsi, en 2018, rien qu’aux États-Unis, près de 190 000 offres d’emploi sont restées sans réponse. Nous ne disposons pas de statistiques pour la France ou même l’Europe.

Il existe toutefois plusieurs solutions pour y remédier. En voici quelques-unes…

Recruter des spécialistes pour répondre aux besoins spécifiques de votre entreprise

En réalité, de nombreuses entreprises n’ont pas réellement besoin de techniques de pointe de Data Science pour profiter d’un avantage compétitif grâce à l’analyse de données. C’est particulièrement le cas pour les petites et moyennes entreprises.

Plutôt que de chercher à recruter un Data Scientist, vous pouvez chercher à compléter les compétences en Data Science qui manquent à votre entreprise. Beaucoup d’organisations recherchent un expert cumulant les compétences de Data Engineer, de spécialiste en Machine Learning, d’analyste business et de décisionnaire.

Pourtant, il est fort probable que certains de ces rôles soient déjà, plus ou moins, remplis au sein l’entreprise. De fait, la priorité est de trouver un expert en Machine Learning capable d’utiliser R, Python ou SAS et de comprendre quels algorithmes utiliser en fonction des différentes situations. Cet expert pourra ensuite unir ses compétences avec celles dont vous disposez déjà en interne.

Former vos propres experts en Data Science

Plutôt que de chercher à recruter un Data Scientist externe, vous pouvez financer des formations à vos employés. Il existe de nombreuses certifications, MOOC, et formations universitaires permettant d’acquérir des compétences en science des données. Bien évidemment, toutes ne se valent pas et il convient de vous renseigner au préalable pour choisir la meilleure option. De plus ces formations, correctement déclarées, entrent dans le budget formation de l’entreprise.

La contrepartie, pour former des Data Scientists en interne, impose qu’il est nécessaire de disposer au préalable d’employés ayant à la fois le profil d’ingénieurs et de développeurs et disposant d’un minimum de compétences en mathématiques. De plus, ce recours est long et coûteux. Il faudra compter au moins un an de formation pour pouvoir compter dans ses rangs un expert qualifié et opérationnel. Dans le même temps, il est probable que la concurrence prenne de l’avance…

Notons toutefois que cette prolifération de formations pourrait prochainement mettre un terme à la pénurie de Data Scientists. Une autre solution consiste donc à attendre quelques années de plus, afin que les Data Scientists soient moins rares et donc plus simples à recruter et moins chers. Mais la concurrence avance toujours …

Les plateformes externes qui remplacent ou assistent vos Data Scientists

La dernière des options consiste à se tourner vers une plateforme logicielle externe permettant de remplacer ou d’assister les Data Scientists. Salesforce Einstein, DataRobot, Azure Machine Learning, AWS ou encore Google AI Hub… ces plateformes de Machine Learning  « self-service »  sont de plus en plus nombreuses, et permettent aux décisionnaires de profiter des avantages offerts par l’analyse de données même sans compétences pointues en Data Science.

Mais il n’existe pas que le « grands » dans ce secteur, prenons par exemple le service proposé par DataMA. C’est une solution qui permet d’alléger la charge de travail des Data Scientists. Avec à la base une solution Cloud SaaS de type « Analytics as a Service« . Grâce à une suite d’outils d’analyse de données clés en main, accessibles depuis un simple navigateur web, les dirigeants d’entreprise peuvent s’appuyer sur les données pour prendre de meilleures décisions sans avoir besoin de développer leurs propres modèles d’analyse en interne. La plateforme DataMa regroupe différents modèles d’analyse codés en R et développés pour répondre à des problèmes métiers concrets et récurrents. Ces modèles configurables en quelques clics peuvent être déployés et exploités directement.

Prenons un exemple, l’outil DataMa Compare permet d’identifier et de comprendre les facteurs à l’origine des variations de vos indicateurs de performances : hausse ou baisse de performances de vos ventes, de vos campagnes marketing, de vos tests A/B, de vos sites web, ou encore de vos taux de conversions. Ces facteurs seront présentées sous forme d’un graphique en cascade très simple à interpréter.

Ainsi, si vous ne disposez pas de Data Scientists ou si ces derniers sont submergés par le travail, une telle plateforme logicielle peut se révéler très utile. Elle vous permettra de profiter des avantages de l’analyse de données plus rapidement, et certainement à moindre coût.


Passer à la partie suivante : Point Juridique


Retour