X

Comment créer un cluster dans Dataproc et installer Jupyter ?



🔗Contenu associé

Vous pouvez trouver des dépôts liés dans :

🐱‍🏍GitHub

Vous pouvez me joindre en :

🧬LinkedIn


CV 🧾

Tout ce blog utilise shell.

Nous allons démarrer un cluster dans Dataproc où nous devons d’abord disposer du SDK Google et avoir instancié un bucket dans Cloud Storage.

Pour plus d’informations et le potentiel de cela, cliquez ici.


Conditions préalables :

  • Vous devez avoir installé le SDK. Vous pouvez le faire en suivant les étapes suivantes Remarque : J’ai défini un alias pour utiliser le SDK comme msdk.
  • Vous devez avoir instancié un bucket. Vous pouvez le faire en suivant les étapes suivantes Remarque : J’ai défini un compartiment appelé xlmriosx_bucket.

1er – Attribuez un nom au cluster ✍️

On attribue à une variable le nom qui aura cluster.

J’utilise la commande suivante :

CLUSTER_NAME="xlmriosx_cluster"
Entrer en mode plein écran

Quitter le mode plein écran


2ème – Créer un seau 💠

En utilisant le SDK installé avec un alias comme msdk, j’utilise la commande suivante pour créer un cluster :

msdk gcloud beta dataproc clusters create $CLUSTER_NAME \
    --optional-components=ANACONDA,JUPYTER \
    --image-version=$IMAGE_VERSION \
    --enable-component-gateway \
    --region=$REGION \
    --num-workers=$NUM_WORKERS \
    --master-machine-type=$MASTER_MACHINE_TYPE \
    --worker-machine-type=$WORKER_MACHINE_TYPE \
    --bucket=$BUCKET_NAME \
    --tags=$TAGS
Entrer en mode plein écran

Quitter le mode plein écran

Où:
$CLUSTER_NAME -> Est le nom qui aura votre cluster. Dans ce cas xlmriosx_cluster.

$IMAGE_VERSION -> Est la version de l’image que nous utiliserons. Ex. : 1.3

$REGION -> Région où vous souhaitez conserver votre compartiment de stockage. Ex. : us-central1

$NUM_WORKERS -> Est le nombre de nœuds de calcul ou de nœuds qui traiteront les données. Ex. : 2

$MASTER_MACHINE_TYPE -> Est le type de machine qui utilisera notre machine maître. Ex. : n1-standard-1

$WORKER_MACHINE_TYPE -> Est le type de machine qui utilisera notre machine de travail. Ex. : n1-standard-1

$BUCKET_NAME -> Est le nom de notre cluster où sera utilisé comme source et destination. Ex. : xlmriosx_bucket

$TAGS -> Est une balise pour savoir quel est le processus qui fait le cluster. Ex. : science des données


3ème – Vérifiez que votre bucket a bien été créé ✅

Nous allons lister les clusters pour vérifier qui a été créé :

gcloud beta dataproc clusters list --region=$REGION
Entrer en mode plein écran

Quitter le mode plein écran

SORTIR:
| NOM | WORKER_COUNT | PREEMPTIBLE_WORKER_COUNT | STATUT | ZONE | SCHEDULED_DELETE |
| — | — | — | — | — | — |
| xlmriosx_cluster | 3 | – | – | COURIR | us-central1-c |


4ème – Ouvrez le notebook Jupyter dans votre navigateur local 🕸

Consultez Afficher et accéder aux URL de la passerelle des composants pour cliquer sur les liens de la passerelle des composants dans Cloud Console afin d’ouvrir le bloc-notes Jupyter et les interfaces utilisateur JupyterLab exécutées sur le nœud principal du cluster dans votre navigateur local.


4ème – Ouvrez le notebook Jupyter dans votre navigateur local 🕸



5ème – Dites merci, donnez comme et partagez si cela a été utile/intéressant 😁🖖