🔗Contenu associé
Vous pouvez trouver des dépôts liés dans :
🐱🏍GitHub
Vous pouvez me joindre en :
CV 🧾
Tout ce blog utilise shell.
Nous allons démarrer un cluster dans Dataproc où nous devons d’abord disposer du SDK Google et avoir instancié un bucket dans Cloud Storage.
Pour plus d’informations et le potentiel de cela, cliquez ici.
Conditions préalables :
- Vous devez avoir installé le SDK. Vous pouvez le faire en suivant les étapes suivantes Remarque : J’ai défini un alias pour utiliser le SDK comme msdk.
- Vous devez avoir instancié un bucket. Vous pouvez le faire en suivant les étapes suivantes Remarque : J’ai défini un compartiment appelé xlmriosx_bucket.
1er – Attribuez un nom au cluster ✍️
On attribue à une variable le nom qui aura cluster.
J’utilise la commande suivante :
CLUSTER_NAME="xlmriosx_cluster"
2ème – Créer un seau 💠
En utilisant le SDK installé avec un alias comme msdk, j’utilise la commande suivante pour créer un cluster :
msdk gcloud beta dataproc clusters create $CLUSTER_NAME \
--optional-components=ANACONDA,JUPYTER \
--image-version=$IMAGE_VERSION \
--enable-component-gateway \
--region=$REGION \
--num-workers=$NUM_WORKERS \
--master-machine-type=$MASTER_MACHINE_TYPE \
--worker-machine-type=$WORKER_MACHINE_TYPE \
--bucket=$BUCKET_NAME \
--tags=$TAGS
Où:
$CLUSTER_NAME -> Est le nom qui aura votre cluster. Dans ce cas xlmriosx_cluster.
$IMAGE_VERSION -> Est la version de l’image que nous utiliserons. Ex. : 1.3
$REGION -> Région où vous souhaitez conserver votre compartiment de stockage. Ex. : us-central1
$NUM_WORKERS -> Est le nombre de nœuds de calcul ou de nœuds qui traiteront les données. Ex. : 2
$MASTER_MACHINE_TYPE -> Est le type de machine qui utilisera notre machine maître. Ex. : n1-standard-1
$WORKER_MACHINE_TYPE -> Est le type de machine qui utilisera notre machine de travail. Ex. : n1-standard-1
$BUCKET_NAME -> Est le nom de notre cluster où sera utilisé comme source et destination. Ex. : xlmriosx_bucket
$TAGS -> Est une balise pour savoir quel est le processus qui fait le cluster. Ex. : science des données
3ème – Vérifiez que votre bucket a bien été créé ✅
Nous allons lister les clusters pour vérifier qui a été créé :
gcloud beta dataproc clusters list --region=$REGION
SORTIR:
| NOM | WORKER_COUNT | PREEMPTIBLE_WORKER_COUNT | STATUT | ZONE | SCHEDULED_DELETE |
| — | — | — | — | — | — |
| xlmriosx_cluster | 3 | – | – | COURIR | us-central1-c |
4ème – Ouvrez le notebook Jupyter dans votre navigateur local 🕸
Consultez Afficher et accéder aux URL de la passerelle des composants pour cliquer sur les liens de la passerelle des composants dans Cloud Console afin d’ouvrir le bloc-notes Jupyter et les interfaces utilisateur JupyterLab exécutées sur le nœud principal du cluster dans votre navigateur local.
4ème – Ouvrez le notebook Jupyter dans votre navigateur local 🕸
5ème – Dites merci, donnez comme et partagez si cela a été utile/intéressant 😁🖖