Lors de la réalisation d’audits SEO, le crawling est ultra-important. Pour les référenceurs et les propriétaires de sites, plusieurs options sont disponibles, des robots d’exploration locaux aux robots d’exploration d’entreprise (services SAAS). J’ai été extrêmement vocal au fil des ans à propos de mes outils d’exploration préférés, qui sont Screaming Frog, Sitebulb, DeepCrawl et, plus récemment, JetOctopus. Screaming Frog et Sitebulb sont généralement des robots d’exploration locaux, tandis que DeepCrawl et JetOctopus sont d’excellents et puissants robots d’exploration d’entreprise.
En faisant référence à Screaming Frog et Sitebulb, j’ai dit “généralement des robots d’exploration locaux” car il existe des moyens de pirater un robot d’exploration local dans un robot d’exploration SAAS. Par exemple, j’ai lancé plusieurs serveurs AWS, installé Screaming Frog et Sitebulb dessus, puis je peux explorer à distance. L’avantage principal est que je libère mes ressources locales pour me concentrer sur d’autres choses pendant que mes serveurs AWS font le gros du travail d’exploration.
Cela a plutôt bien fonctionné, mais il y a un nouvelle solution pour vous les bricoleurs. Il s’appelle Sitebulb Server, et il n’est plus en version bêta. Je l’utilise depuis plusieurs mois et je voulais couvrir quelques trucs et astuces dans un article de blog. Je pense que c’est une solution puissante qui peut vous faire passer du local à l’entreprise avec un budget limité.
Remarque, je ne couvrirai pas tout ce que vous devez savoir dans cet article. Au lieu de cela, je voulais couvrir son fonctionnement, quelques trucs et astuces techniques et quelques précautions. Je suis sûr que l’équipe de Sitebulb peut répondre à toutes vos autres questions (elles ont été très utiles au fil des ans et pendant que je testais la version bêta). Et vous pouvez toujours me contacter sur Twitter si vous rencontrez des problèmes. Si je peux répondre rapidement à ces questions, je le ferai.
Qu’est-ce que Sitebulb Server exactement ?
Sitebulb Server est un moyen pour vous de configurer une version spéciale de Sitebulb sur un serveur séparé, qui peut exécuter des analyses sans encombrer vos ressources locales. Avec la version standard de Sitebulb, la plupart des utilisateurs l’exécutent sur leurs ordinateurs locaux. C’est bien, mais cela peut certainement enliser votre système et consommer de la bande passante. Avec Sitebulb Server, tout se passe sur un serveur séparé. Ensuite, vous pouvez utiliser une version spéciale de Sitebulb sur votre bureau pour vous connecter à votre serveur. Et lorsque vous faites cela, vous pouvez accéder aux audits comme si vous les aviez exécutés sur votre ordinateur local. C’est génial de pouvoir faire ça.
J’ai mentionné plus tôt que vous pouvez toujours configurer un serveur distant séparé et exécuter Sitebulb (ou Screaming Frog). Je l’ai fait pendant des années et cela fonctionne plutôt bien (bien que vous ne puissiez pas exécuter plusieurs analyses en même temps). Eh bien, Sitebulb Server est un serveur d’exploration distant, mais sous stéroïdes. Il est conçu pour exécuter plusieurs analyses en même temps tout en vous permettant de vous connecter à l’une de ces analyses à partir de votre propre application de bureau. De plus, plusieurs membres de l’équipe peuvent accéder à ces analyses depuis Sitebulb Server. Donc, si vous avez une équipe de référenceurs travaillant sur un audit, alors Sitebulb Server peut être une solution de bricolage solide pour accéder aux données d’exploration de ces membres de l’équipe.
La possibilité d’explorer des sites simultanément sur un serveur distant est incroyable :
Vous pouvez accéder à votre serveur de n’importe où afin d’auditer les données de crawl comme si elles se trouvaient sur votre machine locale :
Le plus gros obstacle IMO – La configuration du serveur effrayante, déroutante, cryptique, mais souvent facile.
Tout cela sonne bien, non ? Mais quel est le plus gros obstacle ou cerceau que vous devez franchir ? Sans aucun doute, c’est la configuration du serveur. J’ai rencontré ce problème lors de la première configuration des instances AWS pour exécuter leurs propres versions de Screaming Frog et Sitebulb. C’est un processus cryptique que de nombreux référenceurs et propriétaires de sites ne connaissent pas. Ce n’est pas nécessairement difficile, mais certainement un obstacle à mon avis. Je trouve que de nombreux référenceurs n’ont pas configuré de serveurs séparés pour l’exploration et j’en connais un certain nombre qui ont rencontré des problèmes en essayant de les configurer.
Eh bien, Sitebulb à la rescousse. Patrick et Gareth de Sitebulb ont créé une excellente documentation pour configurer Sitebulb Server, comment configurer des serveurs distants (y compris AWS et Google Cloud Compute), et plus encore. Vous pouvez en savoir plus dans leur documentation d’aide, qui comprend également des clips vidéo (qui sont incroyables lorsque vous essayez de configurer des serveurs distants). Parfois une image vaut mille mots.
Par exemple, voici un clip vidéo réalisé par Sitebulb pour configurer Sitebulb Server via AWS :
Notez que j’utilise personnellement AWS, et cela a bien fonctionné, mais vous pouvez utiliser la configuration de votre choix. Vous pouvez utiliser un serveur dédié, AWS, Google Cloud Compute, un ordinateur de rechange sur votre réseau local, etc. Une fois que vous avez configuré un serveur, ce qui ne prend généralement pas longtemps, vous pouvez continuer avec la configuration de Sitebulb Server et le version de bureau spéciale de Sitebulb qui se connecte à votre serveur.
Espace disque et vCPU : Quelques points importants concernant votre serveur.
Lors de la configuration de votre serveur, il est important de vous assurer que vous disposez de suffisamment d’espace disque et de suffisamment de vCPU (ou CPU virtuels). Ils ont un impact sur la quantité de données d’exploration que vous pouvez stocker et sur le nombre de threads que vous pouvez utiliser lors de l’exploration.
Tout d’abord, les crawls prennent beaucoup de place. Et les analyses d’entreprise occupent une tonne d’espace. Assurez-vous de sélectionner suffisamment d’espace disque en fonction des types d’analyses que vous exécutez généralement. Vous trouverez ci-dessous une capture d’écran d’AWS pour la configuration du stockage.
Vient ensuite les vCPU (ou CPU virtuels). Il est important de comprendre que chaque vCPU est un thread. Donc, si votre crawl occupe 5 threads, vous aurez besoin de 5 vCPU. De plus, lorsque vous vous connectez au serveur, vous prenez également un fil. Et si vous souhaitez exécuter plusieurs crawls en même temps, vous devez également en tenir compte (encore plus de threads). Ci-dessous, vous pouvez voir que l’instance AWS a 8 vCPU (ou 8 threads pour Sitebulb Server).
Par exemple, si vous exécutez deux crawls utilisant 5 threads chacun et que vous vous connectez au serveur, vous aurez besoin de 11 threads (5 + 5 + 1). J’avais quelques questions à ce sujet, et Patrick a été formidable de me répondre avec plus d’informations. L’équipe de Sitebulb possède une mine de connaissances et ils sont incroyables pour aider les clients. Alors, vérifiez d’abord leur documentation. Si vous n’avez toujours pas de réponse, je suis sûr qu’ils peuvent vous aider à trouver la meilleure solution.
Remarques sur l’exécution simultanée d’analyses par rapport à leur mise en file d’attente.
Un autre point de confusion concerne l’exécution d’analyses simultanées. En d’autres termes, c’est ainsi que vous exécuterez plusieurs crawls en même temps. C’est quelque chose généralement réservé aux robots d’exploration d’entreprise, mais vous pouvez le faire maintenant via Sitebulb Server.
Tout d’abord, lors de la configuration de votre serveur, assurez-vous de cocher l’option permettant d’exécuter des analyses simultanées. C’est dans la section des paramètres du serveur.
Ensuite, assurez-vous d’avoir le bon paramètre pour “Type de file d’attente simultanée”. Cela devrait être défini sur “Suivant basé sur les threads disponibles” et non sur “Premier entré, premier sorti”. Si vous l’avez défini sur “Premier entré, premier sorti”, chaque crawl s’exécutera séparément (et dans l’ordre). En utilisant le “type de file d’attente simultanée”, les analyses peuvent s’exécuter en même temps tant qu’il y a suffisamment de threads (voir mes commentaires plus tôt à ce sujet).
Et pour les “threads réservés”, le nombre que vous définissez est basé sur le nombre de membres de l’équipe accédant au serveur en même temps. Si vous êtes un consultant solo, vous pouvez simplement en définir un. Si vous avez deux autres coéquipiers qui accéderont au serveur en même temps, alors vous devriez avoir ce paramètre sur trois (vous et deux coéquipiers).
L’adresse IP change lorsque vous arrêtez et redémarrez AWS
Un autre sujet déroutant est lié aux adresses IP et à vos instances AWS. Étant donné que vous payez lorsque le serveur est utilisé, vous souhaiterez généralement arrêter cette instance lorsqu’elle n’est pas utilisée. Sinon, vos coûts peuvent commencer à monter en flèche. Mais voici le hic. Lorsque vous arrêtez et redémarrez votre instance AWS, le serveur obtient un nouvelle adresse IP. Et cette adresse IP est celle que vous utilisez lorsque vous connectez votre application de bureau Sitebulb à votre serveur Sitebulb. C’est aussi ce que vous utilisez lorsque vous vous connectez à ce serveur via Remote Desktop (pour gérer le serveur à distance).
Par conséquent, vous devrez accéder rapidement à vos paramètres sur le bureau Sitebulb et modifier l’adresse IP de votre serveur. Cela ne prend pas longtemps, ce n’est pas difficile à faire, mais cela peut prêter à confusion si vous ne savez pas que vous devez le faire. En principe, vous ne pourrez pas vous connecter à votre serveur Sitebulb à moins que l’adresse IP correcte ne soit utilisée.
Et rappelez-vous également que vous devrez modifier cette adresse IP lors de la connexion via Remote Desktop. Sinon, votre connexion échouera. Vous utilisez Remote Desktop pour gérer votre serveur à distance (comme l’installation de logiciels).
Connectez-vous à plusieurs serveurs Sitebulb à partir d’une configuration Sitebulb de bureau.
Une autre fonctionnalité intéressante de Sitebulb Server est que vous pouvez vous connecter à plusieurs serveurs à partir d’une configuration de bureau. Donc, si vous avez besoin de plusieurs serveurs Sitebulb puisque vous devez exécuter plusieurs analyses en même temps, vous pouvez le faire. Lancez simplement plusieurs serveurs AWS ou serveurs dédiés, configurez Sitebulb Server sur eux, puis connectez-vous à ces serveurs à partir de votre application de bureau. Sitebulb Server est extrêmement évolutif sur ce front.
Important : ouvrez un port réseau sur votre serveur.
OK, j’ai rencontré ce problème lors de la configuration de Sitebulb Server, donc je suis sûr que d’autres le feront aussi. Sitebulb l’a également dans sa documentation, alors j’espère que vous ne le manquerez pas lors de la configuration de votre propre serveur. Mais, je voulais quand même le couvrir ici, car c’est important.
Vous serez probablement devez ouvrir un port réseau sur le pare-feu de votre serveur afin d’exécuter correctement Sitebulb Server. Les ports réseau sont généralement fermés par défaut, vous devrez donc créer une politique de pare-feu pour ouvrir le port 10401 sur votre serveur. C’est facile à faire une fois que vous savez où aller et comment le faire, mais je pense que beaucoup pourraient manquer de le mettre en place. Les didacticiels vidéo de Sitebulb couvrent cette étape en détail, je ne recréerai donc pas la roue ici. Mais encore une fois, c’est important de le faire.
Sitebulb Server – Une option puissante pour exécuter des analyses d’entreprise sans enliser votre configuration locale.
Encore une fois, je ne voulais pas essayer de tout couvrir sur Sitebulb Server dans cet article. Au lieu de cela, je voulais couvrir quelques trucs et astuces techniques que les référenceurs et les propriétaires de sites pourraient rencontrer lors de la configuration et de l’exécution de Sitebulb Server (basé sur l’utilisation de Sitebulb Server au cours des derniers mois). Personnellement, j’ai trouvé que Sitebulb Server était une solution solide pour exécuter des analyses d’entreprise avec un budget limité. Et je pense que vous aussi. Je recommande de contacter Patrick et Gareth de Sitebulb pour en savoir plus sur les options disponibles pour essayer Sitebulb Server.
GG