Comment obtenir des données vers Amazon S3, et de S3 vers Glacier

Les organisations qui traitent de grandes quantités de données et de fichiers volumineux, et qui utilisent également le stockage Amazon S3, ont besoin d'un moyen simple de transférer des données dans S3, puis de S3 à Glacier pour l'archivage des données et d'autres fins de stockage à froid.

Mais c'est plus facile à dire qu'à faire, surtout pour les équipes informatiques qui gèrent plusieurs destinations de stockage, autorisations et autres configurations pour des centaines d'utilisateurs potentiels:

Les équipes informatiques doivent configurer manuellement l'accès au stockage à accès rare (IA) pour chaque utilisateur, ce qui augmente les risques de mauvaise configuration, d'accès non autorisé ou de placement de données "chaudes" dans un stockage froid.
Le téléchargement natif de contenu vers AWS S3 et S3 Glacier implique des limitations strictes de taille de fichier et des processus de téléchargement techniquement difficiles, tels que le téléchargement en plusieurs parties via l'interface de ligne de commande AWS (CLI).
Le téléchargement natif de contenu vers S3 et Glacier est généralement un processus manuel qui prend du temps.

Tout cela peut conduire à un enfer de gestion et d'administration pour les équipes informatiques. Cela dit, voici un bref tutoriel sur le téléchargement de données de S3 vers Glacier à l'aide de la console de gestion AWS et de l'interface CLI, ainsi que sur les raisons de cette opération. MASV est une meilleure option pour télécharger des données vers n'importe quelle version de S3.

Table des matières

Qu'est-ce qu'Amazon S3 ?
Qu'est-ce que Amazon S3 Glacier ?
Comment migrer des données vers S3 et de S3 vers Glacier ?
- Console de gestion
- Interface de ligne de commande
Gestion de S3 Glacier : Conseils et bonnes pratiques
MASV : Le moyen le plus simple de télécharger des fichiers massifs vers S3 Glacier

Intégration rapide de fichiers volumineux dans le stockage à froid dans le nuage

MASV s'intègre à de multiples plateformes de stockage à froid dans le nuage et peut automatiser les flux de travail de stockage.

Commencez gratuitement

Qu'est-ce qu'Amazon S3 ?

Amazon Service de stockage simple (S3) est un service de stockage d'objets doté d'une grande évolutivité, d'une grande sécurité, d'une grande disponibilité des données et d'une grande performance. Le stockage d'objets étant conçu pour héberger des données non structurées, le stockage Amazon S3 est populaire parmi les entreprises de M&E qui travaillent avec des tonnes d'images et de vidéos.

💡 MASV's intégrations sans code avec plusieurs grands fournisseurs de services en nuage, dont S3, permettent d'ingérer du contenu en toute liberté dans le stockage en nuage et d'automatiser le transfert et le stockage de fichiers.

Classes de stockage S3

Le S3 n'est cependant pas un monolithe : il contient plusieurs classes de stockage adaptées aux différents cas d'utilisation et aux exigences en matière de stockage de données. Ces classes de stockage comprennent

S3 Standard
S3 Intelligent-Tiering
S3 Express One Zone
S3 Standard-IA
S3 One Zone-IA
S3 Glacier Instant Retrieval
S3 Glacier Flexible Retrieval
S3 Glacier Deep Archive
Avant-postes S3

Chaque classe de stockage S3 présente des coûts et des performances différents en matière de stockage et de sortie des données, les options de stockage à accès peu fréquent (IA) et à froid (Glacier) offrant un stockage moins cher mais une sortie des données plus onéreuse (et moins performante). Certaines options de stockage Glacier nécessitent plusieurs heures, voire plusieurs jours, pour récupérer les données.

Pour une analyse des différentes classes de stockage S3, de leur coût, de leurs performances et de leur adéquation à divers cas d'utilisation - en particulier autour des classes de stockage S3 Glacier -, consultez notre article sur le thème mise en place et gestion d'une archive en nuage.

L'archivage dans le nuage : Avantages, défis et meilleures pratiques

Quelles sont les meilleures pratiques en matière d'archivage dans le nuage que vous devriez suivre ? Nous avons tout ce qu'il vous faut.

Qu'est-ce que Amazon S3 Glacier ?

Amazon S3 Glacier est un type de stockage S3 - plus précisément, un stockage à froid utilisé pour les données auxquelles on accède moins fréquemment, telles que données archivées dans le nuage.

Amazon Glacier et d'autres options de stockage à froid, telles que Google Coldline ou de Azure Blob Storage Niveau froidLes données à accès rare (IA) présentent plusieurs avantages pour le stockage des données à accès rare, tels que

Libère de l'espace dans votre stockage primaire (chaud) en supprimant les données inactives.
Coûts de stockage moins élevés que le stockage de données à chaud (fréquemment consultées).
Offre une alternative moins coûteuse que les archives physiques, tout en permettant aux entreprises de conserver leurs archives.

Mais si le stockage à froid présente de nombreux avantages, il est également important de surveiller de près les personnes de votre équipe qui ont accès à AWS Glacier.

En effet, bien que Glacier offre des coûts de stockage moins élevés que d'autres types de stockage, il peut être beaucoup plus coûteux d'extraire des données d'un stockage à froid (et cela prend plus de temps que d'extraire des données d'un stockage à chaud).

Comment migrer des données vers S3 et de S3 vers Glacier ?

Tout d'abord : Nous recommandons toujours d'utiliser l'interface de programmation ou l'infrastructure en tant que code (IaC) pour configurer et gérer votre stockage Amazon, car cela permet un meilleur contrôle et une meilleure surveillance des erreurs de configuration potentiellement dévastatrices. Il est facile, lorsque l'on utilise la console de gestion, de créer une série de problèmes en cascade à la suite d'un ou deux clics mal placés.

Mais nous sommes également conscients que les utilisateurs non techniques et les nouveaux utilisateurs peuvent préférer la console de gestion AWS.

Voici donc comment migrer vos données de S3 à Glacier à l'aide de la console de gestion.

Console de gestion

Partie 1 : Mise en place d'un S3 Bucket

Créez un compte AWS et connectez-vous à la console de gestion.
À l'aide de la barre de recherche, recherchez S3. Sélectionnez S3 des résultats.
Dans le menu de gauche, sélectionnez Buckets. Nommez votre nouveau Bucket (nous l'appellerons "MASV Archive") et sélectionnez la région de votre choix. Assurez-vous que l'option par défaut Bloquer l'accès public est sélectionné.
Activer version des seaux et (facultatif) ajouter étiquettes pour suivre les coûts de stockage ou d'autres critères.
Activer le cryptage au repos.
Sous Paramètres avancés, envisagez d'activer Verrouillage d'objet S3 (facultatif) pour éviter que des données importantes ne soient supprimées (si vous créez le seau à des fins d'archivage, par exemple).
1. Une fois le seau créé et si vous avez activé le verrouillage de l'objet, sélectionnez les détails du seau, qui ouvre la fenêtre Propriétés onglet.
2. Sélectionnez l'option Modifier dans la section Verrouillage de l'objet de l'onglet Propriétés. Cela vous permet de sélectionner des valeurs par défaut pour les données téléchargées dans le seau (par exemple, conserver les données pendant X années).

Partie 2 : Télécharger sur S3 et sélectionner votre classe de stockage

Sélectionnez votre bucket dans la console S3. A partir de là, cliquez sur le bouton Objets et sélectionnez Télécharger.

💡 Vous pouvez télécharger un objet unique d'une taille maximale de 160 Go vers S3 à l'aide de la console. Pour télécharger un fichier d'une taille supérieure à 160 Go, vous devez utiliser la CLI AWS, le SDK AWS ou l'API REST Amazon S3. Vous pouvez également utiliser MASV pour télécharger des fichiers d'une taille maximale de 5 To sur S3..

2. Choisissez l'option Ajouter des fichiers puis naviguez jusqu'aux fichiers que vous souhaitez télécharger. Le fichier apparaîtra dans la fenêtre Fichiers et dossiers de la section S3.

3. Sous le seau Propriétés vous pouvez ensuite sélectionner la classe de stockage S3 (telle que Glacier Deep Archive ou Glacier Instant Retrieval) vers laquelle vous souhaitez télécharger votre bucket.

Note: Certaines classes de stockage ont des durées minimales pour les données téléchargées ; par exemple, Glacier Deep Archive facture pendant 180 jours même si le fichier est supprimé après seulement quelques jours.

4. Vous verrez ensuite une bannière indiquant l'état du téléchargement du fichier. Une fois le téléchargement terminé, un résumé du téléchargement s'affiche.

Nous vous félicitons ! Vous avez réussi à télécharger un fichier de votre ordinateur vers S3, et de S3 vers Glacier, à l'aide de la console de gestion AWS.

Interface de ligne de commande (CLI)

Essayons maintenant de mettre en place le même processus à l'aide de la CLI AWS. Dans cet exemple, nous allons créer un bucket nommé masv-archive à l'aide de la commande Outil de ligne de commande AWS.

Ce seau suivra quelques bonnes pratiques en matière de sécurité : Accès public bloqué, versionnage activé, chiffrement au repos activé, verrouillage d'objet activé. Pour suivre cette archive à des fins de gestion de projet et de facturation, nous ajouterons une balise, projet-x. Ensuite, nous téléchargerons un petit fichier et un gros fichier du stockage local vers S3 Glacier.

Bien que la CLI AWS soit plus souple que la console de gestion en ce sens qu'elle peut prendre en charge des téléchargements de plus de 160 Go, elle est limitée à 5 Go pour un seul objet (PUT), ce qui nécessite des téléchargements en plusieurs parties.

Avant de commencer, assurez-vous que vos informations d'identification et votre région sont bien présentes dans la base de données. configuré pour la CLI AWS. Nous utiliserons le profil masv dans cet exemple.

Créons et configurons le seau. Vous ne devez le faire qu'une seule fois.

1. Créez le seau :

$ aws s3api create-bucket \\N- --bucket masv-archive \N --bucket masv-archive \N
    --bucket masv-archive \N- ---
    --region $(aws configure get region --profile masv) \N -object-lock-enabled-for-bucket \N
    --object-lock-enabled-for-bucket (verrouillage d'objet activé pour le panier) \N--Profile masv-archive
    --profil masv

Sortie :

{
    "Location" : "/masv-archive"
}

2. Bloquer l'accès au public :

$ aws s3api put-public-access-block \N- --bucket masv-archive \N
    --bucket masv-archive \N- -bucket masv-archive \N- -bucket masv-archive \N
    --public-access-block-configuration 
BlockPublicAcls=true,IgnorePublicAcls=true,BlockPublicPolicy=true,RestrictPublicBuckets=true \N- La politique d'accès à l'information de l'Union européenne est une politique d'accès à l'information de l'Union européenne.

    --profil masv

3. Activer la gestion des versions :

$ aws s3api put-bucket-versioning \N- --bucket masv-archive \N- --bucket masv-archive \N
    --bucket masv-archive \N- --versioning
    --versioning-configuration Status=Activé \N- -profile masv-archive \N--profile masv-archive
    --profile masv

4. Activez le cryptage côté serveur :

$ aws s3api put-bucket-encryption \N- --bucket masv-archive \N
    --bucket masv-archive \N- --server-side-encryption-configuration "{compatible}".
    --server-side-encryption-configuration '{
        "Rules" : [{
            "ApplyServerSideEncryptionByDefault" : {
                "SSEAlgorithm" : "AES256"
            }
        }]
    }' \
    --profil masv

5. Ajouter une balise nommée "projet-x" :

$ aws s3api put-bucket-tagging \N- --bucket masv-archive \N
    --bucket masv-archive \N- --tagging
    --tagging 'TagSet=[{Key=project-x,Value=true}]' \
    --profile masv

Le seau est maintenant prêt à stocker nos fichiers archivés. Nous allons télécharger depuis le stockage local vers notre seau avec la classe de stockage Glacier.

Le téléchargement de petits fichiers, inférieurs à 5 Go, est très simple. Il suffit d'une seule commande. Par exemple, si votre fichier local s'appelle mon-petit-fichier.mp4vous devez alors saisir ceci :

$ aws s3api put-object \N- --bucket masv-archive \N
    --bucket masv-archive \N
    --key mon-petit-fichier.mp4 \N--corps mon-petit-fichier.mp4 \N
    --body mon-petit-fichier.mp4 \N--corps mon-petit-fichier.mp4 \N
    --storage-class GLACIER \N
    --profile masv

Sortie :

{
    "ETag" : "\"e5x2a5mbpdl4e2d4c3549862b2a5f2b\"",
    "ServerSideEncryption" : "AES256",
    "VersionId" : "eixDahmmp.lreyCa8cKkkHoV80r17S8k"
}

Téléchargements multipartites via CLI

Le téléchargement de fichiers de plus de 5 Go à l'aide du CLI nécessite plusieurs étapes, car il ne permet pas de télécharger directement des fichiers de plus de 5 Go.

Au lieu de cela, vous devez le diviser en plusieurs parties sur votre ordinateur local et télécharger chaque partie individuellement. C'est ce qu'AWS appelle le téléchargement en plusieurs parties.
Dans cet exemple, nous nous contenterons d'un fichier de 10 Go qu'il suffit de diviser en deux parties.

1. Obtenir un identifiant de téléchargement. Nous avons besoin de cet identifiant pour chaque pièce que nous téléchargerons dans les étapes suivantes.

$ uploadId=$(aws s3api create-multipart-upload \n- --bucket masv-archive \n- --bucket masv-archive \n- --)
    --bucket masv-archive \N--clef mon-grand-fichier.mp4 \N
    --key mon-grand-fichier.mp4 \N--Mon-storage-class GLACIER \N--Mon-storage-class
    --storage-class GLACIER \N
    --Query UploadId \N
    --output text \N--Profile masv-archive \N
    --profile masv)

2. Téléchargez les 5 premiers Go du fichier.

$ head --bytes 1073741824 mon-grand-fichier.mp4 > mon-grand-fichier.mp4.part1
$ aws s3api upload-part \N- --bucket masv-archive \N- -bucket masv-archive \N
    --bucket masv-archive \N
    --key mon-grand-fichier.mp4 \N--Partie-numéro-de-parti 1 \N--Partie-numéro-de-parti
    --numéro de pièce 1 \N
    --body mon-grand-fichier.mp4.part1 \N--upload-id "1TPF.mp4.part1
    --upload-id "$uploadId" \N --profile masv-archive
    --profile masv

Nous devons nous souvenir de la valeur ETag dans la sortie :

{
    "ServerSideEncryption" : "AES256",
    "ETag" : "\"e5x5adm2pflee9ed4c3549862b2a5f2b\""
}

3. Téléchargez la dernière partie du fichier.

$ tail --bytes 1073741825 mon-grand-fichier.mp4 > mon-grand-fichier.mp4.part2
$ aws s3api upload-part \N- --bucket masv-archive \N- --bucket masv-archive \N
    --bucket masv-archive \N- -key mon-grand-fichier.mp4 > mon-grand-fichier.mp4.part2
    --key mon-grand-fichier.mp4 \N--Partie-numéro-de-parti 2 \N--Partie-numéro-de-parti
    --numéro de pièce 2 \N
    --body mon-grand-fichier.mp4.part2 \N--upload-id "1TP2" \N--modèle
    --upload-id "$uploadId" \N --profile masv-archive
    --profile masv

4. Finaliser le téléchargement multipartite et le nettoyer.

$ aws s3api complete-multipart-upload \N- -bucket my-archive \N
    --bucket my-archive \N--clef mon-grand-fichier.mp4 \N
    --key mon-grand-fichier.mp4 \N--modèle de téléchargement
    --upload-id $upload_id \N--multipart-upload '{"Pièces")
    --multipart-upload '{"Parts":[{"ETag":"e5x5adm2pflee9ed4c3549862b2a5f2b","Part
Number":1}, {"ETag":"5e5xda2mfpel9ede4c534986ba225b2f","PartNumber":2} ]}' \
    --profil masv
$ rm mon-grand-fichier.mp4.part1 mon-grand-fichier.mp4.part2

À ce stade, le fichier est stocké en toute sécurité dans S3 Glacier.

Comme vous pouvez le deviner, cet exemple de téléchargement en plusieurs parties n'est pas le moyen le plus simple de transférer des fichiers volumineux vers S3. Ce n'est pas non plus le moyen le plus rapide, même pour les petits fichiers.

Pour améliorer les performances, vous pouvez ajuster la taille de chaque pièce et télécharger plusieurs pièces à la fois, mais cela dépasse le cadre de cet exemple.

Le téléchargement en plusieurs parties présente toutefois d'autres avantages, comme une récupération plus rapide des erreurs et la reprise des téléchargements en pause ou interrompus.

Gestion de S3 Glacier : Conseils et bonnes pratiques

Vous avez donc téléchargé vos fichiers sur S3 Glacier. C'est génial ! Et maintenant ?

Chez MASV, nous avons beaucoup d'expérience dans la gestion d'une variété d'instances S3 et d'autres instances cloud. Voici quelques-uns de nos meilleurs conseils pour gérer S3 Glacier en particulier :

Utilisation d'un outil de téléchargement de fichiers tiers avec des intégrations S3 sans code, tel que Portails MASVLe logiciel S3, peut aider à simplifier et à accélérer le processus de téléchargement S3 tout en permettant aux utilisateurs de télécharger jusqu'à 5TB par fichier en une seule fois.
Comme indiqué, bien que l'exemple ci-dessus utilise la console de gestion, si vous disposez de l'expertise technique nécessaire, nous vous recommandons de gérer toute l'infrastructure AWS via AWS CLI ou avec IaC.
- Ces méthodes permettent de télécharger des fichiers plus volumineux.
- Nous vous recommandons d'aller un peu plus loin et de configurer votre console de gestion AWS en lecture seule. Cela permet de s'assurer qu'un seul employé ne peut pas effectuer des changements potentiellement catastrophiques sans l'approbation des autres membres de l'équipe.
- Vous pouvez élaborer des politiques de "bris de glace" pour la console en cas d'urgence.

L'idéal est d'impliquer une équipe de trois personnes lors de l'installation et de la configuration de S3 Glacier, ou au moins deux personnes (une seule personne risquerait de créer un goulot d'étranglement).
- Les équipes qui travaillent à la configuration des "cloud buckets" doivent être en mesure de vérifier le travail des autres.
- L'équipe peut être responsable de la configuration et de la gestion, ainsi que de la conformité et de la classification des données afin de s'assurer que les bonnes données sont archivées.
- Le travail de l'équipe consistera à protéger la sécurité, l'intégrité des données et les coûts.
Mettez en œuvre un processus rigoureux qui implique plusieurs parties prenantes différentes lorsque vous apportez des modifications à vos ensembles AWS.
- Cela permet d'éviter les dérives de configuration, ce qui est plus facile à faire lorsque l'on utilise la console de gestion parce que l'on peut modifier quelque chose d'un seul clic (ce qui peut entraîner des problèmes par la suite).
- Du point de vue de la conformité, toute modification de l'infrastructure doit passer par un processus de gestion des changements nécessitant une deuxième approbation.
Mettez en place un processus réglementé pour l'ingestion des données et n'autorisez que les utilisateurs autorisés à accéder à des espaces de stockage spécifiques (ne donnez pas aux utilisateurs professionnels ordinaires l'accès au stockage froid, par exemple, car ils pourraient ingérer des données chaudes, ce qui entraînerait une sortie de données inutilement coûteuse et fastidieuse).

MASV : Le moyen le plus simple de télécharger des fichiers massifs vers S3 Glacier

Parce que flux de travail de post-production exigent que les données soient sauvegardées à plusieurs endroits (comme le stockage de périphériques sur site pour le montage vidéo et le cloud pour la sauvegarde et l'archivage), la configuration de S3 Glacier (et le téléchargement de S3 vers Glacier) fait généralement partie d'un processus plus large de configuration du flux de travail d'ingestion de contenu qui implique à la fois le personnel informatique et le personnel d'exploitation.

Mais la mise en place, la configuration et la gestion de S3 Glacier dans le cadre d'un flux de travail plus large nécessitent un personnel capable de construire et de maintenir une infrastructure en nuage tout en gérant de multiples destinations de stockage et des utilisateurs avec des règles et des autorisations variées. Cela peut conduire à des erreurs de configuration potentiellement dévastatrices.
Le personnel doit également être en mesure de mettre en place des flux de travail afin de rendre les données accessibles aux personnes de l'organisation disposant d'un accès privilégié.
Même après tout cela, les téléchargements natifs vers S3 et S3 Glacier ont des limites de taille de fichier relativement strictes, peuvent être lents et nécessitent souvent une expertise technique, ce qui peut rendre les téléchargements inutilement chronophages.

Les développeurs peuvent contourner ces limitations en passant des mois à créer leur propre téléchargeur pour S3 - ou ils peuvent utiliser MASV Ingestion centralisée en tant que point central et sécurisé d'ingestion des données vers le cloud et le stockage en réseau sur site, ce qui permet aux équipes d'économiser des heures de configuration et d'installation.

Les équipes peuvent utiliser MASV pour faciliter le téléchargement des parties prenantes vers plusieurs destinations à la fois, y compris une gamme de classes de stockage S3, sans avoir à accorder aux parties prenantes un accès privilégié. Lorsque vous définissez une classe de stockage pour une intégration MASV, vous éliminez les erreurs des utilisateurs et réduisez le risque de dépassement des coûts de stockage.

S'inscrire à MASV et obtenez des données gratuites chaque mois afin d'adapter vos flux de travail en matière de stockage.

Envoyez des fichiers vidéo volumineux en toute confiance

Inscrivez-vous à MASV et commencez à envoyer et à recevoir des fichiers volumineux rapidement et en toute sécurité.