Des informations supplémentaires sur les données

January 8, 2018 | Author: Anonymous | Category: Ingénierie, Informatique, Databases

Short Description

Download Des informations supplémentaires sur les données...

Description

Article technique SQL Server

Auteur : Paul S. Randal (SQLskills.com) Relecteur technique : Alexandru Chirica, Arkadi Brjazovski, Prem Mehra, Joanna Omel, Mike Ruthruff, Robin Dhamankar

Date de publication : octobre 2008 S'applique à : SQL Server 2008

Résumé : Ce livre blanc décrit la fonctionnalité FILESTREAM de SQL Server 2008, qui permet le stockage et l'accès aux données BLOB en associant SQL Server 2008 et le système de fichiers NTFS. Il couvre les options de stockage d'objets BLOB, la configuration Windows et SQL Server pour utiliser des données FILESTREAM, les considérations relatives à l'association de FILESTREAM avec d'autres fonctionnalités et des informations sur l'implémentation, telles que le partitionnement et les performances. Ce livre blanc est destiné aux architectes, aux professionnels de l'informatique, ainsi qu'aux administrateurs de bases de données chargés d'évaluer ou d'implémenter FILESTREAM. Il suppose que le lecteur est familiarisé avec Windows et SQL Server et possède au moins une connaissance rudimentaire des concepts de base de données, tels que les transactions.

Introduction Dans la société actuelle, les données sont générées à des taux incroyables et doivent souvent être enregistrées et accessibles de manière contrôlée et efficace. Il existe différentes technologies pour cela et le choix de la technologie dépend souvent de la nature des données qui sont stockées – structurées, semi-structurées ou non structurées : 

Les données structurées sont des données qui peuvent facilement être enregistrées dans un schéma relationnel, tel que celui qui représente les données de ventes pour une société. Elles peuvent être stockées dans une base de données avec une table d'informations pour les produits vendus par la société, une autre avec des informations sur les clients, ainsi que d'autres informations sur les ventes des produits aux clients. Les données sont accessibles et manipulées à l'aide d'un langage de requête complet tel que Transact-SQL.





Les données semi-structurées sont des données conformes à un schéma faible, mais ne se prêtent pas au stockage dans un ensemble de tables de base de données, telles que les données où chaque point de données peut avoir des attributs radicalement différents. Ces données sont souvent stockées avec le type de données XML du logiciel de base de données Microsoft® SQL Server® et accessibles à l'aide d'un langage de requête basé sur les éléments, tel que XQuery. Les données non structurées peuvent ne pas avoir de schéma du tout (comme une partie des données chiffrées) ou peuvent représenter un volume important de données binaires (plusieurs Mo ou Go) qui peuvent sembler ne pas avoir de schéma, mais qui ont en réalité un schéma très simple lié à elles, par exemple les fichiers image, les flux vidéo ou les clips audio. Les données binaires dans ce cas signifient que les données peuvent avoir n'importe quelle valeur, et non pas uniquement celles qui peuvent être entrées au clavier. Ces valeurs de données sont généralement appelées objets blob.

Ce livre blanc décrit la fonctionnalité FILESTREAM de SQL Server 2008, qui permet le stockage et l'accès aux données BLOB en associant SQL Server 2008 et le système de fichiers NTFS. Il couvre la fonctionnalité FILESTREAM, les options de stockage d'objets BLOB, la configuration du système d'exploitation Windows® et de SQL Server pour utiliser des données FILESTREAM, les considérations relatives à l'association de FILESTREAM avec d'autres fonctionnalités et des informations sur l'implémentation, telles que le partitionnement et les performances.

Options de stockage d'objets BLOB Lorsque des données structurées et semi-structurées peuvent facilement être stockées dans une base de données relationnelle, le choix de l'emplacement de stockage des données non structurées ou des données BLOB est plus compliqué. Lorsque vous décidez de l'emplacement de stockage des données BLOB, prenez connaissance des spécifications suivantes : 



2

Performances : la façon dont les données vont être utilisées est un facteur essentiel. Si l'accès en continu est nécessaire, le stockage des données dans une base de données SQL Server peut être plus lent que le stockage externe dans un emplacement tel que le système de fichiers NTFS. Avec le stockage du système de fichiers, les données sont lues dans le fichier et transmises à l'application cliente (directement ou avec mise en mémoire tampon supplémentaire). Lorsque les données blob sont stockées dans une base de données SQL Server, elles doivent d'abord être lues dans la mémoire de SQL Server (le pool de mémoires tampons), puis être retransmises via une connexion cliente à l'application cliente. Cela signifie non seulement que les données passent par une étape de traitement supplémentaire, mais également que la mémoire de SQL Server est inutilement « polluée » par des données BLOB, ce qui peut entraîner d'autres problèmes de performances pour les opérations SQL Server. Sécurité : les données sensibles dont l'accès doit être étroitement géré peuvent être stockées dans une base de données et la sécurité peut être contrôlée en utilisant les contrôles d'accès SQL Server habituels. Si les mêmes données sont stockées dans le système de fichiers, différentes méthodes de sécurité, telles que les listes de contrôle d'accès (ACL), doivent être implémentées.









 

Taille des données : selon l'étude mentionnée plus loin dans ce livre blanc, les objets blob d'une taille inférieure à 256 kilo-octets (Ko) (tels que des icônes de widget) sont mieux adaptés au stockage dans une base de données, et les objets blob d'une taille supérieure à 1 Mo sont plus adaptés au stockage en dehors de la base de données. Pour ceux dont la taille est comprise entre 256 Ko et 1 Mo, la solution de stockage la plus efficace dépend du rapport lecture/écriture des données et de la fréquence de « remplacement ». Le stockage des données BLOB uniquement dans la base de données (par exemple, en utilisant le type de données varbinary (max)) est limité à 2 gigaoctets (Go) par BLOB. Accès du client : le protocole utilisé par le client pour accéder aux données SQL Server, tel qu'ODBC, peut ne pas être adapté aux applications telles que les fichiers volumineux de flux vidéo. Cela peut nécessiter le stockage des données dans le système de fichiers. Sémantique transactionnelle : si les données BLOB possèdent des données structurées associées qui sont stockées dans la base de données, les modifications apportées aux données BLOB doivent respecter la sémantique transactionnelle de façon à ce que les deux ensembles de données restent synchronisés. Par exemple, si une transaction crée des données BLOB et une ligne dans une table de base de données, puis annule l'opération, la création des données BLOB doit être annulée, ainsi que la création de la ligne dans la table. Cela peut s'avérer très complexe si les données BLOB sont stockées dans le système de fichiers sans lien vers la base de données. Fragmentation des données : les mises à jour et remplacements fréquents entraînent le déplacement des objets blob, dans les fichiers de base de données SQL Server ou dans le système de fichiers, en fonction de l'emplacement de stockage des données. Dans ce cas, si les objets blob sont volumineux, ils peuvent être fragmentés. (c.-à-d., ne pas être stockés dans une partie contiguë du disque). Cette fragmentation est plus aisément traitée à l'aide du système de fichiers qu'à l'aide de SQL Server. Simplicité de gestion : une solution utilisant différentes technologies qui ne sont pas intégrées sera plus complexe et coûteuse à gérer qu'une solution intégrée. Coût : le coût de la solution de stockage varie selon la technologie utilisée.

Les explications ci-dessus concernant la taille et la fragmentation reposent sur le document Microsoft Research intitulé Utiliser ou non des objets blob : stockage d'objets blob dans une base de données ou dans un système de fichiers ? (en anglais) (Gray, Van Ingen et Sears). Le document comporte davantage d'informations sur les compromis impliqués et peut être téléchargé à l'adresse suivante : http://research.microsoft.com/research/pubs/view.aspx?msr_tr_id=MSR-TR-2006-45 Il existe une multitude de solutions pour le stockage d'objets blob, chacune ayant des avantages et des inconvénients en fonction des spécifications ci-dessus. Le tableau suivant compare trois options communes pour stocker des données blob, notamment FILESTREAM, dans SQL Server 2008.

Point de comparaison Taille maximale des objets blob Performances de diffusion en continu des objets blob Sécurité Coût par Go

3

Serveur de fichiers/ Système de fichiers Taille du volume NTFS

Solution de stockage SQL Server (avec varbinary(max) 2 Go – 1 octet

Excellente

Médiocre

Excellente

Listes de contrôle d'accès manuelles Faible

Intégrées

Intégrées + automatiques Faible

Élevé

FILESTREAM Taille du volume NTFS

Solution de stockage Point de Serveur de fichiers/ SQL Server FILESTREAM comparaison Système de fichiers (avec varbinary(max) Simplicité de gestion Difficile Intégrée Intégrée Intégration avec les Difficile Cohérence au niveau Cohérence au niveau données structurées des données des données Développement et Plus complexes Plus simples Plus simples déploiement d'applications Récupération suite Excellente Médiocre Excellente à la fragmentation des données Performances de Excellentes Modérées Médiocres petites mises à jour fréquentes Tableau 1 : Comparaison des technologies de stockage d'objets blob avant SQL Server 2008 FILESTREAM est la seule solution qui assure la cohérence transactionnelle des données structurées et non structurées, ainsi que la gestion intégrée, la sécurité, un faible coût et d'excellentes performances de diffusion en continu. Cela est possible en stockant les données structurées dans les fichiers de base de données et les données BLOB non structurées dans le système de fichiers, tout en maintenant la cohérence transactionnelle entre les deux banques de données. Des informations supplémentaires sur l'architecture FILESTREAM sont disponibles dans la section « Présentation de FILESTREAM » plus loin dans ce document.

Présentation de FILESTREAM FILESTREAM est une nouvelle fonctionnalité de SQL Server 2008. Elle permet le stockage des données structurées dans la base de données et des données non structurées associées (c.-à-d., des données BLOB) directement dans le système de fichiers NTFS. Vous accédez ensuite aux données BLOB via les API de diffusion en continu Win32® hautes performances, au lieu de devoir subir la diminution des performances liée à l'accès aux données via SQL Server. FILESTREAM assure la cohérence transactionnelle entre les données structurées et non structurées à tout moment, en permettant même la récupération jusqu'à une date et heure des données FILESTREAM à l'aide des sauvegardes de fichiers journaux. La cohérence est gérée automatiquement par SQL Server et ne requiert pas de logique personnalisée dans l'application. Le mécanisme FILESTREAM y parvient en conservant l'équivalent d'un journal des transactions de la base de données, qui possède de nombreuses conditions de gestion identiques (décrites plus en détail dans la section « Configuration du garbage collection FILESTREAM » plus loin dans ce document). La combinaison du journal des transactions de la base de données et du journal des transactions FILESTREAM permet aux données FILESTREAM et aux données structurées d'être récupérées d'un point de vue transactionnel. Au lieu d'être d'un type de données entièrement nouveau, FILESTREAM est un attribut de stockage du type de données varbinary (max) existant. FILESTREAM conserve la majorité du comportement du type de données varbinary (max). Cette fonctionnalité modifie la façon dont les données BLOB sont stockées; dans le système de fichiers plutôt que dans les fichiers de données SQL Server. FILESTREAM étant implémenté en tant que colonne varbinary (max) et intégré directement dans le moteur de base de données, la plupart des fonctions et outils d'administration SQL Server fonctionnent sans changement pour les données FILESTREAM.

4

Il est à noter que le comportement du type de données régulier varbinary (max) demeure inchangé dans SQL Server 2008, y compris la limite de taille de 2 Go. L'ajout de l'attribut FILESTREAM rend une colonne varbinary (max) essentiellement illimitée en taille (en réalité la taille est limitée à celle du volume NTFS sous-jacent). Les données FILESTREAM sont stockées dans le système de fichiers dans un ensemble de répertoires NTFS appelés conteneurs de données, qui correspondent aux groupes de fichiers spéciaux dans la base de données. L'accès transactionnel aux données FILESTREAM est contrôlé par SQL Server et un pilote de filtre du système de fichiers qui est installé dans le cadre de l'activation de FILESTREAM au niveau Windows. L'utilisation d'un pilote de filtre du système de fichiers permet également d'avoir accès à distance aux données FILESTREAM dans un chemin d'accès UNC. SQL Server gère un lien des tris de lignes de la table dans les fichiers FILESTREAM associés. Cela signifie que la suppression ou l'affectation d'un nouveau nom à des fichiers FILESTREAM directement via le système de fichiers provoque l'endommagement de la base de données. L'utilisation de FILESTREAM requiert plusieurs modifications de schéma apportées aux tables de données (le plus souvent la condition que chaque ligne doit posséder un ID de ligne unique) ; elle comprend également des restrictions lorsqu'elle est combinée avec d'autres fonctionnalités (telles que l'incapacité de chiffrer des données FILESTREAM). Elles sont toutes décrites en détail dans la section « Configuration de SQL Server pour FILESTREAM » plus loin dans ce livre blanc. Les données FILESTREAM sont accessibles et manipulées de deux manières : avec le modèle de programmation standard Transact-SQL ou via les API de diffusion en continu Win32. Les deux mécanismes sont entièrement compatibles avec les transactions et prennent en charge la plupart des opérations DML, notamment insertion, mise à jour, suppression et sélection. Les données FILESTREAM sont également prises en charge pour les opérations de maintenance, telles que la sauvegarde, la restauration et le contrôle de cohérence. L'exception principale est que les mises à jour partielles des données FILESTREAM ne sont pas prises en charge. Toute mise à jour d'une valeur de données FILESTREAM se traduit par la création d'une nouvelle copie du fichier de données FILESTREAM. L'ancien fichier est supprimé de façon asynchrone, tel que le décrit la section « Configuration du garbage collection FILESTREAM » plus loin dans ce document.

Modèle de programmation double pour accéder aux données BLOB Une fois les données stockées dans une colonne FILESTREAM, elles sont accessibles en utilisant des transactions Transact-SQL ou des API Win32. Cette section fournit des informations générales sur les modèles de programmation et leur utilisation. Accès Transact-SQL À l'aide de Transact-SQL, les données FILESTREAM peuvent être insérées, mises à jour et supprimées, comme suit : 



5

Les champs FILESTREAM peuvent être préremplis à l'aide d'une opération d'insertion (avec une valeur vide ou une petite valeur non NULL). Toutefois, une grande quantité de données est diffusée en continu plus efficacement à l'aide des interfaces Win32. Lorsque vous mettez à jour des données FILESTREAM, vous modifiez les données BLOB sousjacentes dans le système de fichiers. Lorsqu'un champ FILESTREAM a la valeur NULL, les données BLOB associées au champ sont supprimées. Les mises à jour segmentées TransactSQL, implémentées comme UPDATE.Write(), ne peuvent pas être utilisées pour effectuer des mises à jour partielles des données FILESTREAM.



Lorsqu'une ligne qui contient des données FILESTREAM est supprimée ou une table qui contient des données FILESTREAM est supprimée ou tronquée, les données BLOB sous-jacentes dans le système de fichiers sont également supprimées. La suppression physique réelle des fichiers FILESTREAM est un processus en arrière-plan asynchrone, tel que l'explique la section « Configuration du garbage collection FILESTREAM » plus loin dans ce document.

Pour plus d'informations et des exemples d'utilisation de Transact-SQL pour accéder aux données FILESTREAM, consultez la rubrique « Gestion des données FILESTREAM avec Transact-SQL » de la documentation en ligne de SQL Server 2008 (http://msdn.microsoft.com/fr-fr/library/cc645962.aspx). Accès en continu Win32 Pour autoriser l'accès du système de fichiers transactionnel aux données FILESTREAM, une nouvelle fonction intrinsèque, GET_FILESTREAM_TRANSACTION_CONTEXT(), fournit le jeton qui représente la transaction actuelle à laquelle la session est associée. La transaction doit avoir été démarrée mais pas encore validée ou annulée. En obtenant un jeton, l'application lie les opérations de diffusion en continu du système de fichiers FILESTREAM avec une transaction commencée. La fonction retourne NULL si aucune transaction n'est explicitement commencée. Un jeton doit être obtenu pour accéder aux fichiers FILESTREAM. Dans FILESTREAM, le moteur de base de données contrôle l'espace de noms du système de fichiers physique BLOB. Une nouvelle fonction intrinsèque, PathName, fournit le chemin UNC logique de l'objet blob qui correspond à chaque champ FILESTREAM dans la table. L'application utilise ce chemin logique pour obtenir le descripteur Win32 et opérer sur les données BLOB en utilisant des interfaces de système de fichiers Win32 ordinaires. La fonction retourne NULL si la valeur de la colonne FILESTREAM est NULL. Elle souligne le fait qu'un fichier FILESTREAM doit être précréé pour pouvoir être accessible au niveau Win32. Cette opération est réalisée de la façon décrite précédemment. La prise en charge de la diffusion en continu Win32 fonctionne dans le contexte d'une transaction SQL Server. Après avoir obtenu un jeton de transaction et un chemin d'accès, l'API Win32 OpenSqlFilestream permet d'obtenir un descripteur de fichier Win32. Sinon, l'API managée SqlFileStream peut être utilisée. Ce descripteur peut ensuite être utilisé par les interfaces de diffusion en continu Win32, telles que ReadFile() et WriteFile(), afin d'accéder au fichier et de le mettre à jour au moyen du système de fichiers. De nouveau, notez que les fichiers FILESTREAM ne peuvent pas être directement supprimés et ne peuvent pas être renommés dans le système de fichiers. Sinon la cohérence au niveau du lien sera perdue entre la base de données et le système de fichiers (c.-à-d., la base de données est endommagée). L'accès au système de fichiers FILESTREAM modélise une instruction Transact-SQL en utilisant l'ouverture et la fermeture de fichier. L'instruction démarre lorsqu'un descripteur de fichier est ouvert et se termine lorsque le descripteur est fermé. Par exemple, lorsqu'un descripteur d'écriture est fermé, tout déclencheur AFTER possible enregistré sur la table est activé comme si une instruction UPDATE était exécutée. Pour plus d'informations et des exemples d'utilisation des API Win32 pour accéder aux données FILESTREAM, consultez la rubrique « Gestion des données FILESTREAM avec Win32 » de la documentation en ligne de SQL Server 2008 (http://msdn.microsoft.com/fr-fr/library/cc645940.aspx).

6

Sémantique transactionnelle Tous les descripteurs de fichiers doivent être fermés avant que la transaction ne soit validée ou annulée. Si un descripteur est laissé ouvert lorsqu'une validation de transaction se produit, la validation échoue et les lectures et écritures supplémentaires sur le descripteur provoquent une erreur, comme prévu. La transaction doit être restaurée. De même, si la base de données ou l'instance du moteur de base de données s'arrête, tous les descripteurs ouverts sont invalidés. Lorsqu'un fichier FILESTREAM est ouvert pour une opération d'écriture, un nouveau fichier de longueur nulle est créé et la valeur des données FILESTREAM mise à jour complète est écrite. L'ancien fichier est supprimé de façon asynchrone, tel que le décrit la section « Configuration du garbage collection FILESTREAM » plus loin dans ce document. Avec FILESTREAM, lors de la validation, le moteur de base de données garantit la durabilité des transactions pour les données BLOB FILESTREAM modifiées à partir de l'accès en continu au système de fichiers. Cette opération est réalisée en utilisant le journal FILESTREAM indiqué précédemment et un vidage explicite du contenu du fichier FILESTREAM sur le disque. Sémantique d'isolation La sémantique d'isolation est gouvernée par les niveaux d'isolation des transactions du moteur de base de données. Lorsque les données FILESTREAM sont accessibles via des API Win32, seul le niveau d'isolation validé en lecture est pris en charge. L'accès Transact-SQL autorise également les niveaux d'isolation sérialisable et de lecture renouvelée. En outre, avec l'accès Transact-SQL, les lectures erronées sont autorisées par le niveau d'isolation non validé en lecture, ou l'indicateur de requête NOLOCK, mais cet accès n'affiche pas les mises à jour en cours d'exécution des données FILESTREAM. Les opérations d'ouverture d'accès au système de fichiers n'attendent pas de verrous. Au lieu de cela, les opérations d'ouverture échouent immédiatement si elles ne peuvent pas accéder aux données à cause de l'isolation des transactions. Les appels API de diffusion en continu échouent avec ERROR_SHARING_VIOLATION si l'opération d'ouverture ne peut se poursuivre à cause de la violation d'isolation. Mises à jour partielles Pour permettre les mises à jour partielles, l'application peut publier un contrôle FS de périphérique (FSCTL_SQL_FILESTREAM_FETCH_OLD_CONTENT) afin d'extraire l'ancien contenu dans le fichier auquel le descripteur ouvert fait référence. Il est également possible d'utiliser l'API managée SqlFileStream à l'aide de l'indicateur ReadWrite. Cela déclenchera une copie de l'ancien contenu côté serveur, tel que cela est indiqué précédemment. Pour de meilleures performances d'application et afin d'éviter des dépassements de délais d'attente potentiels lorsque vous travaillez avec de très grands fichiers, vous devez utiliser des E/S asynchrones. Si le FSCTL est publié après l'écriture dans le descripteur, la dernière opération d'écriture persistera et les écritures antérieures effectuées dans le descripteur seront perdues. Pour plus d'informations sur les mises à jour partielles, consultez la rubrique « FSCTL_SQL_FILESTREAM_FETCH_OLD_CONTENT » de la documentation en ligne de SQL Server 2008 (http://technet.microsoft.com/fr-fr/library/cc627407.aspx).

7

Double écriture à partir de clients distants L'accès du système de fichiers distant aux données FILESTREAM est activé sur le protocole SMB (Block Server Message). Si le client est distant, la mise en cache des opérations d'écriture dépend des options spécifiées et de l'API utilisée. Par exemple, la valeur par défaut pour les API en code natif consiste à exécuter la double écriture, alors que pour les API managées, la valeur par défaut consiste à utiliser la mise en mémoire tampon. Cette différence reflète les commentaires des clients sur les différentes API et leur utilisation dans les versions CTP (Community Technology Preview) de SQL Server 2008. Nous recommandons que les applications qui s'exécutent sur des clients distants consolident les petites opérations d'écriture (par la mise en mémoire tampon) afin d'effectuer moins d'opérations d'écriture avec une taille de données supérieure. En outre, si la mise en mémoire tampon est utilisée, un vidage explicite doit être effectué par le client avant que la transaction ne soit validée. La création de vues mappées en mémoire (E/S mappées en mémoire) à l'aide d'un descripteur FILESTREAM n'est pas prise en charge. Si le mappage mémoire est utilisé pour les données FILESTREAM, le moteur de base de données ne peut pas garantir la cohérence et la durabilité des données, ni l'intégrité de la base de données.

À quel moment utiliser FILESTREAM Bien que la technologie FILESTREAM dispose de nombreuses fonctionnalités attrayantes, elle n'est pas optimale dans toutes les situations. Comme indiqué précédemment, la taille des données BLOB et les modèles d'accès sont des facteurs importants lorsque vous décidez si vous allez stocker les données BLOB entièrement dans la base de données ou en utilisant FILESTREAM. La taille affecte les éléments suivants : 



Efficacité avec laquelle les données BLOB sont accessibles à l'aide de l'un des mécanismes de stockage. Comme indiqué précédemment, l'accès en continu des données BLOB est plus efficace avec FILESTREAM, mais les mises à jour partielles sont (potentiellement) plus lentes. Efficacité de sauvegarde des données combinées structurées et BLOB à l'aide de l'un des mécanismes de stockage. Une sauvegarde qui associe les fichiers de base de données SQL Server et un grand nombre de fichiers FILESTREAM sera plus lente qu'une sauvegarde des fichiers de base de données SQL Server de taille totale équivalente. Cela est causé par la charge supplémentaire de sauvegarde de chaque fichier NTFS (un pour chaque valeur de données FILESTREAM). Cette surcharge est plus notable lorsque les fichiers FILESTREAM sont plus petits (car la surcharge de temps représente un plus grand pourcentage de la durée totale de la sauvegarde par Mo de données).

Par exemple, le graphique suivant indique le débit relatif des lectures locales de différentes tailles de données BLOB à l'aide de varbinary (max), FILESTREAM dans Transact-SQL et FILESTREAM dans NTFS. Vous constatez (sur la ligne bleue) que l'accès Win32 des données FILESTREAM devient plusieurs fois plus rapide que l'accès Transact-SQL des données varbinary (max) à mesure que la taille des données augmente. Notez que les mesures de débit sont en mégabits par seconde (Mbit/s).

8

Illustration 1 : Performances de lecture de différentes tailles de BLOB Les chiffres NTFS incluent le temps nécessaire pour démarrer une transaction, pour extraire le chemin d'accès et le contexte de transaction de SQL Server et pour ouvrir un descripteur Win32 dans les données FILESTREAM. Chaque test a été effectué sur le même ordinateur avec quatre cœurs de processeur et un pool de mémoires tampons SQL Server à chaud. L'autre facteur à prendre en considération consiste à savoir si le client ou le niveau intermédiaire peut être écrit (ou modifié) de façon à utiliser les API de diffusion en continu Win32, ainsi qu'un accès normal à SQL Server. Si ce n'est pas le cas, FILESTREAM n'est pas nécessaire, car les meilleures performances sont obtenues avec les API de diffusion en continu Win32.

Configuration de Windows pour FILESTREAM Comme avec tout autre déploiement, avant de déployer une application qui utilise FILESTREAM, il est important de préparer le serveur Windows qui va héberger la base de données SQL Server et les conteneurs de données FILESTREAM associés. Cette section explique comment configurer le matériel de stockage et le système de fichiers NTFS en prévision de l'utilisation de FILESTREAM. Elle explique ensuite comment activer FILESTREAM au niveau Windows.

Sélection du matériel et configuration Une des causes les plus courantes de charge de travail qui ne fonctionne pas correctement est une configuration matérielle qui n'est pas adaptée. Parfois, la mémoire est insuffisante, ce qui entraîne une surexploitation dans le pool de mémoires tampons de SQL Server, et parfois cela est simplement dû au fait que le matériel de stockage ne possède pas la fonction de débit d'E/S demandée par la charge de travail. Pour les applications qui utilisent FILESTREAM pour la diffusion en continu hautes performances de données BLOB à l'aide des API Win32, le choix et la configuration du matériel de stockage sont essentiels.

9

Les sections suivantes décrivent certaines des meilleures pratiques de sélection et disposition du stockage. Pour une présentation plus approfondie, consultez le livre blanc TechNet relatif à la conception du stockage de base de données physique (http://www.microsoft.com/technet/prodtechnol/sql/2005/ physdbstor.mspx). Après avoir conçu une disposition optimale, il est prudent de réaliser des tests de charge pour valider les performances du sous-système d'E/S. Ce sujet est abordé en détail dans l'article TechNet sur les meilleures pratiques SQL Server intitulé « Meilleures pratiques pour les E/S de prédéploiement » (http://www.microsoft.com/technet/prodtechnol/sql/bestpractice/pdpliobp.mspx).

Disposition du stockage physique Veillez à prendre en compte la charge de travail anticipée sur un conteneur de données FILESTREAM lorsque vous déterminez son emplacement, ainsi que les charges de travail sur tous les conteneurs de données colocalisés ou fichiers SQL Server. Chaque conteneur de données FILESTREAM devra peutêtre se trouver sur son propre volume, car le fait d'avoir plusieurs conteneurs de données avec un nombre élevé de charges de travail sur un seul volume peut provoquer une contention. Le point à retenir ici est que sans tenir compte des charges de travail impliquées, le fait de tout placer sur un seul volume peut entraîner des problèmes de performances. Le degré de séparation nécessaire varie d'un client à l'autre. Il est également possible de créer un schéma de table dans SQL Server, qui permet l'équilibrage de la charge brute des données FILESTREAM entre plusieurs volumes. Cette opération est décrite dans la section « Équilibrage de la charge des données FILESTREAM ».

Option de niveau RAID Les avantages liés à l'utilisation de la technologie RAID sont connus, et on a déjà beaucoup écrit sur la sélection d'un niveau RAID adapté aux besoins de l'application. C'est pourquoi, ce livre blanc n'essaie pas de reprendre toutes ces informations. Comme mentionné précédemment, le livre blanc « Conception du stockage de base de données physique » comporte une excellente section sur les niveaux RAID et la sélection du niveau RAID. Ce qui suit est une simple présentation des facteurs à prendre en compte. Les niveaux RAID diffèrent de plusieurs façons, plus particulièrement en termes de performances de lecture/écriture, de résilience aux défaillances et de coût. Par exemple, RAID 5 est relativement faible coût, il peut gérer l'échec d'un seul lecteur de la baie RAID, et peut ne pas être adapté aux charges de travail avec un nombre d'écritures élevé. En revanche, RAID 10 fournit d'excellentes performances en lecture et en écriture. Ce niveau permet de gérer plusieurs échecs de lecteur (selon le degré de mise en miroir impliqué), mais il est plus coûteux, étant donné qu'au moins la moitié des lecteurs de la baie RAID sont redondants. Voici les trois facteurs principaux impliqués dans la sélection d'un niveau RAID. Le choix du niveau RAID peut être différent pour le volume sur lequel chaque base de données utilisateur est stockée, et peut même être différent entre le volume de stockage des fichiers de données et le volume de stockage des fichiers journaux d'une seule base de données. Si la charge de travail comporte de la diffusion en continu hautes performances de données FILESTREAM, le choix immédiat peut être de faire en sorte que le conteneur de données FILESTREAM utilise le niveau RAID qui offre les performances de lecture les plus élevées. Toutefois, ce choix peut ne pas fournir un niveau élevé de résilience aux défaillances. Par ailleurs, le choix immédiat peut être d'utiliser le même niveau RAID que pour les autres volumes qui stockent les données de la base de données. Cependant, il est possible qu'il ne fournisse pas les niveaux de performances requis par la charge de travail. Pour ce livre blanc, le point à souligner est qu'un choix de niveau RAID conscient doit être effectué pour les volumes de conteneur de données FILESTREAM après avoir évalué les compromis impliqués. Il ne faut pas prendre une décision en fonction d'un seul facteur.

10

Choix de l'interface du lecteur Dans les bases de données classiques liées à des données BLOB, la taille totale des données BLOB peut être plusieurs fois supérieure à la taille totale des données structurées. Lors de l'implémentation d'une solution impliquant des données FILESTREAM stockées dans des volumes distincts, vous souhaiterez peut-être utiliser le stockage le moins cher, tel que IDE ou SATA (appelé simplement « SATA » ci-après), plutôt qu'un stockage SCSI plus onéreux. Avant de faire ce choix, vous devez comprendre les compromis impliqués. Cette section fournit une présentation des différentes caractéristiques de SCSI et IDE/SATA pour prendre une décision en toute connaissance de cause en fonction des performances, de la fiabilité et du coût. Capacité et performances Les lecteurs SATA sont susceptibles d'avoir une capacité plus élevée que les lecteurs SCSI, mais ils ont une vitesse de rotation (tr/min) moins élevée que les lecteurs SCSI. Il existe des lecteurs SATA à 10 000 tr/min, mais la plupart sont à 5 400 ou 7 200 tr/min. Des lecteurs SCSI hautes performances sont disponibles de 10 000 à 15 000 tr/min. Bien que le tr/min puisse être une mesure de comparaison utile, les deux chiffres qui doivent réellement être utilisés pour effectuer une comparaison sont la latence (le délai d'attente jusqu'à ce que la tête du disque soit à la position appropriée sur la surface du disque) et les taux de transfert moyens (volume de données pouvant être transféré vers/à partir de la surface du disque par seconde). Il est également important que les lecteurs soient en mesure de traiter des modèles complexes d'E/S efficacement. Lorsque vous choisissez des lecteurs, vérifiez que les lecteurs SATA prennent en charge NCQ (Native Command Queue) et les lecteurs SCSI prennent en charge CTQ (Command Tag Queue), ce qui leur permet de traiter plusieurs E/S entrelacées pour offrir de meilleures performances. En résumé, les lecteurs SCSI ont généralement une meilleure latence et des taux de transfert plus élevés et fournissent ainsi de meilleures performances de diffusion en continu, mais à un coût plus élevé. Fiabilité SQL Server s'appuie sur un tri des écritures et une durabilité garantis pour fournir fiabilité et récupération via son mécanisme de journal WAL (Write-Ahead Log). Pour plus d'informations sur ces spécifications d'E/S, consultez le livre blanc TechNet « Notions de base sur les E/S SQL Server » (http://www.microsoft.com/technet/prodtechnol/sql/2005/iobasics.mspx). Pour la fiabilité, SCSI est généralement plus adapté que SATA, car cette technologie prend en charge l'écriture forcée des données sur le disque contrairement à SATA. Cette opération s'effectue par prise en charge de la double écriture, où les données à écrire ne sont pas du tout mises en cache, ou par prise en charge du vidage de force du contenu du cache sur le disque. L'absence de l'une ou l'autre peut avoir un impact sur la récupération après une défaillance matérielle, logicielle ou une panne d'alimentation. Tous les types d'interfaces prennent en charge le remplacement à chaud pour autoriser des réparations tout en préservant la disponibilité. La fonctionnalité FILESTREAM repose sur les garanties de tri des écritures et de durabilité :  

11

Durabilité des données lors de la validation des transactions Journalisation WAL pour la création et la suppression de fichiers FILESTREAM

La durabilité des données est obtenue par le pilote du système de fichiers FILESTREAM qui effectue un vidage explicite des fichiers modifiés avant de valider des transactions (les détails du mécanisme dépassent l'objet de ce livre blanc). Cela garantit qu'en cas de panne de courant, tous les disques qui n'ont pas de cache protégé par batterie suffisant ne sont pas validés, mais les données FILESTREAM non vidées seront perdues. Si les lecteurs SATA ne prennent pas en charge une opération de vidage forcé, la récupération peut être affectée et des données peuvent être perdues. La journalisation WAL repose sur la cohérence des métadonnées NTFS. Elle-même dépend de la fiabilité des disques sous-jacents. Il n'y a aucun problème avec SCSI, mais si les lecteurs SATA ne prennent pas en charge le vidage forcé, certaines modifications apportées aux métadonnées NTFS peuvent être perdues en cas de panne d'alimentation. Cela peut provoquer un certain nombre de scénarios :  



Impossible de récupérer NTFS et de monter le volume (c.-à-d., le conteneur de données FILESTREAM est essentiellement hors connexion). NTFS récupère, mais les modifications apportées aux métadonnées NTFS sont perdues et SQL Server ne sait pas restaurer une transaction non validée qui effectue une insertion de données FILESTREAM (c.-à-d., les données FILESTREAM sont perdues). NTFS récupère, mais les modifications apportées aux métadonnées NTFS sont perdues et SQL Server ne sait pas restaurer une transaction non validée qui effectue une suppression de données FILESTREAM (c.-à-d., les données FILESTREAM sont perdues).

Notez que ces trois scénarios ne sont pas pires que si les données BLOB étaient stockées en dehors de la base de données sur un volume NTFS avec des lecteurs SATA sous-jacents qui ne prennent pas en charge l'application forcée des données sur le disque. Dans ce cas, l'utilisation de FILESTREAM sur un volume avec des lecteurs SATA est plus adaptée que le stockage des données BLOB dans des fichiers NTFS bruts sur le même volume, car la cohérence au niveau du lien de FILESTREAM fournit un mécanisme pour détecter à quel moment ces corruptions se sont produites (via l'exécution de DBCC CHECKDB sur la base de données). Pour résumer, les données FILESTREAM peuvent être stockées de manière fiable sur des volumes avec stockage SATA sous-jacent, tant que les lecteurs SATA prennent en charge l'application forcée des données sur le disque via le vidage du cache.

Configuration NTFS Même le sous-système d'E/S, conçu avec le plus de soin et exécuté sur du matériel hautes performances, peut ne pas fonctionner comme prévu si le système de fichiers (dans ce cas NTFS) n'est pas configuré correctement. Cette section décrit certaines options de configuration qui peuvent affecter une charge de travail impliquant des données FILESTREAM. Pour une présentation plus complète de NTFS, consultez les articles de la bibliothèque TechNet intitulés « Guide de référence technique sur NTFS » (http://technet.microsoft.com/fr-fr/library/cc758691.aspx) et « Utilisation des systèmes de fichiers » (http://technet.microsoft.com/fr-fr/library/bb457112.aspx). Optimisation des performances NTFS Par défaut, NTFS n'est pas configuré pour gérer une charge de travail hautes performances avec des dizaines de milliers de fichiers d'un répertoire du système de fichiers spécifique (c. à-d., le scénario FILESTREAM). Deux options NTFS doivent être configurées pour faciliter les performances FILESTREAM. Il est très important de définir ces options correctement avant d'entreprendre tous les tests de performances ; sinon, les résultats ne seront pas représentatifs des performances FILESTREAM réelles.

12

La première option de configuration consiste à désactiver la génération de noms 8.3 lorsque de nouveaux fichiers sont créés (ou renommés). Ce processus génère un nom secondaire pour chaque fichier, qui est uniquement destiné à la compatibilité descendante avec les applications 16 bits. L'algorithme génère un nouveau nom 8.3, puis doit analyser les noms de fichiers 8.3 existants dans le répertoire pour vérifier que le nouveau nom est unique. Comme le nombre de fichiers du répertoire devient important (généralement plus de 300 000), ce processus prend de plus en plus de temps. Le temps de création d'un fichier augmente et les performances diminuent. Par conséquent, le fait de désactiver ce processus peut accroître les performances de façon significative. Pour désactiver ce processus, tapez la commande suivante à l'invite de commandes, puis redémarrez l'ordinateur : fsutil behavior set disable8dot3 1 Remarque : cette option désactive la génération de noms 8.3 sur tous les volumes NTFS sur le serveur. Si des volumes sont utilisés par les applications 16 bits, ils peuvent rencontrer des problèmes après que vous avez modifié ce comportement. La deuxième option de désactivation consiste à mettre à jour le dernier temps d'accès d'un fichier lorsqu'il est accessible. Si la charge de travail accède brièvement à plusieurs fichiers, un temps disproportionné est consacré à la mise à jour du dernier temps d'accès de chaque fichier. Le fait de désactiver cette option peut aussi augmenter considérablement les performances. Pour désactiver ce processus, tapez la commande suivante à l'invite de commandes, puis redémarrez l'ordinateur : fsutil behavior set disablelastaccess 1 Taille de cluster Tous les systèmes de fichiers Windows possèdent le concept de « cluster », qui est l'unité d'affectation lorsque l'espace disque est alloué. Comme un cluster correspond à la plus petite quantité d'espace disque pouvant être allouée, si un fichier est très petit, une partie du cluster peut être inutilisée (essentiellement gaspillée). La taille de cluster est, par conséquent, généralement assez petite afin que les petits fichiers ne gaspillent pas l'espace disque. Plusieurs clusters peuvent être alloués aux fichiers volumineux, ou la taille des fichiers peut évoluer dans le temps et des clusters peuvent leur être alloués à mesure que leur taille augmente. Si un fichier se développe beaucoup, mais par petits segments, les clusters alloués sont susceptibles de ne pas être contigus sur le disque (c.-à-d., ce sont des « fragments »). Cela signifie que plus les clusters sont petits et plus un fichier se développe, plus il sera fragmenté. La taille de cluster est donc un compromis entre le gaspillage de l'espace disque et la réduction de la fragmentation. Plus d'informations sur les différentes tailles de cluster des systèmes de fichiers Windows sont disponibles dans l'article de la Base de connaissances « Taille de cluster par défaut pour FAT et NTFS » (http://support.microsoft.com/kb/140365). La recommandation pour l'utilisation de FILESTREAM est que les unités individuelles de données BLOB aient une taille minimale de 1 Mo. Dans ce cas, il est recommandé que la taille de clusters NTFS du volume du conteneur de données FILESTREAM soit définie à 64 Ko pour réduire la fragmentation. Cette opération doit être effectuée manuellement, car la valeur par défaut pour les volumes NTFS jusqu'à 2 téraoctets (To) est de 4 Ko. Cela peut être accompli en utilisant l'option /A de la commande format. Par exemple, à l'invite de commandes, tapez : format F: /FS:NTFS /V:MyFILESTREAMContainer /A:64K

13

Ce paramètre doit être associé à des tailles de mémoires tampons volumineuses, comme le décrit la section « Considérations relatives au réglage des performances et aux tests » plus loin dans ce livre blanc. Gestion de la fragmentation Comme décrit précédemment, lorsque plusieurs fichiers se développent sur un volume, ils sont fragmentés. Cela signifie que la collection de clusters allouée au fichier n'est pas contiguë. Lorsque le fichier est lu séquentiellement, les têtes de disque sous-jacentes doivent lire tous les clusters dans l'ordre, ce qui peut signifier qu'ils doivent lire différentes parties du disque. Même si les fichiers ne se développent pas une fois créés, s'ils ont été créés sur un volume où l'espace disponible n'est pas dans un seul segment contigu, ils peuvent être fragmentés immédiatement, car les clusters nécessaires pour les contenir ne sont pas disponibles en contigu. La fragmentation affecte les performances de lecture séquentielle contrairement à lorsqu'il n'y a pas ou peu de fragmentation. Le problème est très semblable à celui de la fragmentation d'index dans une base de données qui ralentit les performances d'analyse d'étendue de requête. Il est, par conséquent, essentiel que la fragmentation soit régulièrement supprimée à l'aide d'un outil de défragmentation de disque de façon à conserver les performances de lecture séquentielle. En outre, si le volume qui va être utilisé pour héberger le conteneur de données FILESTREAM a été précédemment utilisé, ou s'il contient d'autres données, le niveau de fragmentation doit être vérifié et modifié si nécessaire. Compression Les données stockées dans NTFS peuvent être compressées pour économiser de l'espace disque, mais au détriment d'UC supplémentaire pour compresser et décompresser les données lorsqu'elles sont écrites ou lues, respectivement. La compression n'est pas utile si les données sont essentiellement incompressibles. Par exemple, les données aléatoires, les données chiffrées ou les données qui ont déjà été compressées ne vont pas bien se compresser, mais devront être transmises via l'algorithme de compression NTFS et entraîneront une surcharge du processeur. C'est pourquoi, l'activation de la compression n'a de sens que lorsque les données peuvent être fortement compressées, et lorsque l'UC supplémentaire nécessaire n'entraîne pas la diminution des performances de charge de travail. Notez également que la compression ne peut être activée que lorsque la taille maximale de cluster NTFS est de 4 096 octets. La compression peut être activée sur le volume du conteneur de données FILESTREAM lorsqu'il est formaté, avec l'option /C de la commande format. Par exemple : format F: /FS:NTFS /V:MyFILESTREAMContainer /A:4096 /C Un volume existant peut également être activé pour la compression à l'aide des étapes suivantes : 1. Dans Poste de travail ou l'Explorateur Windows, cliquez avec le bouton droit sur le volume à compresser ou à décompresser. 2. Cliquez sur Propriétés pour afficher la boîte de dialogue Propriétés. 3. Dans l'onglet Général, activez ou désactivez la case à cocher Compresser le lecteur pour augmenter l'espace disque disponible, puis cliquez sur OK. 4. Dans la boîte de dialogue Confirmation des modifications d’attributs, indiquez si la compression s'applique au volume entier ou au dossier racine. C'est ce que montre l'illustration suivante.

14

Illustration 2 : Compression d'un volume existant à l'aide de l'Explorateur Windows Gestion de l'espace Bien que plusieurs conteneurs de données FILESTREAM puissent être placés sur un seul volume NTFS, il existe des raisons pour lesquelles il faut disposer d'un mappage 1:1 entre les conteneurs de données et les volumes NTFS. Outre le risque potentiel de contention dépendante de la charge de travail, il est impossible de gérer l'espace du conteneur de données FILESTREAM dans SQL Server. C'est pourquoi, l'utilisation de quotas de disque NTFS est nécessaire, le cas échéant. Les quotas de disque sont suivis par utilisateur, par volume. Ainsi, le fait de posséder plusieurs conteneurs de données FILESTREAM sur un seul volume rend difficile de déterminer quel conteneur de données utilise le plus d'espace disque. Notez que tous les fichiers FILESTREAM sont créés sous le compte de service SQL Server. Si ce paramètre est modifié, de l'espace disque est chargé dans le nouveau compte de service. Il existe un seul pilote de filtre du système de fichiers FILESTREAM pour chaque volume NTFS qui comprend un conteneur de données FILESTREAM, et il en existe également un pour chaque version de SQL Server qui a un conteneur de données FILESTREAM sur le volume. Chaque pilote de filtre est chargé de gérer les conteneurs de données FILESTREAM pour ce volume, pour toutes les instances qui utilisent une version particulière de SQL Server. Par exemple, un volume NTFS qui héberge trois conteneurs de données FILESTREAM, un pour chacune des trois instances de SQL Server 2008, n'aura qu'un pilote de filtre du système de fichiers FILESTREAM SQL Server 2008.

15

Sécurité Il existe deux critères de sécurité pour l'utilisation de la fonctionnalité FILESTREAM. Premièrement, SQL Server doit être configuré pour la sécurité intégrée. Deuxièmement, si l'accès distant est utilisé, le port SMB (445) doit être activé via tous les systèmes de pare-feu. Il s'agit du même port que celui qui est nécessaire pour l'accès standard au partage distant. Pour plus d'informations, consultez l'article de la Base de connaissances « Présentation des services et des exigences de ports réseau pour Windows Server System » (http://support.microsoft.com/kb/832017).

Considérations relatives à l'antivirus L'antivirus est omniprésent dans l'environnement actuel. FILESTREAM ne peut pas empêcher le logiciel antivirus d'analyser les fichiers dans le conteneur de données FILESTREAM (cela créerait des problèmes de sécurité). Le logiciel possède généralement un paramètre de stratégie indiquant ce qu'il faut faire lorsqu'un fichier est suspecté d'être contaminé par un virus : supprimer le fichier ou restreindre son accès (opération appelée « mise en quarantaine » du fichier). Dans les deux cas, l'accès aux données BLOB du fichier affecté sera empêché et, dans SQL Server, le fichier semblera avoir été supprimé. Il est recommandé que l'antivirus soit défini de façon à mettre les fichiers en quarantaine, et non pas les supprimer. DBCC CHECKDB peut être utilisé dans SQL Server afin de découvrir quels fichiers semblent être manquants. Ensuite, l'administrateur Windows peut corréler les noms de fichiers par rapport au journal de l'antivirus et effectuer l'action corrective nécessaire.

Activation de FILESTREAM dans Windows FILESTREAM est une fonctionnalité hybride qui requiert que l'administrateur Windows et les administrateurs SQL Server effectuent des actions avant que la fonctionnalité ne soit activée. Cela est nécessaire pour conserver la séparation des fonctions entre les administrateurs, surtout si l'administrateur SQL Server n'est pas aussi l'administrateur Windows. L'activation de FILESTREAM au niveau Windows installe un pilote de filtre du système de fichiers, opération pour laquelle seul un administrateur Windows dispose des privilèges nécessaires. Au niveau Windows, FILESTREAM est activé pendant l'installation de SQL Server 2008 ou en exécutant le Gestionnaire de configuration SQL Server. Voici les étapes à suivre : 1.

2. 3. 4. 5. 6. 7.

8.

9.

16

Dans le menu Démarrer, pointez successivement sur Tous les programmes, Microsoft SQL Server 2008, Outils de configuration, puis cliquez sur Gestionnaire de configuration SQL Server. Dans la liste de services, cliquez avec le bouton droit sur Services SQL Server, puis cliquez sur Ouvrir. Dans le composant logiciel enfichable Gestionnaire de configuration SQL Server, recherchez l'instance de SQL Server sur laquelle vous souhaitez activer FILESTREAM. Cliquez avec le bouton droit sur l'instance, puis cliquez sur Propriétés. Dans la boîte de dialogue Propriétés de SQL Server, cliquez sur l'onglet FILESTREAM. Activez la case à cocher Activer FILESTREAM pour l'accès Transact-SQL . Si vous souhaitez lire et écrire des données FILESTREAM à partir de Windows, cliquez sur Activer FILESTREAM pour l'accès en continu aux E/S de fichier. Entrez le nom du partage Windows dans la zone Nom de partage Windows. Si des clients distants doivent accéder aux données FILESTREAM stockées sur ce partage, sélectionnez Autoriser les clients distants à avoir un accès en continu aux données FILESTREAM. Cliquez sur Appliquer.

L'illustration suivante montre l'onglet FILESTREAM tel que le décrit la procédure.

Illustration 3 : Configuration de FILESTREAM avec le Gestionnaire de configuration SQL Server Cette procédure doit être exécutée pour chaque instance SQL Server qui va utiliser la fonctionnalité FILESTREAM avant de pouvoir être utilisée par SQL Server. Notez qu'il n'y a aucune spécification du conteneur de données FILESTREAM à ce stade. Cette opération est réalisée lorsqu'un groupe de fichiers FILESTREAM est créé dans une base de données après que FILESTREAM a été activé dans SQL Server. Notez qu'il est possible de désactiver l'accès FILESTREAM au niveau Windows même lorsque SQL Server l'a activé. Dans ce cas, une fois l'instance SQL Server redémarrée, toutes les données FILESTREAM sont indisponibles. L'avertissement suivant s'affiche :

Illustration 4 : Avertissement affiché lors de la désactivation de FILESTREAM avec le Gestionnaire de configuration SQL Server

17

Configuration de SQL Server pour FILESTREAM Chaque instance SQL Server qui va utiliser la fonctionnalité FILESTREAM doit être configurée séparément, au niveau Windows et au niveau SQL Server. Lorsque FILESTREAM est activé, une base de données doit être configurée pour stocker les données FILESTREAM, et uniquement ensuite des tables comportant des colonnes FILESTREAM peuvent être définies. Cette section explique comment configurer FILESTREAM au niveau SQL Server et comment créer des bases de données et des tables compatibles avec FILESTREAM. Elle explique également comment FILESTREAM interagit avec d'autres fonctionnalités de SQL Server 2008.

Considérations relatives à la sécurité FILESTREAM requiert l'utilisation de la sécurité intégrée (authentification Windows). Lorsqu'une application utilisant Win32 tente d'accéder aux données FILESTREAM, l'utilisateur Windows est validé par SQL Server. Si l'utilisateur dispose d'un accès Transact-SQL aux données FILESTREAM, l'accès est également accordé au niveau Win32, tant que le jeton de transaction est obtenu dans le contexte de sécurité de l'utilisateur Windows qui exécute l'ouverture de fichier. La spécification de l'authentification Windows provient de la nature des API d'E/S de fichier Windows. La seule façon de passer l'identité du client de l'application cliente à SQL Server pendant une opération d'E/S de fichier consiste à utiliser le jeton Windows associé au thread du client. Lorsque le conteneur de données FILESTREAM est créé, il est automatiquement protégé afin que le compte de service SQL Server et les membres du groupe builtin/Administrators aient accès à l'arborescence de répertoires du conteneur de données. Vous devez éviter que le contenu du conteneur de données soit modifié, excepté via des méthodes transactionnelles prises en charge, car les modifications apportées via d'autres méthodes entraîneront la corruption du conteneur.

Activation de FILESTREAM dans SQL Server La deuxième étape d'activation de FILESTREAM s'effectue dans l'instance SQL Server 2008. Cette opération ne doit pas être effectuée tant que FILESTREAM n'est pas activé au niveau Windows, et le volume NTFS qui va stocker les données FILESTREAM n'a pas été correctement préparé (tel que le décrit la section « Configuration de Windows pour FILESTREAM » plus haut). L'accès FILESTREAM est contrôlé dans SQL Server à l'aide de sp_configure pour affecter un des trois paramètres à l'option de configuration filestream_access_level. Les valeurs possibles sont :   

0 : désactiver la prise en charge de FILESTREAM pour cette instance 1 : activer FILESTREAM pour l'accès Transact-SQL uniquement 2 : activer FILESTREAM pour l'accès en continu Transact-SQL et Win32

L'exemple suivant montre comment activer FILESTREAM pour l'accès en continu Transact-SQL et Win32.

EXEC sp_configure filestream_access_level, 2; GO RECONFIGURE; GO

18

L'instruction RECONFIGURE est nécessaire pour que la valeur récemment configurée prenne effet. Notez que si FILESTREAM n'a pas été activé au niveau Windows, il n'est pas activé au niveau SQL Server lors de l'exécution du code précédent. Vous trouverez la valeur actuelle configurée à l'aide du code suivant.

EXEC sp_configure filestream_access_level; GO

Si FILESTREAM n'est pas configuré au niveau Windows, « config_value » dans la sortie de sp_configure est différent (c.-à-d., 0) de « run_value » après exécution de l'instruction RECONFIGURE.

Création d'une base de données compatible avec FILESTREAM Une fois que FILESTREAM est activé aux niveaux Windows et SQL Server, un conteneur de données FILESTREAM peut être défini. Cette opération s'effectue en définissant un groupe de fichiers FILESTREAM dans une base de données. Il existe un mappage 1:1 entre les groupes de fichiers FILESTREAM et les conteneurs de données FILESTREAM. Un groupe de fichiers FILESTREAM peut être défini lorsqu'une base de données est créée, ou il peut être créé séparément à l'aide d'une instruction ALTER DATABASE. L'exemple suivant crée un groupe de fichiers FILESTREAM dans une base de données existante.

ALTER DATABASE Production ADD FILEGROUP FileStreamGroup1 CONTAINS FILESTREAM; GO

La clause CONTAINS FILESTREAM est nécessaire pour différencier le nouveau groupe de fichiers des groupes de fichiers ordinaires de base de données. Si la fonctionnalité FILESTREAM est désactivée, cette instruction échoue avec l'erreur suivante.

Msg 5591, Niveau 16, État 3, Ligne 1 La fonctionnalité FILESTREAM est désactivée.

En supposant que FILESTREAM est activé aux niveaux Windows et SQL Server, le groupe de fichiers est créé. À ce stade, le conteneur de données FILESTREAM est défini en ajoutant un seul fichier au groupe de fichiers. Le chemin d'accès spécifié est le chemin d'accès du répertoire qui va être créé en tant que racine du conteneur de données. Le chemin d'accès complet jusqu'au nom du répertoire final, mais

19

qui ne le comprend pas, doit déjà exister. L'exemple suivant définit le conteneur de données pour le groupe de fichiers FileStreamGroup1 créé précédemment.

ALTER DATABASE Production ADD FILE ( NAME = FSGroup1File, FILENAME = 'F:\Production\FSDATA') TO FILEGROUP FileStreamGroup1; GO

À ce stade, le répertoire FSDATA va être créé. Il est vide en dehors de deux éléments :  

Le fichier filestream.hdr. Il s'agit des métadonnées FILESTREAM du conteneur de données. Le répertoire $FSLOG. Il s'agit de l'équivalent FILESTREAM du journal des transactions d'une base de données.

Notez qu'une base de données peut contenir plusieurs groupes de fichiers FILESTREAM. Cela peut être utile pour distinguer le stockage d'objets blob de plusieurs tables de la base de données.

Création d'une table pour le stockage de données FILESTREAM Une fois que la base de données possède un groupe de fichiers FILESTREAM, il est possible de créer des tables qui contiennent des colonnes FILESTREAM. Comme indiqué précédemment, une colonne FILESTREAM est définie comme colonne varbinary (max) qui a l'attribut FILESTREAM. Le code suivant crée une table avec une seule colonne FILESTREAM.

USE Production; GO CREATE TABLE DocumentStore ( DocumentID INT IDENTITY PRIMARY KEY, Document VARBINARY (MAX) FILESTREAM NULL, DocGUID UNIQUEIDENTIFIER NOT NULL ROWGUIDCOL UNIQUE DEFAULT NEWID ()) FILESTREAM_ON FileStreamGroup1; GO

20

21

Une table peut avoir plusieurs colonnes FILESTREAM, mais les données de toutes les colonnes FILESTREAM d'une table doivent être stockées dans le même groupe de fichiers FILESTREAM. Si la clause FILESTREAM_ON n'est pas spécifiée, le groupe de fichiers FILESTREAM défini comme étant le groupe de fichiers par défaut est utilisé. Cela peut ne pas être la configuration voulue et peut provoquer des problèmes de performances. Une fois la table créée, le conteneur de données FILESTREAM doit contenir un autre répertoire, correspondant à la table, avec un sous-répertoire qui correspond à la colonne FILESTREAM dans la table. Ce sous-répertoire contiendra les fichiers de données une fois les données entrées dans la table. La structure du répertoire varie en fonction du nombre de colonnes FILESTREAM dont dispose une table et selon que la table est partitionnée ou non. Notez que pour qu'une table possède plusieurs colonnes FILESTREAM, elle doit également avoir une colonne avec le type de données uniqueidentifier qui a l'attribut ROWGUIDCOL. Cette colonne ne doit pas autoriser les valeurs Null et doit avoir une contrainte de colonne unique de type UNIQUE ou PRIMARY KEY . La valeur du GUID de la colonne doit être fournie par une application lors de l'insertion de données ou par une contrainte DEFAULT qui utilise la fonction NEWID() (ou NEWSEQUENTIALID() si la réplication de fusion est configurée, comme indiqué dans la section « Combinaisons de fonctionnalités et restrictions » plus loin dans ce document). Pour plus d'informations sur les détails et les restrictions sur le schéma de table et les options nécessaires, consultez la rubrique « CREATE TABLE (Transact-SQL) » de la documentation en ligne de SQL Server 2008 (http://msdn.microsoft.com/fr-fr/library/ms174979.aspx).

Configuration du garbage collection FILESTREAM Les fichiers de données FILESTREAM dans le conteneur de données FILESTREAM ne peuvent pas être partiellement mis à jour. Cela signifie que toute modification apportée aux données BLOB de la colonne FILESTREAM crée un nouveau fichier de données FILESTREAM. L'ancien fichier doit être conservé jusqu'à ce qu'il ne soit plus nécessaire à des fins de récupération. Les fichiers qui représentent les données FILESTREAM supprimées, les insertions restaurées de données FILESTREAM, sont conservés. Les fichiers qui ne sont plus nécessaires sont supprimés par le processus de garbage collection. Ce processus est automatique, contrairement aux services Windows SharePoint®, où le garbage collection doit être implémenté manuellement sur le magasin d'objets blob externe. Toutes les opérations de fichier FILESTREAM sont mappées à un numéro séquentiel dans le journal des transactions de la base de données. Tant que le journal des transactions est tronqué après le LSN d'opération FILESTREAM, le fichier n'est plus nécessaire et ne peut pas être récupéré par le garbage collector. Par conséquent, tout ce qui peut empêcher la troncation du journal des transactions peut également empêcher la suppression physique d'un fichier FILESTREAM. Exemples :   

22

Les sauvegardes de journal n'ont pas été effectuées, en mode de récupération FULL ou BULK_LOGGED. Il existe une transaction active de longue durée. Le travail du lecteur du journal de réplication n'a pas été exécuté.

Le garbage collection FILESTREAM est une tâche en arrière-plan qui est déclenchée par le processus de point de contrôle de base de données. Un point de contrôle est automatiquement exécuté lorsque le journal des transactions a été généré. Pour plus d'informations, consultez la rubrique « CHECKPOINT et la partie active du journal » dans la documentation en ligne de SQL Server 2008 (http://msdn.microsoft.com/fr-fr/library/ms189573.aspx). Étant donné que les opérations de fichier FILESTREAM font l'objet d'une journalisation minimale dans le journal des transactions de la base de données, quelques instants peuvent s'écouler avant que le nombre d'enregistrements générés dans le journal des transactions déclenche un processus de point de contrôle et qu'une opération de garbage collection se produise. Si cela devient un problème, forcez le garbage collection à l'aide de l'instruction CHECKPOINT.

Considérations relatives au partitionnement Si la table qui contient des données FILESTREAM est partitionnée, la clause FILESTREAM_ON doit être incluse et doit spécifier un schéma de partitionnement de groupes de fichiers FILESTREAM et reposer sur la fonction de partitionnement de la table. Cela est nécessaire, car le schéma standard de partitionnement impliquera des groupes de fichiers ordinaires qui ne peuvent pas être utilisés pour stocker des données FILESTREAM. La définition de la table (dans une instruction CREATE TABLE ou CREATE CLUSTERED INDEX … WITH DROP_EXISTING) spécifie les deux schémas de partitionnement. Le schéma de partitionnement FILESTREAM peut indiquer que toutes les partitions sont mappées à un seul groupe de fichiers, mais cela n'est pas recommandé, car cela peut entraîner des problèmes de performances. L'exemple suivant (forcé) illustre cette syntaxe :

CREATE PARTITION FUNCTION DocPartFunction (INT) AS RANGE RIGHT FOR VALUES (100000, 200000); GO

CREATE PARTITION SCHEME DocPartScheme AS PARTITION DocPartFunction TO (Data_FG1, Data_FG2, Data_FG3); GO

CREATE PARTITION SCHEME DocFSPartScheme AS PARTITION DocPartFunction TO (FS_FG1, FS_FG2, FS_FG3); GO

CREATE TABLE DocumentStore (

23

DocumentID INT IDENTITY PRIMARY KEY, Document VARBINARY (MAX) FILESTREAM NULL, DocGUID UNIQUEIDENTIFIER NOT NULL ROWGUIDCOL UNIQUE DEFAULT NEWID () ON Data_FG1) ON DocPartScheme (DocumentID) FILESTREAM_ON DocFSPartScheme; GO

Notez que pour utiliser la colonne DocumentID comme colonne de partitionnement, l'index non cluster sous-jacent qui applique la contrainte UNIQUE sur le DocGUID doit être explicitement placé dans un groupe de fichiers afin que DocumentID puisse être la colonne de partitionnement. Cela signifie que le basculement de partition n'est possible que si les contraintes UNIQUE sont désactivées avant d'effectuer le basculement de partition, car il s'agit d'index non alignés, puis sont réactivées après. Suite de l'exemple précédent, le code suivant crée une table, puis tente un basculement de partition.

CREATE TABLE NonPartitionedDocumentStore ( DocumentID INT IDENTITY PRIMARY KEY, Document VARBINARY (MAX) FILESTREAM NULL, DocGUID UNIQUEIDENTIFIER NOT NULL ROWGUIDCOL UNIQUE DEFAULT NEWID ()); GO

ALTER TABLE DocumentStore SWITCH PARTITION 2 TO NonPartitionedDocumentStore; GO

Le basculement de partition échoue avec le message suivant. Msg 7733, Niveau 16, État 4, Ligne 1 Échec de l'instruction 'ALTER TABLE SWITCH'. La table « FileStreamTestDB.dbo.DocumentStore » est partitionnée alors que l'index « UQ_Document_8CC1617F60ED59 » n'est pas partitionné.

24

La désactivation de l'index unique dans la table source et une nouvelle tentative donne le code suivant.

ALTER INDEX [UQ__Document__8CC331617F60ED59] ON DocumentStore DISABLE; GO

ALTER TABLE FileStreamTest3 SWITCH PARTITION 2 TO NonPartitionedFileStreamTest3; GO

Le basculement échoue également, avec le message suivant. Msg 4947, Niveau 16, État 1, Ligne 1 Échec de l'instruction ALTER TABLE SWITCH. Il n'y a pas d'index en double dans la table source « FileStreamTestDB.dbo.DocumentStore » pour l'index « UQ_NonParti_8CC3316103317E3D » dans la table cible « FileStreamTestDB.dbo.NonPartitionedDocumentStore ». Les index uniques dans les tables partitionnées et non partitionnées doivent être désactivés avant de poursuivre le basculement.

ALTER INDEX [UQ__NonParti__8CC3316103317E3D] ON NonPartitionedDocumentStore DISABLE; GO

ALTER TABLE DocumentStore SWITCH PARTITION 2 TO NonPartitionedDocumentStore; GO

ALTER INDEX [UQ__NonParti__8CC3316103317E3D] ON NonPartitionedDocumentStore REBUILD WITH (ONLINE = ON); ALTER INDEX [UQ__Document__8CC331617F60ED59] ON NonPartitionedDocumentStore REBUILD WITH (ONLINE = ON); GO

25

Des informations supplémentaires sur les données FILESTREAM de partitionnement seront incluses dans le prochain livre blanc consacré au partitionnement dans SQL Server 2008.

Équilibrage de charge des données FILESTREAM Il est également possible d'utiliser le partitionnement pour créer un schéma de table, qui permet l'équilibrage de la charge brute des données FILESTREAM entre plusieurs volumes. Cela peut être souhaitable pour diverses raisons, notamment des limitations au niveau matériel ou pour autoriser le stockage des zones réactives d'une table sur différents volumes. Le code suivant illustre une fonction et un schéma de partitionnement en fonction de la colonne uniqueidentifier qui répartit efficacement les données FILESTREAM sur 16 volumes, tout en agrégeant les données structurées dans deux groupes de fichiers.

USE master; GO

-- Créer la base de données CREATE DATABASE Production ON PRIMARY (NAME = 'Production', FILENAME = 'E:\Production\Production.mdf'), FILEGROUP DataFilegroup1 (NAME = 'Data_FG1', FILENAME = 'F:\Production\Data_FG1.ndf'), FILEGROUP DataFilegroup2 (NAME = 'Data_FG2', FILENAME = 'G:\Production\Data_FG2.ndf'), FILEGROUP FSFilegroup0 CONTAINS FILESTREAM (NAME = 'FS_FG0', FILENAME = 'H:\Production\FS_FG0'), FILEGROUP FSFilegroup1 CONTAINS FILESTREAM (NAME = 'FS_FG1', FILENAME = 'I:\Production\FS_FG1'), FILEGROUP FSFilegroup2 CONTAINS FILESTREAM (NAME = 'FS_FG2', FILENAME = 'J:\Production\FS_FG2'), FILEGROUP FSFilegroup3 CONTAINS FILESTREAM (NAME = 'FS_FG3', FILENAME = 'K:\Production\FS_FG3'), FILEGROUP FSFilegroup4 CONTAINS FILESTREAM (NAME = 'FS_FG4', FILENAME = 'L:\Production\FS_FG4'),

26

FILEGROUP FSFilegroup5 CONTAINS FILESTREAM (NAME = 'FS_FG5', FILENAME = 'M:\Production\FS_FG5'), FILEGROUP FSFilegroup6 CONTAINS FILESTREAM (NAME = 'FS_FG6', FILENAME = 'N:\Production\FS_FG6'), FILEGROUP FSFilegroup7 CONTAINS FILESTREAM (NAME = 'FS_FG7', FILENAME = 'O:\Production\FS_FG7'), FILEGROUP FSFilegroup8 CONTAINS FILESTREAM (NAME = 'FS_FG8', FILENAME = 'P:\Production\FS_FG8'), FILEGROUP FSFilegroup9 CONTAINS FILESTREAM (NAME = 'FS_FG9', FILENAME = 'Q:\Production\FS_FG9'), FILEGROUP FSFilegroupA CONTAINS FILESTREAM (NAME = 'FS_FGA', FILENAME = 'R:\Production\FS_FGA'), FILEGROUP FSFilegroupB CONTAINS FILESTREAM (NAME = 'FS_FGB', FILENAME = 'S:\Production\FS_FGB'), FILEGROUP FSFilegroupC CONTAINS FILESTREAM (NAME = 'FS_FGC', FILENAME = 'T:\Production\FS_FGC'), FILEGROUP FSFilegroupD CONTAINS FILESTREAM (NAME = 'FS_FGD', FILENAME = 'U:\Production\FS_FGD'), FILEGROUP FSFilegroupE CONTAINS FILESTREAM (NAME = 'FS_FGE', FILENAME = 'V:\Production\FS_FGE'), FILEGROUP FSFilegroupF CONTAINS FILESTREAM (NAME = 'FS_FGF', FILENAME = 'W:\Production\FS_FGF'); GO

USE Production; GO

-- Créer une fonction de partition basée sur les 6 derniers octets du GUID

27

CREATE PARTITION FUNCTION LoadBalance_PF (UNIQUEIDENTIFIER) AS RANGE LEFT FOR VALUES ( CONVERT (uniqueidentifier, '00000000-0000-0000-0000-100000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-200000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-300000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-400000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-500000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-600000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-700000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-800000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-900000000000'), CONVERT (, « uniqueidentifier 00000000-0000-0000-0000-a00000000000 »), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-b00000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-c00000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-d00000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-e00000000000'), CONVERT (uniqueidentifier, '00000000-0000-0000-0000-f00000000000')); GO

-- Créer un schéma de partitionnement FILESTREAM qui permet le mappage à 16 groupes de fichiers FILESTREAM CREATE PARTITION SCHEME LoadBalance_FS_PS AS PARTITION LoadBalance_PF TO ( FSFileGroup0, FSFileGroup1, FSFileGroup2, FSFileGroup3, FSFileGroup4, FSFileGroup5, FSFileGroup6, FSFileGroup7, FSFileGroup8, FSFileGroup9, FSFileGroupA, FSFileGroupB, FSFileGroupC, FSFileGroupD, FSFileGroupE, FSFileGroupF); GO

28

-- Créer un schéma de partitionnement de données dans une méthode de tourniquet (round robin) entre deux groupes de fichiers CREATE PARTITION SCHEME LoadBalance_Data_PS AS PARTITION LoadBalance_PF TO ( DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2, DataFileGroup1, DataFileGroup2); GO

-- Créer la table partitionnée CREATE TABLE DocumentStore ( DocumentID INT IDENTITY, Document VARBINARY (MAX) FILESTREAM NULL, DocGUID UNIQUEIDENTIFIER NOT NULL ROWGUIDCOL DEFAULT NEWID (), CONSTRAINT DocStorePK PRIMARY KEY CLUSTERED (DocGUID), CONSTRAINT DocStoreU UNIQUE (DocGUID) ON LoadBalance_Data_PS (DocGUID) FILESTREAM_ON LoadBalance_FS_PS ; GO

L'équilibrage de charge peut facilement être testé à l'aide du code suivant.

SET NOCOUNT ON; GO

29

-- Insérer 10000 lignes pour tester l'équilibrage de charge DECLARE @count INT = 0; WHILE (@count < 10000) BEGIN INSERT INTO DocumentStore DEFAULT VALUES; SET @count = @count + 1; END; GO

-- Vérifier la distribution SELECT COUNT ($PARTITION.LoadBalance_PF (DocGUID)) FROM DocumentStore GROUP BY $PARTITION.LoadBalance_PF (DocGUID); GO

Les résultats d'un exemple de série de test étaient 631, 641, 661, 640, 649, 637, 618, 618, 576, 608, 595, 645, 640, 616, 602 et 623 lignes dans chacun des groupes de fichiers FILESTREAM FS_FG0 à FS_FGF.

Combinaisons de fonctionnalités et restrictions Étant donné que la fonctionnalité FILESTREAM stocke des données dans le système de fichiers, il existe certaines restrictions et considérations à prendre en compte lorsque FILESTREAM est associé à d'autres fonctionnalités SQL Server. Cette section fournit une présentation des combinaisons de fonctionnalités à connaître. Pour plus d'informations, consultez la rubrique « Utilisation de FILESTREAM avec d'autres fonctionnalités SQL Server » dans la documentation en ligne de SQL Server 2008 (http://msdn.microsoft.com/fr-fr/library/bb895334.aspx). Réplication La réplication transactionnelle et la réplication de fusion prennent en charge les données FILESTREAM, mais il existe de nombreux éléments à en prendre en compte, notamment : 



30

Lorsque la topologie de réplication comprend des instances utilisant différentes versions de SQL Server, il existe des limitations sur la taille des données qui peuvent être envoyées aux instances de bas niveau. Les options de filtre de réplication déterminent si l'attribut FILESTREAM est répliqué ou n'utilise pas la réplication transactionnelle.

 

La taille maximale des données varbinary (max) qui peuvent être répliquées dans la réplication transactionnelle sans répliquer l'attribut FILESTREAM est de 2 Go. Lorsque la réplication de fusion est utilisée, celle-ci ainsi que FILESTREAM requièrent une colonne uniqueidentifier. Soyez vigilant avec le schéma de la table lorsque vous utilisez la réplication de fusion afin que les GUID soient séquentiels (c.-à-d., utilisez NEWSEQUENTIALID() plutôt que NEWID()).

Mise en miroir de bases de données La mise en miroir de bases de données ne prend pas en charge FILESTREAM. Un groupe de fichiers FILESTREAM ne peut pas être créé sur le serveur principal. La mise en miroir de bases de données ne peut pas être configurée pour une base de données qui contient des groupes de fichiers FILESTREAM. Chiffrement Les données FILESTREAM ne peuvent pas être chiffrées à l'aide de méthodes de chiffrement SQL Server. Si le chiffrement transparent des données est activé, les données FILESTREAM ne sont pas chiffrées. Clustering de basculement FILESTREAM est entièrement pris en charge par le clustering de basculement. FILESTREAM doit être activé pour tous les nœuds du cluster au niveau Windows, et les conteneurs de données FILESTREAM doivent être placés sur un stockage partagé afin que les données soient disponibles dans tous les nœuds. Pour plus d'informations, consultez la documentation en ligne de SQL Server 2008 : « Procédure : configurer FILESTREAM sur un cluster de basculement » (http://msdn.microsoft.com/frfr/library/cc645886.aspx). Texte intégral L'indexation de texte intégral fonctionne avec une colonne FILESTREAM de la même façon qu'avec une colonne varbinary (max). La table doit contenir une colonne supplémentaire qui contient l'extension de nom de fichier pour les données BLOB stockées dans la colonne FILESTREAM. Instantanés de base de données SQL Server ne prend pas en charge les instantanés de base de données pour les conteneurs de données FILESTREAM. Si un fichier de données FILESTREAM est inclus dans une clause CREATE DATABASE ON, l'instruction échoue et une erreur est levée. Si une base de données contient des données FILESTREAM, un instantané de base de données des groupes de fichiers ordinaires peut être créé. Dans ce cas, un message d'avertissement est retourné et les groupes de fichiers FILESTREAM sont marqués comme étant hors ligne dans l'instantané de base de données. Les requêtes fonctionnent comme prévu sur l'instantané de base de données à moins qu'elles tentent d'accéder aux données FILESTREAM. Si cela se produit une erreur est générée. Un instantané de base de données ne peut pas être rétabli si la base de données contient des données FILESTREAM, car il n'existe aucun moyen de déterminer l'état des données FILESTREAM au moment représenté par l'instantané de base de données. Vues, index, statistiques, déclencheurs et contraintes

31

Les colonnes FILESTREAM ne peuvent pas faire partie d'une clé d'index ou être spécifiées comme colonne INCLUDE dans un index non cluster. Il est possible de définir une colonne calculée qui référence une colonne FILESTREAM, mais la colonne calculée ne peut pas être indexée. Il est impossible de créer des statistiques sur des colonnes FILESTREAM.

Il est impossible de créer des contraintes PRIMARY KEY, FOREIGN KEY, et UNIQUE sur des colonnes FILESTREAM. Les vues indexées ne peuvent pas contenir de colonnes FILESTREAM ; contrairement aux vues non indexées. Les déclencheurs Instead-of ne peuvent pas être définis sur des tables qui contiennent des colonnes FILESTREAM. Niveaux d'isolation Lorsque les données FILESTREAM sont accessibles via des API Win32, seul le niveau d'isolation validé en lecture est pris en charge. L'accès Transact-SQL autorise également les niveaux d'isolation sérialisable et de lecture renouvelée. En outre, avec l'accès Transact-SQL, les lectures erronées sont autorisées par le niveau d'isolation non validé en lecture, ou l'indicateur de requête NOLOCK, mais cet accès n'affiche pas les mises à jour en cours d'exécution des données FILESTREAM. Sauvegarde et restauration FILESTREAM fonctionne avec tous les modes de récupération et toutes les formes de sauvegarde et de restauration (complète, différentielle et des journaux). Dans une situation d'urgence, si l'option CONTINUE_AFTER_ERROR est spécifiée sur une option BACKUP ou RESTORE, il est possible que les données FILESTREAM ne soient pas récupérées sans perte (semblable à la récupération des données standard lorsque CONTINUE_AFTER_ERROR est spécifiée). Sécurité L'instance SQL Server doit être configurée pour utiliser la sécurité intégrée si l'accès Win32 aux données FILESTREAM est requis. Copie des journaux de transaction La copie des journaux de transaction prend en charge FILESTREAM. Les serveurs principaux et secondaires doivent exécuter SQL Server 2008 ou une version ultérieure, et FILESTREAM doit être activé au niveau Windows. SQL Server Express SQL Server Express prend en charge FILESTREAM. La limite de taille de base de données de 4 Go n'inclut pas le conteneur de données FILESTREAM. Toutefois, si les données FILESTREAM sont envoyées à/à partir de l'instance SQL Server Express avec Service Broker, soyez vigilant, car Service Broker ne prend pas en charge le stockage des données comme FILESTREAM dans les files d'attente de transmission ou cibles. Cela signifie que si une file d'attente est créée, la limite de taille de base de données de 4 Go peut être atteinte. Une autre solution consiste dans ce cas à utiliser un schéma où la conversation Service Broker produit les notifications dont les données FILESTREAM ont besoin pour être envoyées ou reçues.

32

La transmission réelle des données FILESTREAM s'effectue à l'aide de l'accès à distance et via le partage FILESTREAM du conteneur de données FILESTREAM de l'instance SQL Server Express.

33

Considérations relatives au réglage des performances et aux tests Il existe plusieurs éléments importants à prendre en compte lors du paramétrage d'une charge de travail FILESTREAM :      

Vérifiez que le matériel est configuré correctement pour FILESTREAM. Vérifiez que la génération de noms 8.3 est désactivée dans NTFS. Vérifiez que le suivi du dernier temps d'accès est désactivé dans NTFS. Vérifiez que le conteneur de données FILESTREAM n'est pas sur un volume fragmenté. Vérifiez que la taille des données BLOB est appropriée pour le stockage avec FILESTREAM. Vérifiez que les conteneurs de données FILESTREAM ont leurs propres volumes dédiés.

Un facteur important à préciser est la taille du tampon utilisé par le protocole SMB pour la mise en mémoire tampon des lectures de données FILESTREAM. Dans le test avec le système d'exploitation Windows Server® 2003, les mémoires tampons de plus grande taille sont susceptibles d'obtenir un meilleur débit, avec des tailles de mémoire tampon d'un multiple de 60 Ko. De plus grandes tailles de mémoire tampon peuvent être plus efficaces sur d'autres systèmes d'exploitation. Il existe des éléments supplémentaires à prendre en compte lors de la comparaison d'une charge de travail FILESTREAM par rapport à d'autres options de stockage (une fois la charge de travail FILESTREAM paramétrée) :   

Vérifiez que le matériel de stockage et le niveau RAID est identique pour les deux. Vérifiez que le paramètre de compression de volume est identique pour les deux. Notez si FILESTREAM effectue la double écriture en fonction de l'API utilisée et des options spécifiées.

Considérations relatives à la migration des données Un scénario courant avec SQL Server 2008 est la migration des données BLOB existantes dans le stockage FILESTREAM. Alors que la mise à disposition d'un outil ou d'un ensemble de codes complet pour effectuer ces migrations dépasse l'objet de ce livre blanc, voici un exemple simple de flux de travail à suivre :  

      

34

Passez en revue les considérations de taille des données avec FILESTREAM pour vérifier que la taille moyenne des données impliquées est telle que le stockage FILESTREAM est approprié. Vérifiez les informations disponibles sur les combinaisons de fonctionnalités et sur les limitations pour vous assurer que le stockage FILESTREAM fonctionne avec toutes les autres spécifications de l'application. Suivez les recommandations de la section « Considérations relatives à l'optimisation des performances et aux tests » plus haut. Vérifiez que l'instance SQL Server utilise la sécurité intégrée et que FILESTREAM est activé aux niveaux Windows et SQL Server. Assurez-vous que l'emplacement cible du conteneur de données FILESTREAM dispose de suffisamment d'espace disque pour stocker les données BLOB migrées. Créez les groupes de fichiers FILESTREAM requis. Dupliquez les schémas de table impliqués, en modifiant les colonnes BLOB requises de façon à ce qu'elles soient des colonnes FILESTREAM. Migrez toutes les données de type non blob vers le nouveau schéma. Migrez toutes les données BLOB dans les nouvelles colonnes FILESTREAM.

Meilleures pratiques pour l'utilisation de FILESTREAM Cette section regroupe les recommandations qui ont émergé de l'utilisation de FILESTREAM au cours des tests internes et publics de la version préliminaire de la fonctionnalité. Comme avec toutes les recommandations, ce sont des considérations d'ordre général et il est possible qu'elles ne s'appliquent pas à toutes les situations et tous les scénarios. Voici les meilleures pratiques, sans ordre spécifique : 







Évitez si possible les petits ajouts dans un fichier FILESTREAM, car chaque ajout crée un fichier FILESTREAM. Cela peut s'avérer très gourmand en ressources pour les fichiers FILESTREAM volumineux. Si possible, regroupez plusieurs ajouts dans une colonne varbinary (max), puis dans la colonne FILESTREAM lorsqu'un seuil de taille est atteint. Avec une forte charge de travail d'écriture multithread, envisagez de définir le paramètre AllocationSize des API OpenSqlFilestream ou SqlFilestream. Les tailles supérieures initiales d'allocation limiteront le risque de fragmentation au niveau du système de fichiers, surtout lorsqu'elles sont associées à une taille de clusters NTFS comme décrit précédemment. Si les fichiers FILESTREAM sont volumineux, évitez les mises à jour Transact-SQL qui ajoutent des données dans un fichier. Cela met (généralement) les données en attente danstempdb et dans un nouveau fichier physique, ce qui affecte les performances. Lorsque vous lisez une valeur FILESTREAM, considérez les éléments suivants : o Si les lectures requièrent uniquement la lecture des premiers octets, prenez en compte la fonctionnalité de sous-chaîne. o Si le fichier complet doit être lu, pensez à l'accès Win32. o Si des parties aléatoires du fichier doivent être lues, envisagez d'ouvrir le descripteur de fichier avec SetFilePointer. o Lors de la lecture d'un fichier complet, spécifiez l'indicateur FILE_SEQUENTIAL_ONLY. o Utilisez des tailles de mémoire tampon qui sont des multiples de 60 Ko (comme décrit plus haut).

La taille d'un fichier FILESTREAM peut être obtenue sans avoir à ouvrir un descripteur de fichier en ajoutant une colonne calculée persistante à la table qui stocke la taille de fichier FILESTREAM. La colonne calculée est mise à jour lorsque le fichier est déjà ouvert pour les opérations d'écriture.

Conclusion Ce livre blanc a décrit la fonctionnalité FILESTREAM de SQL Server 2008, qui permet le stockage et l'accès aux données BLOB en associant SQL Server 2008 et le système de fichiers NTFS. Pour conclure, il utile de rappeler les principaux points examinés dans ce document. Le stockage FILESTREAM n'est pas approprié dans tous les cas. Selon une étude précédente et le comportement de la fonctionnalité FILESTREAM, les données BLOB d'une taille de 1 Mo et supérieure qui ne sont pas accessibles via Transact-SQL sont mieux adaptées au stockage des données FILESTREAM. Vous devez également tenir compte de la charge de travail de mise à jour, car toute mise à jour partielle d'un fichier FILESTREAM génère une copie complète des fichiers. Avec une charge de travail de mise à jour particulièrement importante, les performances peuvent être telles que FILESTREAM n'est pas approprié.

35

Les détails des combinaisons de fonctionnalités doivent être étudiés pour garantir la réussite du déploiement. Par exemple, dans SQL Server 2008 version finale, la mise en miroir de bases de données ne peut pas s'appliquer à des données FILESTREAM utilisées, ni à une version de l'isolement d'instantané. La plupart des autres combinaisons de fonctionnalités sont prises en charge, mais d'autres peuvent présenter des limitations (telles que la réplication). Ce livre blanc ne fournit pas une taxonomie exhaustive des fonctionnalités et de leur interaction. Consultez les sections les plus récentes de la Documentation en ligne de SQL Server avant le déploiement, plus particulièrement car certaines limitations sont susceptibles d'être soulevées dans les versions ultérieures. Enfin, si FILESTREAM est déployé sans configurer Windows et SQL Server correctement, les niveaux de performances anticipés peuvent ne pas être atteints. Les recommandations et les détails de configuration décrits ci-dessus doivent être utilisés pour éviter les problèmes de performances.

Pour plus d'informations : http://www.microsoft.com/sqlserver/ : Site Web SQL Server http://technet.microsoft.com/fr-fr/sqlserver/ : TechCenter SQL Server http://msdn.microsoft.com/fr-fr/sqlserver/ : Centre de développement SQL Server

Avez-vous trouvé ce document utile ? Nous apprécions vos commentaires. Sur une échelle de 1 (faible) à 5 (excellent), quelle note donneriez-vous à ce document ? Expliquez pourquoi. Par exemple :  

Avez-vous attribué une bonne note car le document fournit de bons exemples, contient des captures d'écran très utiles, est clairement rédigé, ou pour d'autres raisons ? Avez-vous attribué une mauvaise note car le document fournit de mauvais exemples, contient des captures d'écran pas claires ou est mal rédigé ?

Vos commentaires nous aident à améliorer la qualité des livres blancs que nous publions. Envoyez vos commentaires.

36

Des informations supplémentaires sur les données

Short Description

Description

Comments

We need your help!