TFX, qui signifie TensorFlow Extended, est une plate-forme complète de bout en bout permettant de créer des pipelines d'apprentissage automatique prêts pour la production. Il fournit un ensemble d'outils et de composants qui facilitent le développement et le déploiement de systèmes d'apprentissage automatique évolutifs et fiables. TFX est conçu pour relever les défis de la gestion et de l'optimisation des pipelines d'apprentissage automatique, permettant aux scientifiques et ingénieurs des données de se concentrer sur la création et l'itération de modèles plutôt que de gérer les complexités de l'infrastructure et de la gestion des données.
TFX organise le pipeline d'apprentissage automatique en plusieurs couches horizontales, chacune servant un objectif spécifique dans le flux de travail global. Ces couches fonctionnent ensemble pour garantir le flux fluide des données et des artefacts de modèle, ainsi que l'exécution efficace du pipeline. Explorons les différentes couches de TFX pour la gestion et l'optimisation du pipeline :
1. Ingestion et validation des données :
Cette couche est chargée d'ingérer des données brutes provenant de diverses sources, telles que des fichiers, des bases de données ou des systèmes de streaming. TFX fournit des outils tels que TensorFlow Data Validation (TFDV) pour effectuer la validation des données et la génération de statistiques. TFDV aide à identifier les anomalies, les valeurs manquantes et la dérive des données, garantissant ainsi la qualité et la cohérence des données d'entrée.
2. Prétraitement des données :
Dans cette couche, TFX propose TensorFlow Transform (TFT) pour effectuer le prétraitement des données et l'ingénierie des fonctionnalités. TFT permet aux utilisateurs de définir des transformations sur les données d'entrée, telles que la mise à l'échelle, la normalisation, l'encodage à chaud, etc. Ces transformations sont appliquées de manière cohérente pendant la formation et la diffusion, garantissant ainsi la cohérence des données et réduisant le risque de distorsion des données.
3. Formation sur modèle :
TFX exploite les puissantes capacités de formation de TensorFlow dans cette couche. Les utilisateurs peuvent définir et entraîner leurs modèles d'apprentissage automatique à l'aide des API de haut niveau de TensorFlow ou du code TensorFlow personnalisé. TFX fournit des outils tels que TensorFlow Model Analysis (TFMA) pour évaluer et valider les modèles formés à l'aide de métriques, de visualisations et de techniques de découpage. TFMA aide à évaluer les performances du modèle et à identifier les problèmes ou biais potentiels.
4. Validation et évaluation du modèle :
Cette couche se concentre sur la validation et l'évaluation des modèles formés. TFX fournit TensorFlow Data Validation (TFDV) et TensorFlow Model Analysis (TFMA) pour effectuer une validation et une évaluation complètes du modèle. TFDV permet de valider les données d'entrée par rapport aux attentes définies lors de la phase d'ingestion des données, tandis que TFMA permet aux utilisateurs d'évaluer les performances du modèle par rapport à des métriques et des tranches prédéfinies.
5. Déploiement du modèle :
TFX prend en charge le déploiement de modèles dans divers environnements, notamment TensorFlow Serving, TensorFlow Lite et TensorFlow.js. TensorFlow Serving permet aux utilisateurs de proposer leurs modèles sous forme de services Web évolutifs et efficaces, tandis que TensorFlow Lite et TensorFlow.js permettent le déploiement sur des plates-formes mobiles et Web, respectivement. TFX fournit des outils et des utilitaires pour empaqueter et déployer facilement les modèles formés.
6. Orchestration et gestion des flux de travail :
TFX s'intègre aux systèmes de gestion de flux de travail, tels qu'Apache Airflow et Kubeflow Pipelines, pour orchestrer et gérer l'ensemble du pipeline d'apprentissage automatique. Ces systèmes offrent des capacités de planification, de surveillance et de gestion des erreurs, garantissant ainsi l'exécution fiable du pipeline.
En organisant le pipeline en couches horizontales, TFX permet aux data scientists et aux ingénieurs de développer et d'optimiser efficacement les systèmes d'apprentissage automatique. Il fournit une approche structurée et évolutive pour gérer les complexités de l'ingestion des données, du prétraitement, de la formation des modèles, de la validation, de l'évaluation et du déploiement. Avec TFX, les utilisateurs peuvent se concentrer sur la création de modèles de haute qualité et sur la création de valeur pour leur organisation.
TFX pour la gestion et l'optimisation des pipelines comprend des couches horizontales pour l'ingestion et la validation des données, le prétraitement des données, la formation des modèles, la validation et l'évaluation des modèles, le déploiement des modèles, ainsi que l'orchestration et la gestion des flux de travail. Ces couches fonctionnent ensemble pour rationaliser le développement et le déploiement de pipelines d'apprentissage automatique, permettant aux scientifiques et aux ingénieurs de données de créer des systèmes d'apprentissage automatique évolutifs et fiables.
D'autres questions et réponses récentes concernant Principes de base de TensorFlow EITC/AI/TFF:
- Comment peut-on utiliser une couche d'intégration pour attribuer automatiquement les axes appropriés pour un tracé de représentation de mots sous forme de vecteurs ?
- Quel est le but du pooling maximum dans un CNN ?
- Comment le processus d’extraction de caractéristiques dans un réseau neuronal convolutif (CNN) est-il appliqué à la reconnaissance d’images ?
- Est-il nécessaire d'utiliser une fonction d'apprentissage asynchrone pour les modèles de machine learning exécutés dans TensorFlow.js ?
- Quel est le paramètre de nombre maximum de mots de l'API TensorFlow Keras Tokenizer ?
- L'API TensorFlow Keras Tokenizer peut-elle être utilisée pour rechercher les mots les plus fréquents ?
- Qu’est-ce que TOCO ?
- Quelle est la relation entre un certain nombre d'époques dans un modèle d'apprentissage automatique et la précision des prédictions issues de l'exécution du modèle ?
- L'API Pack Neighbours dans Neural Structured Learning de TensorFlow produit-elle un ensemble de données d'entraînement augmenté basé sur des données graphiques naturelles ?
- Qu'est-ce que l'API Pack Neighbours dans l'apprentissage structuré neuronal de TensorFlow ?
Voir plus de questions et réponses dans EITC/AI/TFF TensorFlow Fundamentals