TensorFlow Extended (TFX) est une puissante plateforme open source conçue pour faciliter le développement et le déploiement de modèles d'apprentissage automatique (ML) dans des environnements de production. Il fournit un ensemble complet d'outils et de bibliothèques qui permettent la construction de pipelines ML de bout en bout. Ces pipelines se composent de plusieurs phases distinctes, chacune servant un objectif spécifique et contribuant au succès global du flux de travail ML. Dans cette réponse, nous explorerons les différentes phases du pipeline ML dans TFX.
1. Ingestion de données :
La première phase du pipeline ML consiste à ingérer les données provenant de diverses sources et à les transformer dans un format adapté aux tâches ML. TFX fournit des composants tels que SampleGen, qui lit les données de différentes sources telles que des fichiers CSV ou des bases de données, et les convertit au format Exemple de TensorFlow. Cette phase permet l'extraction, la validation et le prétraitement des données nécessaires aux étapes suivantes.
2. Validation des données :
Une fois les données ingérées, la phase suivante implique la validation des données pour garantir leur qualité et leur cohérence. TFX fournit le composant StatisticsGen, qui calcule des statistiques récapitulatives des données, et le composant SchemaGen, qui déduit un schéma basé sur les statistiques. Ces composants aident à identifier les anomalies, les valeurs manquantes et les incohérences dans les données, permettant aux ingénieurs de données et aux praticiens du ML de prendre les mesures appropriées.
3. Transformation des données :
Après la validation des données, le pipeline ML passe à la phase de transformation des données. TFX propose le composant Transform, qui applique aux données des techniques d'ingénierie de fonctionnalités, telles que la normalisation, l'encodage à chaud et le croisement de fonctionnalités. Cette phase joue un rôle crucial dans la préparation des données pour la formation du modèle, car elle contribue à améliorer les performances et les capacités de généralisation du modèle.
4. Formation sur modèle :
La phase de formation du modèle implique la formation de modèles ML à l'aide des données transformées. TFX fournit le composant Trainer, qui exploite les puissantes capacités de formation de TensorFlow pour entraîner des modèles sur des systèmes distribués ou des GPU. Ce composant permet la personnalisation des paramètres de formation, des architectures de modèles et des algorithmes d'optimisation, permettant aux praticiens du ML d'expérimenter et d'itérer efficacement sur leurs modèles.
5. Évaluation du modèle :
Une fois les modèles formés, la phase suivante est l’évaluation du modèle. TFX fournit le composant Evaluator, qui évalue les performances des modèles formés à l'aide de mesures d'évaluation telles que l'exactitude, la précision, le rappel et le score F1. Cette phase aide à identifier les problèmes potentiels avec les modèles et fournit des informations sur leur comportement sur des données invisibles.
6. Validation du modèle :
Après l'évaluation du modèle, le pipeline ML passe à la validation du modèle. TFX propose le composant ModelValidator, qui valide les modèles formés par rapport au schéma précédemment déduit. Cette phase garantit que les modèles adhèrent au format attendu des données et aide à détecter des problèmes tels que la dérive des données ou l'évolution du schéma.
7. Déploiement du modèle :
La phase finale du pipeline ML consiste à déployer les modèles formés dans des environnements de production. TFX fournit le composant Pusher, qui exporte les modèles entraînés et les artefacts associés vers un système de serveur, tel que TensorFlow Serving ou TensorFlow Lite. Cette phase permet l'intégration de modèles ML dans les applications, leur permettant de faire des prédictions sur de nouvelles données.
Le pipeline ML dans TFX comprend plusieurs phases, notamment l'ingestion de données, la validation des données, la transformation des données, la formation du modèle, l'évaluation du modèle, la validation du modèle et le déploiement du modèle. Chaque phase contribue au succès global du flux de travail ML en garantissant la qualité des données, en permettant l'ingénierie des fonctionnalités, en formant des modèles précis, en évaluant leurs performances et en les déployant dans des environnements de production.
D'autres questions et réponses récentes concernant Principes de base de TensorFlow EITC/AI/TFF:
- Comment peut-on utiliser une couche d'intégration pour attribuer automatiquement les axes appropriés pour un tracé de représentation de mots sous forme de vecteurs ?
- Quel est le but du pooling maximum dans un CNN ?
- Comment le processus d’extraction de caractéristiques dans un réseau neuronal convolutif (CNN) est-il appliqué à la reconnaissance d’images ?
- Est-il nécessaire d'utiliser une fonction d'apprentissage asynchrone pour les modèles de machine learning exécutés dans TensorFlow.js ?
- Quel est le paramètre de nombre maximum de mots de l'API TensorFlow Keras Tokenizer ?
- L'API TensorFlow Keras Tokenizer peut-elle être utilisée pour rechercher les mots les plus fréquents ?
- Qu’est-ce que TOCO ?
- Quelle est la relation entre un certain nombre d'époques dans un modèle d'apprentissage automatique et la précision des prédictions issues de l'exécution du modèle ?
- L'API Pack Neighbours dans Neural Structured Learning de TensorFlow produit-elle un ensemble de données d'entraînement augmenté basé sur des données graphiques naturelles ?
- Qu'est-ce que l'API Pack Neighbours dans l'apprentissage structuré neuronal de TensorFlow ?
Voir plus de questions et réponses dans EITC/AI/TFF TensorFlow Fundamentals