banner

Blog

May 13, 2023

Un apprentissage profond généralisé

Rapports scientifiques volume 13, Numéro d'article : 9079 (2023) Citer cet article

716 accès

1 Altmétrique

Détails des métriques

L'utilisation de modèles de substitution basés sur les réseaux de neurones convolutifs (CNN) augmente de manière significative dans l'analyse de la microstructure et les prédictions de propriétés. L'un des défauts des modèles existants est leur limitation dans l'alimentation de l'information matérielle. Dans ce contexte, une méthode simple est développée pour coder les propriétés des matériaux dans l'image de la microstructure afin que le modèle apprenne des informations sur les matériaux en plus de la relation structure-propriété. Ces idées sont démontrées en développant un modèle CNN qui peut être utilisé pour les matériaux composites renforcés de fibres avec un rapport des modules élastiques de la fibre à la matrice entre 5 et 250 et des fractions volumiques de fibres entre 25 et 75 %, qui s'étendent de bout en bout. -fin de gamme pratique. Les courbes de convergence d'apprentissage, avec un pourcentage d'erreur absolu moyen comme métrique d'intérêt, sont utilisées pour trouver le nombre optimal d'échantillons d'apprentissage et démontrer les performances du modèle. La généralité du modèle formé est présentée à travers ses prédictions sur des microstructures complètement invisibles dont les échantillons sont tirés du domaine extrapolé des fractions volumiques de fibres et des contrastes de modules élastiques. De plus, afin de rendre les prédictions physiquement admissibles, les modèles sont entraînés en appliquant des limites de Hashin-Shtrikman, ce qui a conduit à une amélioration des performances du modèle dans le domaine extrapolé.

Les modèles d'apprentissage automatique (ML), en particulier ses réseaux de neurones artificiels (ANN) de sous-domaine, se sont révélés être des outils précieux dans la conception et l'analyse de matériaux composites1,2,3. Premièrement, ces modèles sont développés en apprenant à partir des points de données générés par des simulations ou collectés à partir d'expériences. Plus tard, lors du déploiement, ce modèle est utilisé pour faire des inférences sur n'importe quel point de données avec les mêmes caractéristiques que celles utilisées lors de l'apprentissage. Généralement, le processus initial de développement du modèle implique des coûts de calcul (mémoire et temps) pour générer des données et former le modèle. L'avantage attendu est qu'avec le modèle développé, les prédictions peuvent être faites dans des délais nettement plus courts. Ici, le nombre de points nécessaires pour former un modèle dépend de plusieurs facteurs tels que la quantité de connaissances préalables du système utilisé dans le processus de formation4, la complexité de la relation entrée-sortie et la précision attendue du modèle. La recherche active se concentre sur l'utilisation de la physique connue, comme les équations gouvernantes ou constitutives, lors de la formation du modèle. Dans cette direction, les réseaux de neurones informés par la physique (PINN)5,6,7 ont attiré beaucoup d'attention pour résoudre avec précision les PDE de la physique sous-jacente. Un échantillonnage d'entrées basé sur les connaissances est une autre façon d'utiliser la physique du problème dans la formation de modèles8,9. En plus de l'infusion de connaissances préalables, le type d'architecture ANN joue un rôle essentiel dans un apprentissage efficace et sans effort. Certaines des architectures ANN réussies incluent ; les réseaux de neurones convolutifs (CNN) pour les données de type image, les réseaux de neurones récurrents (RNN) pour les données séquentielles ou chronologiques et les réseaux antagonistes génératifs (GAN) pour apprendre la distribution des données données.

L'évaluation des propriétés des matériaux composites est une tâche non triviale en raison des hétérogénéités à différentes échelles de longueur et de la nature statistique de la distribution et de la morphologie du constituant. Comme les méthodes expérimentales sont longues et économiquement plus coûteuses, des solutions analytiques sont développées pour trouver les propriétés d'un matériau homogène hypothétique équivalent qui répond de manière similaire au matériau composite. Ces solutions sont obtenues par certaines hypothèses, donc applicables uniquement aux cas plus simples avec des restrictions sur la géométrie et la distribution des constituants. Ces lacunes peuvent être résolues par une homogénéisation basée sur l'analyse par éléments finis (FEA)10,11, où plusieurs problèmes de valeurs limites sont résolus sur un élément de volume représentatif (RVE) en utilisant différents cas de charge. Certaines variantes de cette approche FEA conventionnelle12,13 sont développées pour réduire les coûts de calcul. L'homogénéisation basée sur la méthode asymptotique variationnelle (VAM), par exemple, donne une matrice de matériau efficace en utilisant une analyse par éléments finis unique sans aucun post-traitement, contrairement à la résolution de plusieurs cas avec des étapes de post-traitement tout aussi exigeantes dans l'approche conventionnelle. Pourtant, le temps de calcul et les ressources nécessaires sont suffisamment importants pour ralentir la recherche de meilleurs matériaux composites. Par conséquent, des recherches actives sont menées pour combiner la micromécanique computationnelle et les méthodes d'intelligence artificielle (IA) axées sur les données afin de construire des modèles de substitution6,7,14,15,16,17.

Les modèles CNN ont été largement utilisés dans la micromécanique15,16,18,19,20,21 car les informations sur la microstructure sont généralement disponibles sous forme d'image (pour la 2D) ou sous forme voxélisée (pour la 3D). Le succès de l'architecture CNN sur les réseaux de neurones artificiels simples peut être attribué à sa capacité d'apprentissage des caractéristiques propres et à l'utilisation des caractéristiques de connectivité locales en utilisant les deux hypothèses de base suivantes22. Premièrement, les caractéristiques de bas niveau sont supposées être locales et ne dépendent pas des caractéristiques spatialement éloignées, ce qui est mis en œuvre en connectant des neurones en aval avec uniquement des neurones spatialement voisins en amont via un noyau (ou filtre) de l'opération de convolution. La deuxième hypothèse est qu'une caractéristique apprise à un emplacement spatial est utile à l'autre emplacement. Par conséquent, le noyau avec les mêmes poids est utilisé à tous les emplacements de l'image. Généralement, les modèles CNN sont construits en deux étapes. Tout d'abord, les caractéristiques des données sont apprises par une série d'opérations de convolution et de regroupement sur les échantillons d'entrée. Le deuxième étage contient un perceptron multicouche conventionnel qui prend la sortie du premier étage sous la forme d'un réseau aplati. Les connexions denses de la dernière étape augmentent considérablement le nombre de paramètres apprenables, entraînant ainsi des coûts de calcul plus lourds et des temps d'apprentissage plus longs. Par conséquent, Mann et Kaidindi20 ont développé un modèle CNN dans lequel la sortie de la première étape est directement mappée aux sorties. De plus, à la fin de la première étape, il a été prouvé que l'utilisation d'une mise en commun moyenne globale au lieu d'un simple aplatissement réduisait le nombre de paramètres et le surajustement dans le modèle18,23. Les architectures innovantes de la première étape ont conduit à des modèles CNN efficaces comme AlexNet, VGG et ResNet. Parmi ceux-ci, le modèle VGG a été largement adopté dans de nombreux modèles micromécaniques18,19,24, soit directement par apprentissage par transfert, soit en utilisant son principe d'empilement de couches convolutives avec des opérations de mise en commun retardées. Par exemple, Li et al.19 ont utilisé le modèle VGG-16 élagué pour apprendre et reconstruire les caractéristiques de la microstructure dans lesquelles les couches de haut niveau ou celles éloignées de la couche d'entrée sont supprimées pour réduire le coût de calcul. Nous avons utilisé le principe de fonctionnement de cette architecture simple et standard car l'objectif principal du présent travail est de développer des ensembles de données conscients de l'information matérielle et d'évaluer son influence sur les performances du modèle. Bien que les modèles CNN soient exempts d'ingénierie de fonctionnalités, certains modèles ont démontré qu'en fournissant des entrées modifiées au lieu de simples images brutes, la capacité d'apprentissage du modèle peut être améliorée17,20,25. Par exemple, Mann et Kalidindi20 ont utilisé des corrélations spatiales à deux points de la microstructure ; Cheng et Wagner17 ont développé RVE-net qui utilise des conditions de chargement et une géométrie paramétrée (par des champs de jeu de niveau) comme entrée. Comme la préparation des étiquettes est intensive en calcul, certains modèles CNN se sont développés en utilisant des informations physiques pour apprendre les étiquettes implicitement17,26. Li et Chen26 ont modélisé le comportement constitutif des matériaux hyper-élastiques en intégrant des conditions d'équilibre dans le modèle CNN.

Dans le cas des matériaux composites, il est souhaitable de disposer d'un modèle de substitution pouvant être utilisé dans des gammes plus complètes de fractions volumiques de fibres (\(V_f\)) et de propriétés constitutives. Les modèles existants sont construits soit pour une fraction volumique de fibres particulière, soit pour une petite plage de fractions volumiques de fibres (moins de 50 %) et une combinaison fibre-matériaux particulière. Dans ce travail, nous développons un modèle qui peut être utilisé pour des gammes plus larges de fractions volumiques de fibres \(V_f \in [25\%, 75\%]\) et de contraste de module élastique fibre-matrice (rapport) \(E_{cr } \in [5 250]\) et les capacités prédictives des modèles entraînés sont également évaluées dans le domaine extrapolé de \(V_f \in [10\%, 75\%]\) et \(E_{cr} \ dans [5 500]\). Les images en niveaux de gris de la microstructure fournissent les caractéristiques géométriques comme \(V_f\) mais pas les informations matérielles. Ainsi, si le modèle doit fonctionner avec différents systèmes de matériaux, il doit apprendre à détecter les propriétés des matériaux constitutifs. À cette fin, une méthode simple et nouvelle est développée dans laquelle les informations matérielles sont fournies sous forme de tenseurs d'ordre supérieur qui sont préparés en codant les propriétés matérielles de chaque phase dans une image en niveaux de gris de la microstructure. Une autre manière alternative d'ingérer les propriétés constitutives consiste à utiliser des entrées multimodales ou mixtes. Dans cette approche, les valeurs numériques des propriétés constitutives peuvent être concaténées au tableau aplati après l'opération de convolution, évitant l'opération de codage27. Cependant, cette approche peut nécessiter plus d'échantillons pour connaître la localisation spatiale des propriétés du matériau, alors que les échantillons préparés à partir d'un codage direct sont informés de la localisation spatiale du constituant. De plus, l'admissibilité physique des prédictions du modèle est évaluée à l'aide de limites basées sur la physique. Malgré les niveaux acceptables de mesures de performance, un nombre important de valeurs aberrantes aux limites sont observées dans certaines régions du domaine. Ces valeurs aberrantes sont complètement éliminées en formant les modèles avec une application stricte des limites. À cette fin, nous avons utilisé les limites de Hashin–Shtrikman28,29 dans la formation du modèle.

Le document est structuré comme suit : initialement, la génération des ensembles de données est expliquée avec les détails de la génération de la microstructure, du codage des propriétés des matériaux et de la préparation des étiquettes. Ensuite, des modèles CNN sont construits et leurs performances sont étudiées sur les échantillons invisibles du domaine des ensembles de données d'apprentissage et leur domaine extrapolé à l'aide de graphiques d'erreur en pourcentage absolu. Au final, les limites basées sur la physique sont utilisées pour quantifier et éliminer les prédictions du modèle physiquement inadmissibles.

L'ensemble de données est constitué d'une pile d'échantillons RVE dans laquelle chaque échantillon contient l'image binaire du RVE en entrée et ses propriétés élastiques transversales normalisées en tant qu'étiquettes cibles. Ici, RVE est un élément de volume représentatif du composite unidirectionnel avec des fibres réparties de manière aléatoire de sections transversales circulaires. Soit \({\mathscr {X}}_{bw} \in {\mathbb {R}}^{n_s \times n_w \times n_h \times 1}\) la partie d'entrée de l'ensemble de données contenant \(n_s\ ) nombre d'images RVE avec \(n_w\) et \(n_h\) pixels respectivement en largeur et en hauteur. Avec \({\mathscr {X}}_{bw}\), il faut fournir les propriétés matérielles des constituants, qui seront encodées dans l'image RVE à leurs emplacements spatiaux respectifs, comme expliqué dans la préparation du tableau d'informations matérielles section. À la fin de cette étape de pré-traitement, nous obtenons un tenseur d'ordre supérieur \({\mathscr {X}} \in {\mathbb {R}}^{n_s \times n_w \times n_h \times n_m}\) contenant \(n_m\) couches pour chaque image représentant différentes propriétés d'intérêt. L'entrée (\({\mathscr {X}}_{bw}\)), les tableaux d'informations matérielles (\({\mathscr {X}}\)) et les étiquettes (\({\mathscr {Y}}\) ) de l'ensemble de données sont présentés schématiquement à la Fig. 1.

Schéma des éléments de l'ensemble de données montrant l'image binaire RVE (entrée du modèle), les tableaux d'informations sur les matériaux (préparés au début de l'inférence du modèle) et les propriétés élastiques transversales normalisées avec le module de matrice respectif (sortie du modèle).

Afin de développer un modèle de substitution générique applicable à des applications pratiques plus larges, des ensembles de données sont créés avec une large gamme de fractions volumiques de fibres \((V_f \in [25\%, 75\%])\) et la propriété du matériau constitutif contrastes (\(E_{cr} = E_f/E_m \in [5 250]\)). Pour un \(V_f\ donné), d'après les observations d'Adam et Doner30, les propriétés élastiques transversales des composites unidirectionnels augmentent rapidement à faible contraste de module élastique fibre-matrice \(E_{cr}=E_f/E_m\) puis se stabilisent ; ce phénomène devient plus prononcé à \(V_f\) plus élevé. Le module d'élasticité transverse se stabilise à environ \(E_{cr}=250\) pour \(V_f=75\%\)30 donc le maximum \(E_{cr}\) sélectionné est de 250 dans cette étude. Pour chaque RVE, la fraction volumique de fibres (\(V_f\)) et les propriétés des matériaux (\(E_f\) et \(E_m\)) sont tirées au hasard avec une probabilité uniforme à partir de leur plage respective. Si le \(E_f\) et le \(E_m\) choisis au hasard sont tels que \(E_{cr}\) est en dehors de la plage, une nouvelle paire est tirée jusqu'à ce que le \(E_{cr}\) soit dans sa plage sélectionnée gamme. Le nuage de points de \(V_f\) et \(E_{cr}\) pour 30 000 RVE est illustré à la Fig. 2a. On peut remarquer que les échantillons sont répartis uniformément par rapport à la fraction volumique des fibres mais non uniformément par rapport à \(E_{cr}\). Cela est dû à une plage plus large de \(E_{f} \in [10 ~\text {GPa}, 500~\text {GPa}]\) par rapport à \(E_{m} \in [1~\text { GPa}, 10~\text {GPa}]\) avec une contrainte sur la plage \(E_{cr}\). Pour un \(V_f\ donné), d'après Adam et Doner30 et la Fig. 2b, la propriété élastique transversale varie rapidement à un \(E_{cr}\) inférieur et se stabilise à un \(E_{cr}\) supérieur. Par conséquent, nous supposons que le fait d'avoir moins d'échantillons dans la région de variation de propriété négligeable a un effet mineur sur les performances du modèle.

Caractéristiques de l'ensemble de données \({\mathscr {D}}_1\). (a) La distribution de \(V_f\) et \(E_{cr}\) avec 30 000 RVE, (b–d) Propriété élastique transversale normalisée \({\overline{E}}_{22} = E_{22 }/E_m\) variation avec \(V_f\) et \(E_{cr}\). Notez que \({\overline{E}}_{22}\) varie rapidement à \(E_{cr}\) inférieur et \(V_f\) supérieur, comme indiqué par les bulles de couleur rouge en (c) et (d) .

L'ensemble de données, \({\mathscr {D}}_1\), développé dans ce travail contient 30 000 échantillons avec en entrée \({\mathscr {X}}_{bw} \in {\mathbb {N}}^{ 30 000 \times 256 \times 256 \times 1}\) et les étiquettes \({\mathscr {Y}}\in {\mathbb {R}}^{30 000 \times 3}\), qui seront divisés en 2 :1 pour les performances d'entraînement et de test des modèles, respectivement. Ici, la taille de l'image binaire RVE (c'est-à-dire, représentant la matrice avec 0 et la fibre avec 1) est choisie comme \ (256 \ fois 256 \) suite à une étude de convergence, comme expliqué dans la section suivante.

Notez que l'ensemble de données est conçu comme une union de 120 morceaux dans lesquels chaque bloc contenant 250 échantillons suit la même distribution (de \(V_f\) et \(E_{cr}\)) que l'ensemble de données. Cela permet d'assurer une distribution identique pour les ensembles de données plus petits qui seront utilisés dans les études de convergence pour trouver la taille d'image optimale et la taille optimale de l'ensemble d'apprentissage. Les points suivants énumèrent les étapes impliquées dans la préparation des ensembles de données tandis que la procédure détaillée est donnée dans la dernière partie de cette section,

Pour chaque RVE,

Dessinez \(V_f\) et \(E_{cr}\) dans la plage sélectionnée ;

Générer RVE pour la fraction volumique de fibres respective, \(V_f\) ;

Enregistrez RVE sous forme d'image binaire en noir et blanc, représentant la matrice avec 0 et la fibre avec 1 ;

Les tableaux d'informations sur les matériaux sont préparés à l'aide de l'équation. (4), à partir de l'image binaire lors de la prédiction ;

Les propriétés élastiques transversales sont déterminées à l'aide de simulations basées sur la physique et normalisées avec leur module matriciel respectif.

Des RVE périodiques de matériaux composites unidirectionnels, avec la distribution aléatoire de fibres circulaires, sont générées à l'aide d'un algorithme basé sur l'optimisation récemment développé par les auteurs31. Ici, la périodicité de RVE implique qu'une fibre quittant un ou plusieurs bords doit entrer par le ou les bords opposés de telle sorte que RVE soit continu lorsqu'il se répète dans l'espace, comme indiqué sur la figure 3a. Une telle périodicité est nécessaire pour appliquer des conditions aux limites périodiques lors de l'homogénéisation du RVE afin d'évaluer les propriétés effectives. Les RVE générés à l'aide de cet algorithme ont prouvé le caractère aléatoire de la distribution des fibres et l'isotropie transversale en tant que microstructure réelle à l'aide d'une analyse statistique et micromécanique31. Initialement, les centres de section de fibre \(\varvec{x} = (x, y)\) sont placés aléatoirement dans le domaine RVE \(\Omega\) tout en permettant des recouvrements de fibres. Ensuite, un problème d'optimisation contrainte est résolu pour minimiser l'ampleur du chevauchement des fibres f, comme indiqué dans l'équation. (1).

Exemple d'images binaires RVE (a–d), avec une résolution \(256 \times 256\), à quatre fractions volumiques de fibres (\(V_f\)). (a) montre la périodicité des RVE.

L'amplitude totale du chevauchement f et son gradient peuvent être explicitement évalués31 comme indiqué dans l'Eq. (2)

où \(C_{ij}\) est l'ampleur de l'intrusion de la fibre i dans la fibre j, \(\varvec{H}\) est la fonction en escalier de Heavside, \(d_{ij}\) est la valeur réelle distance entre les centres des fibres i et j, \({\overline{d}}_{ij}\) est la distance entre les centres des fibres lorsqu'elles se touchent extérieurement, et N est le nombre total de fibres dans le RVE. Nous avons utilisé le langage Julia32 pour résoudre le problème d'optimisation Eq. (1). Sur un ordinateur équipé d'un processeur Intel Xeon CPU 2,40 GHz et de 64 Go de RAM, la génération de 30 000 RVE avec une distribution uniforme de \(V_f \in [25\%, 75\%]\) a pris 106,8 min. Le temps de calcul peut varier légèrement en raison de la nature stochastique de \(V_f\) et de la convergence d'optimisation pour chaque RVE. Quatre exemples d'images RVE, générées à l'aide de cette approche, sont présentés avec une résolution \ (256 \ fois 256 \) sur la figure 3.

Dans cette section, la procédure de création de tableaux d'informations matérielles à partir d'une image RVE est développée. Soit le tableau \({\textbf{I}}^{(g)} \in {\mathbb {R}}^{n_w \times n_h}\) représenter une image en niveaux de gris de RVE avec \(N_{ph}\ ) phases matérielles où une valeur de pixel unique, \(p_i \in [0, 1] \subset {\mathbb {R}}\), est utilisée pour indiquer la i-ième phase \(\Omega _i\) pour \(i = 1,2,...,N_{ph}\). Afin d'éviter toute confusion avec la matrice de phase continue de la microstructure, le terme matrice est utilisé pour impliquer une matrice mathématique ou, plus spécifiquement, un agencement rectangulaire de valeurs de pixels d'image.

Nous procédons à la construction de \({\textbf{I}}^{(\lambda )}\), de même taille que \({\textbf{I}}^{(g)}\) mais avec des valeurs de pixel différentes représentant constante matérielle ou propriété \(\lambda \in [\lambda _{min}, \lambda _{max}]\). Les valeurs de pixel de \({\textbf{I}}^{(\lambda )}\) peuvent être évaluées à l'aide de l'équation. (3). Ici, les critères de choix des bornes, \(\lambda _{min}\) et \(\lambda _{max}\), n'ont pas besoin d'être basés sur l'admissibilité de la propriété \(\lambda\) mais plutôt sur la gamme de valeurs utilisées pour construire les ensembles de données. Par exemple, à partir du tableau 1, les limites des modules élastiques peuvent être choisies comme \(E_{min}=1\) GPa et \(E_{max}=500\) GPa au lieu de \(E>0\) pour créer tous les ensembles de données.

où \(\delta (x)\) est la fonction delta de Dirac avec la valeur 1 pour \(x=0\) et 0 sinon. Bien que l'éq. (3) semble compliqué, il normalise simplement la propriété \(\lambda _i\) de la ième phase par rapport à ses bornes à [0, 1].

Dans le cas particulier d'un matériau biphasé, l'Eq. (3) peut être simplifié à l'Eq. (4). Supposons que la phase \(\Omega _1\) et la phase \(\Omega _2\) de \({\textbf{I}}^{(g)}\) soient représentées avec des valeurs de pixel 0 et 1, respectivement. Puis le tableau entier, \({\textbf{I}}^{(\lambda )}\), représentant les informations \(\lambda _1\) pour la phase \(\Omega _1\) et \(\lambda _2\ ) pour la phase \(\Omega _2\), peut être obtenue en utilisant l'équation suivante. (4).

où \({\textbf{J}} \in {\mathbb {R}}^{n_w \times n_h}\) est un tableau de tous les uns. Un schéma du tableau d'informations sur le module élastique, évalué à l'aide de l'équation. (4), est illustré à la Fig. 4. Il convient de souligner qu'il faut faire preuve de prudence lors de l'enregistrement des tableaux d'informations sur les matériaux au format image. Les valeurs de pixel sont généralement stockées sous la forme d'un octet (8 bits), en prenant les valeurs entières dans [0, 255]. Cela peut conduire à 256 divisions discrètes sur la plage sélectionnée de la propriété du matériau au lieu de valeurs continues, car les valeurs flottantes sont arrondies à des nombres entiers. Pour éviter ce problème, nous avons choisi d'évaluer les tableaux d'informations sur les matériaux lors de la prédiction du modèle dans l'étape de prétraitement du modèle, comme le montre la figure 5, au prix d'une légère augmentation du coût de calcul.

Représentation schématique de la préparation du réseau de matériaux du matériau à deux phases (a) image binaire, \({\textbf{I}}^{(g)}\), montrant la matrice et le matériau fibreux, respectivement, par 0 et 1 (b ) tableau de module élastique, \({\textbf{I}}^{(E)}\), préparé avec \(E_{matrice}=10\) GPa, \(E_{fibre}=400\) GPa, \ (E_{min}=1\) GPa et \(E_{max}=500\) GPa.

Dans le présent travail, le coefficient de Poisson de la fibre et de la matrice est choisi comme le même, \(\nu _f\) = \(\nu _m\) = 0,25, pour réduire la complexité de l'analyse. Cependant, cette hypothèse est justifiée en raison de la faible dépendance de l'inadéquation du coefficient de Poisson sur les propriétés élastiques transversales33,34. Par conséquent, les tableaux d'informations sur le coefficient de Poisson ne sont pas inclus dans l'entrée, de sorte que chaque échantillon ne contient que le tableau d'informations sur le module élastique.

Les valeurs cibles des ensembles de données contiennent les propriétés élastiques transversales \({\overline{E}}_{22}, {\overline{E}}_{33}\) et \({\overline{G}}_{ 23}\), normalisé avec le module matriciel respectif. Comme le nombre de RVE (30 000) est relativement plus important, une technique d'homogénéisation efficace sur le plan informatique basée sur la méthode asymptotique variationnelle (VAM)13 est utilisée dans ce travail. Dans cette approche, toute la matrice élastique efficace \({\overline{D}}\) peut être évaluée à l'aide d'une seule simulation à l'aide de l'équation. (5a)13,35,36

où \(\Omega\) est le volume du domaine RVE ; D est la matrice de rigidité du matériau de la phase respective de taille \(p \times p\) ; B est une matrice déformation-déplacement, et \(n_a\) est le nombre total de degrés de liberté actifs (c'est-à-dire, à l'exclusion des degrés de liberté dépendants dus aux conditions aux limites périodiques). Un outil d'homogénéisation, écrit en langage Julia32, est développé pour évaluer la matrice matérielle effective \({\overline{D}}\) montrée dans l'Eq. (5). Notez que l'homogénéisation basée sur VAM utilise également FEA pour évaluer les termes de l'équation. (5b), le rendant ainsi capable de capturer la morphologie RVE et d'assurer la haute fidélité des solutions. Contrairement aux implémentations conventionnelles basées sur FEA10,11, où il faut résoudre autant de problèmes de valeurs limites (BVP) et d'étapes de post-traitement que le nombre de colonnes de matrice de matériaux, l'homogénéisation basée sur VAM donne \({\overline{D }}\) avec une seule solution BVP. Par exemple, sur un ordinateur équipé d'un processeur Intel Xeon CPU 2,40 GHz et de 64 Go de RAM, l'homogénéisation bidimensionnelle de 20 RVE à l'aide d'une analyse de déformation plane a pris environ 8,3 min avec VAM et environ 32,5 min avec l'approche FEA conventionnelle avec le même maillage et chargement. Ce gain en temps de calcul devient plus important dans le cas d'une homogénéisation tridimensionnelle.

Les RVE générés sont modélisés avec une interface parfaite entre la fibre et la matrice. Ensuite, le maillage périodique nécessaire à l'application des conditions aux limites périodiques (PBC) est généré, avec des éléments de déformation plane, à l'aide d'un logiciel open source, gmsh37. Puis Éq. (5) est utilisé pour trouver la matrice de matériau effective transversale \({\overline{D}}\). L'étude de convergence du maillage, réalisée à quatre combinaisons des extrêmes des plages \(V_f \in [25\%, 75\%]\) et \(E_{cr} \in [5, 250]\), a montré que la convergence des propriétés élastiques transversales à environ 50 à 60 000 éléments. Le maillage contient une grande proportion d'éléments quadrilatéraux et des éléments triangulaires en plus petite proportion (\(<2\%\)). Ensuite, la taille RVE optimale (le rapport de la longueur du côté RVE au rayon de la fibre) est déterminée à 30 à la suite d'une autre étude de convergence des propriétés élastiques transversales en faisant varier la taille RVE.

Dans cette section, un modèle CNN inspiré de l'architecture VGG38 est conçu et entraîné à l'aide de l'ensemble de données \({\mathscr {D}}_1\). L'ensemble de données est divisé selon un rapport de 2: 1 pour la formation et les tests de modèles, respectivement. Initialement, une étude de convergence est effectuée sur les tailles de pixel 32, 64, 128, 256, 512 pour trouver la taille d'image RVE optimale. Ensuite, les modèles CNN sont construits et formés aux différentes tailles d'ensembles d'apprentissage pour comprendre l'influence de la taille de l'ensemble de données sur les performances du modèle. On observe que les performances du modèle convergent à une certaine taille d'ensemble d'apprentissage, au-delà de laquelle le gain de performance est insignifiant par rapport au coût de calcul. Plus tard, les performances du modèle sont évaluées par rapport à la fraction volumique des fibres et au contraste des modules élastiques. La capacité de prédiction du modèle formé est étudiée dans le domaine extrapolé (ou invisible). Enfin, les limites Hashin – Shtrikman basées sur la physique sont utilisées pour quantifier et éliminer les prédictions qui se situent en dehors de ces limites.

Dans Ref.38, Simonyan et Zisserman ont montré une efficacité accrue avec des réseaux plus profonds où une petite taille de noyau (\(3 \times 3\)) couplée à une opération de mise en commun retardée est utilisée. Les architectures CNN avec cette idée, connues sous le nom de VGG CNN, ont été largement utilisées dans différents domaines, y compris certaines applications micro-structurelles18,19,24. L'avantage d'utiliser une taille de noyau plus petite avec une profondeur accrue (ou plusieurs couches) par rapport à un grand est de réduire le nombre de paramètres d'apprentissage et d'améliorer probablement la capacité d'apprentissage car la fonction d'activation non linéaire est appliquée plus de fois à travers la profondeur. En outre, l'opération de mise en commun retardée minimise la perte d'informations. Par conséquent, dans le présent travail, nous avons adopté le type d'architecture CNN VGG pour construire le modèle, comme illustré à la Fig. 5. Dans toutes les couches de convolution, la taille du noyau et la foulée sont fixées à (3, 3) et (1, 1 ), tandis que le nombre de filtres est indiqué sur la figure 5 pour chaque opération de convolution. Le pooling moyen est choisi avec une taille de (2, 2) et une foulée de (2, 2), suite à une étude comparative avec une opération de pooling max. Les fonctions d'activation sont des éléments essentiels dans le modèle d'apprentissage en profondeur pour insuffler de la non-linéarité. Ainsi, l'activation de l'unité linéaire rectifiée (relu) est appliquée après chaque couche de convolution. Comme le modèle est construit pour prédire des valeurs réelles continues, une activation linéaire (ou aucune activation) est utilisée sur la couche de sortie. Notez que les ensembles de données étant trop volumineux pour tenir dans la mémoire, les échantillons sont fournis par lots de taille \(n_{bs}=64\). Les paramètres du modèle sont mis à jour après chaque passage d'un lot, appelé itération. Une époque constitue toutes ces itérations, où les données de formation complètes sont envoyées via le modèle ; pour comparer entre les modèles, le nombre d'époques est fixé à 200 dans ce travail. L'écart entre les prédictions du modèle (\({\mathscr {Y}}^{(p)}\)) et les valeurs de vérité terrain (\({\mathscr {Y}}^{(t)}\)) de tous les échantillons d'un lot sont quantifiés à l'aide de la fonction de perte d'erreur quadratique moyenne (MSE), comme indiqué dans l'équation. (6).

où \(y_{ij}^{(t)}\) et \(y_{ij}^{(p)}\) sont les propriétés vraies et prédites d'un échantillon. Ensuite, l'algorithme d'optimisation d'Adam39 est utilisé, avec un taux d'apprentissage de 0,001, pour mettre à jour les poids du modèle de sorte que l'EQM soit minimisée. Ces étapes sont implémentées à l'aide de PyTorch40, une bibliothèque d'apprentissage en profondeur open source avec l'interface de programmation Python, pour la construction et la formation du modèle CNN. La formation d'un modèle avec les hyper-paramètres susmentionnés et dix mille échantillons a pris environ 80 minutes sur une machine avec 32 Go de RAM, un processeur 3,7 GHz et 8 Go NVIDIA GPU RTX-3050.

Schéma du modèle CNN. Ici, \(n_{bs}\) est la taille du lot et \(n_m\) est le nombre de tableaux d'informations sur les matériaux (chacun ayant \(n_w\) lignes et \(n_h\) colonnes), \({\ mathscr {Y}}^{(t)}\) et \({\mathscr {Y}}^{(p)}\) sont des valeurs vraies et prédites.

Le coût de calcul de la formation et de l'inférence du modèle est directement lié à la taille de l'image. Alors qu'une taille d'image inférieure entraîne une demande de calcul moins chère, un sous-échantillonnage gourmand de l'image peut altérer gravement les détails de la microstructure. Par conséquent, dans cette section, nous déterminons la taille d'image RVE appropriée (donc celle des tableaux d'informations sur les matériaux) en évaluant son influence sur les performances du modèle. Au fur et à mesure que la résolution de l'image diminue, des informations microstructurales peuvent être perdues en raison de la pixellisation. Par exemple, la RVE d'un échantillon avec une fraction volumique de fibres \(54,7\%\) est illustrée à la Fig. 6a,b, respectivement, avec une résolution \(128 \times 128\) et \(512 \times 512\).

Sélection optimale de la taille d'image RVE. (a) et (b) montrent un échantillon d'image RVE avec 128 et 512 pixels par côté, respectivement, dans laquelle la longueur du côté RVE est de 30 fois le rayon de la fibre ; (c) Déviation absolue en pourcentage de l'image RVE \(V_f\) avec vrai \(V_f\) à différentes résolutions ; (d) variation de l'erreur absolue moyenne en pourcentage (MAPE) avec la résolution de l'image.

On peut remarquer qu'avec \(128 \times 128\), la matrice entre deux surfaces de fibres est remplacée par un matériau fibreux, et le profil lisse de la section transversale des fibres est devenu grossier. Dans cette étude, nous considérons cinq résolutions différentes (\(32 \times 32\), \(64 \times 64\), \(128 \times 128\), \(256 \times 256\) et \(512 \ fois 512\)) pour comprendre la perte d'information et son influence sur la formation du modèle. Tout d'abord, l'écart en pourcentage absolu (APD) de la fraction volumique de fibre due à la pixellisation de l'image est quantifié à l'aide de l'équation. (7) et tracé sur la Fig. 6c. Ici, \(V_f^{(image)}\) est évalué comme une fraction de pixels blancs (représentant les fibres) dans l'image RVE. Il montre que, par exemple, enregistrer un RVE à une résolution de \(64 \times 64\) conduirait à une déviation d'environ 2 à 4 % de \(V_f^{(true)}\) si \(V_f^{(true) }\) est proche de 75 %. Cet écart se réduit en augmentant la résolution de l'image avec moins de 1 % d'écart pour les résolutions supérieures à \(256 \times 256\). Mais, la sélection d'une résolution plus élevée entraîne une augmentation exponentielle des charges de calcul, donc des temps de formation du modèle plus élevés.

Ensuite, les modèles sont formés avec les cinq résolutions considérées à trois tailles d'ensembles de données différentes (500, 1500, 2500). De plus, à chaque combinaison de taille et de résolution d'ensemble de données, dix réalisations de modèles sont développées (avec les mêmes échantillons d'apprentissage et hyper-paramètres) pour tenir compte de la nature statistique du processus d'apprentissage. Ensuite, les performances de ces modèles sont évaluées sur les échantillons de test et quantifiées avec un pourcentage d'erreur absolu moyen (MAPE) ; Sur la figure 6d, la moyenne du MAPE évalué sur dix réalisations est tracée par rapport aux résolutions d'image avec l'écart type du MAPE sous forme de barres d'erreur. On peut remarquer qu'avec l'augmentation de la résolution et de la taille de l'ensemble d'apprentissage, la MAPE et l'incertitude ont diminué.

À partir de l'analyse ci-dessus, nous avons sélectionné \ (256 \ fois 256 \) la résolution d'image pour la formation du modèle car la réduction de la déviation \ (V_f \) (voir Fig. 6c) et MAPE (voir Fig. 6d) n'est pas significative avec un augmentation de la taille de l'image de 256 à 512, par rapport à l'augmentation du coût de calcul.

Afin de trouver le nombre optimal d'échantillons requis pour un apprentissage efficace, différents modèles sont entraînés avec le nombre d'échantillons \(n_s \in \{500\), 1 000, 1 500, 2 000, 4 000, 6 000, 8 000, 10 000, 15 000, 20 000\(\}\). Comme expliqué dans la section précédente, ces sous-ensembles de l'ensemble de données sont assurés d'avoir le même type de distribution que celui de l'ensemble de données. De plus, pour comprendre la nature statistique du processus de formation, 10 réalisations différentes du même modèle sont formées à chacun des \(n_s\) en utilisant le même ensemble d'échantillons et d'hyperparamètres. Ainsi, au total, 100 modèles sont formés avec dix sous-ensembles de l'ensemble de données et 10 réalisations à chacun des sous-ensembles. Ensuite, ces modèles formés sont testés sur des échantillons non vus pendant la formation, la taille de l'ensemble de test étant sélectionnée comme la moitié de la taille de l'ensemble de formation. En d'autres termes, par exemple, des modèles entraînés sur 5000 échantillons sont testés à l'aide de 2500 échantillons non vus. Erreur absolue moyenne en pourcentage (MAPE), telle que définie dans l'Eq. (8), est utilisé pour mesurer la capacité prédictive du modèle formé.

où \(n_{test}\) est le nombre d'échantillons de test, et les exposants t et p indiquent les valeurs vraies et prédites de y. Bien que MAPE soit plus simple à interpréter et indépendant de l'échelle, il présente certaines limites, comme tendre vers l'infini ou indéfini lorsque la valeur réelle approche ou est égale à zéro. Cependant, dans le présent travail, la normalisation des propriétés effectives avec le module de matrice respectif élimine les problèmes tels que les valeurs vraies ou cibles \(y_i^{(t)}\) sont toujours supérieures ou égales à un. En outre, il est important de noter que l'erreur absolue en pourcentage traite différemment la sous-estimation et la surestimation.

La variation de la moyenne et de l'écart type de MAPE, évaluée sur l'ensemble de tests sur 10 réalisations, est tracée en fonction du nombre d'exemples d'apprentissage sur la Fig. 7. Nous appelons ces courbes des courbes de convergence d'apprentissage (LCC). Sur la figure 7, on peut observer que MAPE des trois propriétés transversales normalisées (\({\overline{E}}_{22}\), \({\overline{E}}_{33}\), \ ({\overline{G}}_{23}\)) a convergé vers un ensemble d'apprentissage de 10 000 échantillons. De plus, comme indiqué par les barres d'erreur, l'écart type a considérablement diminué avec la taille de l'ensemble d'apprentissage. À partir de cette analyse de convergence, nous avons sélectionné une taille d'ensemble d'apprentissage de 10 000 comme optimale et procédons à une analyse rigoureuse des modèles formés avec cette taille d'ensemble de données.

Courbes de convergence d'apprentissage des modèles entraînés sur l'ensemble de données \({\mathscr {D}}_1\) montrant la variation du MAPE de chaque propriété avec la taille de l'ensemble d'entraînement. Les barres d'erreur indiquent l'écart type de MAPE sur dix réalisations du modèle qui sont formées avec le même ensemble d'échantillons et d'hyperparamètres.

Les propriétés élastiques transversales (c'est-à-dire les propriétés cibles) dépendent de la fraction volumique de la fibre \(V_f\) et du contraste du module élastique \(E_{cr}\), comme le montre la Fig. 2. Il est difficile de déduire les performances du modèle en ce qui concerne à ces paramètres en utilisant MAPE, car il écrase les informations à tous les \(V_f\) ou tous les \(E_{cr}\) en une seule valeur, voir Eq. (8). Ainsi, afin de bien comprendre la capacité prédictive du modèle, le pourcentage d'erreur absolu (APE) de chaque prédiction sera étudié. Sur la figure 8, les diagrammes de dispersion montrent l'APE des trois prédictions de propriété pour 5000 échantillons de test par rapport à \(V_f\) et \(E_{cr}\). On peut remarquer qu'à l'exception de quelques valeurs aberrantes, le pourcentage d'erreur absolu est inférieur à 5 %. La fonction de distribution cumulative sur le côté droit de la figure 8 montre la fraction d'échantillons en dessous d'un APE particulier. Par exemple, 86 % des échantillons ont une erreur de prédiction absolue inférieure à 3 % et inférieure à 5 % APE pour 97 % des échantillons de test.

Les diagrammes de dispersion montrent le pourcentage d'erreur absolu (APE) des prédictions de propriétés cibles, sur 5000 échantillons de test, avec \(V_f\) et \(E_{cr}\). La fonction de distribution cumulative sur le côté droit montre la fraction d'échantillons sous un APE particulier ; Par exemple, il montre que l'APE de la prédiction du modèle est inférieure à 5 % sur 97 % des échantillons de test.

Dans les sections précédentes, le modèle de substitution est construit et formé pour prédire dans une large gamme de \(V_f \in [25\%, 75\%]\) et \(E_{cr} = E_f/E_m \ in [5 , 250]\). De plus, ces modèles sont testés sur des échantillons non vus appartenant à la même gamme, et les performances se situent dans des niveaux acceptables. Il serait intéressant de voir comment le modèle se comporte dans le domaine extrapolé qui n'a pas été pris en compte lors de la formation. Dans la Fig. 9, domaines extrapolés des ensembles de données (\({\mathscr {D}}_2\), \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\)) par rapport au domaine de l'ensemble de données principal \({\mathscr {D}}_1\) sont représentés schématiquement. Dans ces domaines extrapolés, la variation de la propriété n'est pas significative à partir de sa région de connexion du domaine natif, comme le montre le schéma du milieu et de droite de la Fig. 9. Ainsi, le modèle devrait prédire avec une précision raisonnablement bonne comme dans le domaine natif. Surtout, un tel exercice aidera à évaluer la généralité du modèle CNN et sa capacité à prédire les propriétés de microstructures complètement invisibles dont les caractéristiques ne sont pas présentes dans l'ensemble de données de formation. Pour tester les performances du modèle dans ces domaines extraterrestres, la taille des ensembles de données est sélectionnée proportionnellement à celle de la taille du domaine. Comme la plage de \(E_{cr}\) est approximativement la même pour tous les domaines, le nombre d'échantillons de test est calculé sur la base de la plage \(V_f\). Pour les ensembles de données \({\mathscr {D}}_1\) et \({\mathscr {D}}_2\), avec une plage de 50 % \(V_f\), 5000 échantillons de test sont utilisés, et pour les deux autres ensembles de données qui ont une plage \(V_f\) de 15 %, 1 500 échantillons de test sont utilisés. L'APE des prédictions du modèle sur ces ensembles de données est illustré à la Fig. 10, par rapport à \(V_f\) et \(E_{cr}\), ainsi que la fonction de distribution cumulative de l'APE. Dans le cas de \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\), comme le montre la Fig. 10b,c, l'APE montre une tendance à la hausse avec une diminution de \(V_f\ ). Cela pourrait être dû à une déviation des informations structurelles de RVE avec une diminution de \(V_f\), bien que sa propriété cible ne change pas de manière significative. Dans les trois domaines extrapolés, l'APE des prédictions du modèle pour au moins 85 à 90 % des échantillons de test est inférieur à 5 %. Cela suggère que le modèle entraîné peut être utilisé dans le domaine extraterritorial de \(V_f\) et \(E_{cr}\).

Représentation schématique des trois domaines extrapolés (avec les ensembles de données \({\mathscr {D}}_2\), \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\)) avec le domaine de l'ensemble de données principal \({\mathscr {D}}_1\). Notez que les fluctuations de \({\overline{E}}_{22}\) au plus haut \(V_f\) et \(E_{cr}\) ne sont pas indiquées.

Le pourcentage d'erreur absolu (APE) des prédictions du modèle lorsqu'il est testé dans les domaines extrapolés \({\mathscr {D}}_2\), \({\mathscr {D}}_3\) et \({\mathscr {D} }_4\). Dans chacune des sous-parcelles (a–c), les deux premiers diagrammes de dispersion montrent l'APE des trois propriétés par rapport à la fraction volumique de fibre \(V_f\) et au contraste des modules élastiques \(E_{cr}\). La fonction de distribution cumulative de l'APE est indiquée sur le côté droit.

Dans les sections précédentes, nous avons analysé les performances du modèle sur les échantillons invisibles du domaine de l'ensemble de données formé et sur les ensembles de données des domaines extrapolés. On observe que le pourcentage d'erreur absolu des prédictions se situe dans les limites acceptables. Cependant, les prédictions du modèle peuvent ou non être physiquement admissibles. Dans cette section, l'admissibilité de ces prédictions est évaluée à l'aide des limites basées sur la physique disponibles dans la littérature29. Nous utilisons des bornes de Hashin–Shtrikman (HS) plus simples et relativement plus serrées28, qui peuvent être évaluées à l'aide de l'équation. (dix). En général, les limites inférieure et supérieure des propriétés effectives du matériau composite sont séparées par une grande amplitude, comme le montre la figure 11a. On peut remarquer que les limites s'élargissent avec l'augmentation de \(V_f\) et du rapport de contraste \(E_{cr}\). Et, les propriétés transversales se situent plus près de la limite inférieure (comme le montre la Fig. 11b, c), il est donc possible que la prédiction du modèle sorte de la limite inférieure.

où les suffixes f et m font référence à la fibre et à la matrice, K est le module de masse, G est le module de cisaillement, E est le module de Young, le superfix \((-)\) et \((+)\) indiquent les limites inférieure et supérieure .

La variation des limites de Hashin – Shtrikman de l'ensemble de données \({\mathscr {D}}_1\) avec la fraction volumique de fibre \(V_f\) et le contraste des modules élastiques \(E_{cr}\). (a) montre l'étendue de la séparation entre les bornes normalisées avec les modules matriciels \(E_m\); (b) et (c) montrent que la propriété effective \(E_{22}\) est très proche de la borne inférieure.

Le nombre de valeurs aberrantes par rapport aux bornes inférieures HS est évalué sur les 10 réalisations du modèle, qui sont entraînées sur 10 000 échantillons de l'ensemble de données \({\mathscr {D}}_1\). Le nombre maximal de valeurs aberrantes pour chaque propriété avec les quatre ensembles de données est répertorié dans le tableau 2.

Il montre qu'un grand nombre de prédictions de modèles sur les ensembles de données \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\) sont en dessous de la limite inférieure. Nous procédons maintenant à l'application de ces limites lors de la formation du modèle de sorte que toutes les prédictions du modèle se situent dans les limites. Lors de la formation d'un modèle, en général, les limites peuvent être appliquées de deux manières. Dans la première approche, dite d'application souple, la fonction de perte du modèle est régularisée par l'addition pondérée des erreurs quadratiques moyennes de l'écart des prédictions aux bornes. Généralement, les poids de ces termes de perte supplémentaires sont des hyper-paramètres qui doivent être réglés manuellement. Dans la deuxième approche, connue sous le nom d'application stricte, les prédictions du modèle sont transformées pour se situer dans les limites, évitant ainsi des hyper-paramètres supplémentaires. Dans le présent travail, nous avons choisi d'imposer des limites de manière dure. Dans cette approche, l'architecture et la formation du modèle sont similaires à celles illustrées à la Fig. 5, à l'exception de quelques changements à la fin du réseau. La sortie de la dernière couche du réseau est mappée sur \([-1, 1]\) en appliquant la fonction d'activation \(\tanh\). Ensuite, ces valeurs sont encore mises à l'échelle pour se situer entre les limites inférieure et supérieure, comme indiqué dans l'équation. (11). Il convient de mentionner que les sorties du modèle ne sont pas contraintes aux limites, mais le modèle est formé pour prédire les valeurs entre les limites.

où \(y^{*} \in [-1, 1]\) est la sortie de la fonction d'activation \(\tanh\) sur la dernière couche, \(y^{(-)}\) et \(y ^{(+)}\) sont les limites inférieure et supérieure. On observe que, contrairement à l'entraînement sans bornes, l'entraînement avec bornes est sensible au taux d'apprentissage ; les modèles à limites imposées sont entraînés avec un taux d'apprentissage optimal de 0,0005. Le MAPE global des prédictions du modèle, après 200 époques, est d'environ 1,72 dans la même plage qu'avec les modèles entraînés sans limites (voir le tableau 1). Néanmoins, l'erreur absolue en pourcentage des prédictions dans les domaines extrapolés \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\) est améliorée, comme le montre la Fig. 12, en plus à éliminer le nombre de valeurs aberrantes, pour tous les domaines. Cela suggère que, pour les prédictions dans le domaine extrapolé, en particulier vers les fractions volumiques de fibres inférieures, l'application des limites est importante pour prédire les propriétés physiquement valides.

Erreur absolue en pourcentage (APE) des prédictions du modèle à limites imposées lorsqu'elles sont testées sur les ensembles de données \({\mathscr {D}}_1\), \({\mathscr {D}}_2\), \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\). En (a–d), les deux premiers diagrammes de dispersion indiquent l'APE des prédictions du modèle par rapport à la fraction volumique de fibres \(V_f\) et au contraste des modules élastiques \(E_{cr}\). Sur le côté droit, la fonction de distribution cumulative de l'APE montre la fraction d'échantillons en dessous de 3 % APE et 5 % APE.

Des modèles CNN sont développés pour prédire les propriétés élastiques transversales normalisées des composites renforcés de fibres. Afin d'augmenter l'applicabilité du modèle, il est formé sur une large gamme de fractions volumiques de fibres dans [25%, 75%] et le rapport de contraste du module élastique fibre-matrice dans [5, 250]. Il a été démontré que le modèle fournit de très bonnes prédictions même sur des microstructures complètement invisibles qui se situent en dehors de la plage considérée de fractions volumiques (dans [10 %, 25 %]) et de rapports de module (dans [250, 500]). En outre, l'étude a démontré qu'une préparation minutieuse des ensembles de données et une conception de la formation sont essentielles pour obtenir de meilleures performances du modèle. En résumé,

Une méthode simple et nouvelle est développée pour coder les propriétés matérielles des constituants dans l'image en niveaux de gris de la microstructure afin que le modèle apprenne les informations matérielles avec les informations géométriques.

L'image binaire RVE avec une résolution de \(256 \fois 256\) présente un écart minimum de \(V_f\) (\(<1\%\)) par rapport à vrai \(V_f\) ; En outre, MAPE s'avère avoir convergé à cette résolution d'image RVE.

La nature stochastique du processus d'apprentissage est quantifiée à l'aide de la moyenne et de l'écart-type de MAPE, évalués sur 10 réalisations du modèle d'apprentissage.

En utilisant les courbes de convergence d'apprentissage, la taille optimale de l'ensemble d'apprentissage est déterminée à dix mille au-delà de laquelle la réduction de MAPE des prédictions du modèle s'avère négligeable.

Dans le domaine de l'ensemble d'apprentissage, au moins 96 % des 5 000 prédictions de l'échantillon de test ont un pourcentage d'erreur absolu (APE) inférieur à 5 %.

Dans le cas des domaines extrapolés, au moins environ 85 à 90 % des échantillons de test ont un APE inférieur à 5 %.

À la fin, nous avons formé les modèles avec une application stricte des limites HS basées sur la physique de sorte que les prédictions du modèle soient toujours physiquement admissibles. De plus, cela a amélioré la métrique de performance APE du modèle dans les domaines extrapolés \({\mathscr {D}}_3\) et \({\mathscr {D}}_4\).

L'idée de codage de matériau proposée peut être utilisée pour construire des modèles de substitution pour des matériaux hétérogènes et anisotropes de combinaisons de constituants variées en utilisant la pile de tableaux d'informations sur les matériaux pertinents comme entrée dans le réseau. De plus, comme le modèle couvre une large gamme de fractions volumiques de fibres et de contrastes de modules élastiques, les modèles entraînés peuvent être utilisés dans la conception inverse des microstructures qui donne les propriétés d'intérêt.

Les jeux de données utilisés et/ou analysés au cours de la présente étude sont disponibles sur le lien suivant https://github.com/338rajesh/mpi-cnn.

Liu, X., Tian, ​​S., Tao, F. & Yu, W. Un examen des réseaux de neurones artificiels dans la modélisation constitutive des matériaux composites. Compos. Partie B Ing. 224, 109152. https://doi.org/10.1016/j.compositesb.2021.109152 (2021).

Article Google Scholar

Lefik, M., Boso, D. & Schrefler, B. Réseaux de neurones artificiels dans la modélisation numérique des composites. Calcul. Méthodes Appl. Moi. Ing. 198, 1785–1804. https://doi.org/10.1016/j.cma.2008.12.036 (2009).

Article ANNONCES MATH Google Scholar

Chakraborty, D. Prédiction de la délamination basée sur un réseau de neurones artificiels dans les composites stratifiés. Mater. Conception 26, 1–7. https://doi.org/10.1016/j.matdes.2004.04.008 (2005).

Article CAS Google Scholar

Karniadakis, GE et al. Apprentissage automatique basé sur la physique. Nat. Rév. Phys. 3, 422–440. https://doi.org/10.1038/s42254-021-00314-5 (2021).

Article Google Scholar

Raissi, M., Perdikaris, P. & Karniadakis, G. Réseaux de neurones informés par la physique : un cadre d'apprentissage en profondeur pour résoudre des problèmes directs et inverses impliquant des équations aux dérivées partielles non linéaires. J. Comput. Phys. 378, 686–707. https://doi.org/10.1016/j.jcp.2018.10.045 (2019).

Article ADS MathSciNet MATH Google Scholar

Rezaei, S., Harandi, A., Moeineddin, A., Xu, B.-X. & Reese, S. Une formulation mixte pour les réseaux de neurones informés par la physique en tant que solution potentielle pour les problèmes d'ingénierie dans des domaines hétérogènes : comparaison avec la méthode des éléments finis. https://doi.org/10.48550/ARXIV.2206.13103 (2022).

Henkes, A., Wessels, H. & Mahnken, R. La physique a informé les réseaux de neurones pour la micromécanique du continuum. Calcul. Méthodes Appl. Méca. Ing. 393, 114790. https://doi.org/10.1016/j.cma.2022.114790 (2022).

Article ADS MathSciNet MATH Google Scholar

Bessa, M. et al. Un cadre pour l'analyse des matériaux basée sur les données dans l'incertitude : contrer la malédiction de la dimensionnalité. Calcul. Méthodes Appl. Méca. Ing. 320, 633–667. https://doi.org/10.1016/j.cma.2017.03.037 (2017).

Article ADS MathSciNet MATH Google Scholar

Morand, L., Link, N., Iraki, T., Dornheim, J. & Helm, D. Exploration efficace des espaces de microstructure-propriété via l'apprentissage actif. Devant. Mater.https://doi.org/10.3389/fmats.2021.824441 (2022).

Article Google Scholar

Melro, A., Camanho, P. & Pinho, S. Influence des paramètres géométriques sur la réponse élastique des matériaux composites unidirectionnels. Compos. Structure. 94, 3223–3231. https://doi.org/10.1016/j.compstruct.2012.05.004 (2012).

Article Google Scholar

Tian, ​​W., Qi, L., Chao, X., Liang, J. & Fu, M. Condition aux limites périodique et son algorithme d'implémentation numérique pour l'évaluation des propriétés mécaniques effectives des composites à microstructures compliquées. Compos. Partie B Ing. 162, 1–10. https://doi.org/10.1016/j.compositesb.2018.10.053 (2019).

Article Google Scholar

Higuchi, R., Yokozeki, T., Nagashima, T. & Aoki, T. Évaluation des propriétés mécaniques des plastiques renforcés de fibres de carbone non circulaires à l'aide de la micromécanique computationnelle basée sur XFEM. Compos. Partie A Appl. Sci. Fabrique. 126, 105556. https://doi.org/10.1016/j.compositesa.2019.105556 (2019).

Article CAS Google Scholar

Yu, W. & Tang, T. Méthode asymptotique variationnelle pour l'homogénéisation des cellules unitaires de matériaux périodiquement hétérogènes. Int. J. Structure des solides. 44, 3738–3755. https://doi.org/10.1016/j.ijsolstr.2006.10.020 (2007).

Article MathSciNet MATH Google Scholar

Pathan, MV et al. Prédictions des propriétés mécaniques des composites à fibres unidirectionnelles par apprentissage automatique supervisé. Sci. Rep.https://doi.org/10.1038/s41598-019-50144-w (2019).

Article PubMed PubMed Central Google Scholar

Liu, H. & Zhang, Y. Méthode d'évaluation de l'état des dommages à l'acier de construction basée sur l'image à l'aide d'un algorithme d'apprentissage en profondeur. Mesure 133, 168–181. https://doi.org/10.1016/j.measurement.2018.09.081 (2019).

Annonces d'article Google Scholar

Rao, C. & Liu, Y. Réseau neuronal convolutionnel tridimensionnel (3d-cnn) pour l'homogénéisation de matériaux hétérogènes. Calcul. Mater. Sci. 184, 109850. https://doi.org/10.1016/j.commatsci.2020.109850 (2020).

Article Google Scholar

Cheng, L. & Wagner, GJ Un réseau représentatif d'éléments volumiques (RVE-net) pour accélérer l'analyse RVE, l'identification des matériaux à l'échelle microscopique et la caractérisation des défauts. Calcul. Méthodes Appl. Méca. Ing. 390, 114507. https://doi.org/10.1016/j.cma.2021.114507 (2022).

Article ADS MathSciNet MATH Google Scholar

Kondo, R., Yamakawa, S., Masuoka, Y., Tajima, S. & Asahi, R. Reconnaissance de la microstructure à l'aide de réseaux de neurones convolutionnels pour la prédiction de la conductivité ionique dans la céramique. Acta Materialia 141, 29–38. https://doi.org/10.1016/j.actamat.2017.09.004 (2017).

Article ADS CAS Google Scholar

Li, X. et al. Une approche d'apprentissage par transfert pour la reconstruction de microstructures et les prédictions de propriétés de structure. Sci. Rep.https://doi.org/10.1038/s41598-018-31571-7 (2018).

Article PubMed PubMed Central Google Scholar

Mann, A. & Kalidindi, SR Développement d'un modèle CNN robuste pour capturer les liens microstructure-propriété et les fermetures de propriétés de construction soutenant la conception des matériaux. Devant. Mater.https://doi.org/10.3389/fmats.2022.851085 (2022).

Article Google Scholar

Ejaz, F. et al. Réseaux de neurones convolutifs pour l'approximation des conductivités électriques et thermiques des composites cu-CNT. Sci. Rep.https://doi.org/10.1038/s41598-022-16867-z (2022).

Article PubMed PubMed Central Google Scholar

Khan, A., Sohail, A., Zahoora, U. & Qureshi, AS Une enquête sur les architectures récentes des réseaux de neurones à convolution profonde. Artef. Renseignement. Rév. 53, 5455–5516. https://doi.org/10.1007/s10462-020-09825-6 (2020).

Article Google Scholar

Lin, M., Chen, Q. & Yan, S. Réseau en réseau. https://doi.org/10.48550/ARXIV.1312.4400 (2013).

Zhou, K., Sun, H., Enos, R., Zhang, D. et Tang, J. Exploiter l'apprentissage en profondeur pour la prédiction basée sur la physique de la résistance composite avec des incertitudes microstructurales. Calcul. Mater. Sci. 197, 110663. https://doi.org/10.1016/j.commatsci.2021.110663 (2021).

Article Google Scholar

Cecen, A., Dai, H., Yabansu, YC, Kalidindi, SR et Song, L. Liens structure-propriété matérielle à l'aide de réseaux de neurones convolutionnels tridimensionnels. Acta Materialia 146, 76–84. https://doi.org/10.1016/j.actamat.2017.11.053 (2018).

Article ADS CAS Google Scholar

Li, L. & Chen, C. Réseaux de neurones à convolution basés sur l'équilibre pour la modélisation constitutive de matériaux hyperélastiques. J. Mech. Phys. Solides 164, 104931. https://doi.org/10.1016/j.jmps.2022.104931 (2022).

Article Google Scholar

Li, M. et al. Un réseau neuronal convolutif d'apprentissage en profondeur et un modèle de fusion hybride perceptron multicouche pour prédire les propriétés mécaniques de la fibre de carbone. Mater. Conception 227, 111760. https://doi.org/10.1016/j.matdes.2023.111760 (2023).

Article CAS Google Scholar

Hashin, Z. Sur le comportement élastique des matériaux renforcés de fibres de géométrie de phase transversale arbitraire. J. Mech. Phys. Solides 13, 119-134. https://doi.org/10.1016/0022-5096(65)90015-3 (1965).

Annonces d'article Google Scholar

Qu, J. & Cherkaoui, M. Principes fondamentaux de la micromécanique des solides (Wiley, 2006).

Réserver Google Scholar

Adams, DF & Doner, DR Chargement normal transversal d'un composite unidirectionnel. J. Compos. Mater. 1, 152–164. https://doi.org/10.1177/002199836700100205 (1967).

Annonces d'article Google Scholar

Nakka, R., Harursampath, D., Pathan, M. & Ponnusami, SA Une approche informatique efficace pour générer des RVE de diverses formes d'inclusion/fibre. Compos. Structure. 291, 115560. https://doi.org/10.1016/j.compstruct.2022.115560 (2022).

Article Google Scholar

Jung, J., Yoon, JI, Park, HK, Kim, JY et Kim, HS Une approche d'apprentissage automatique efficace pour établir des liens structure-propriété. Calcul. Mater. Sci. 156, 17–25. https://doi.org/10.1016/j.commatsci.2018.09.034 (2019).

Article Google Scholar

Gibson, Principes RF de la mécanique des matériaux composites (CRC Press, 2016).

Réserver Google Scholar

Whitney, JM & Riley, MB Propriétés élastiques des matériaux composites renforcés de fibres. AIAA J. 4, 1537–1542. https://doi.org/10.2514/3.3732 (1966).

Article ADS CAS Google Scholar

Tang, T. & Yu, W. Modélisation micromécanique asymptotique variationnelle de matériaux piézoélectriques hétérogènes. Méca. Mater. 40, 812–824. https://doi.org/10.1016/j.mechmat.2008.04.007 (2008).

Article Google Scholar

Pitchai, P., Berger, H. & Guruprasad, P. Étude de l'influence de l'interface dans un composite triphasé à l'aide d'une technique d'homogénéisation basée sur la méthode asymptotique variationnelle. Compos. Structure. 233, 111562. https://doi.org/10.1016/j.compstruct.2019.111562 (2020).

Article Google Scholar

Geuzaine, C. & Remacle, J.-F. Gmsh : un générateur de maillage d'éléments finis 3D avec des fonctions de pré- et post-traitement intégrées. Int. J. Numer. Méthodes Ing. 79, 1309–1331. https://doi.org/10.1002/nme.2579 (2009).

Article MathSciNet MATH Google Scholar

Simonyan, K. & Zisserman, A. Réseaux convolutionnels très profonds pour la reconnaissance d'images à grande échelle. https://doi.org/10.48550/ARXIV.1409.1556 (2014).

Kingma, DP & Ba, J. Adam : Une méthode d'optimisation stochastique. https://doi.org/10.48550/ARXIV.1412.6980 (2014).

Paszke, A. et al. Pytorch : une bibliothèque d'apprentissage en profondeur hautes performances de style impératif. Adv. Information neuronale. Processus. Syst. 32, 8026–8037 (2019).

Google Scholar

Télécharger les références

Laboratoire NMCAD, Département de génie aérospatial, Institut indien des sciences, Bangalore, Karnataka, Inde

Rajesh Nakka et Dineshkumar Harursampath

Aeronautics and Aerospace Research Centre, Department of Engineering, City, University of London, Northampton Square, Londres, Royaume-Uni

Sathiskumar A Ponnusami

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

RN a planifié et exécuté la recherche et rédigé le projet de document original ; RN et SAP ont conçu et planifié la recherche ; RN supervisé par SAP et DH ; SAP, DH et RN ont relu, révisé et édité le manuscrit.

Correspondance à Sathiskumar A Ponnusami.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Nakka, R., Harursampath, D. & Ponnusami, SA Un modèle de substitution généralisé basé sur l'apprentissage en profondeur pour l'homogénéisation utilisant le codage des propriétés matérielles et les limites basées sur la physique. Sci Rep 13, 9079 (2023). https://doi.org/10.1038/s41598-023-34823-3

Télécharger la citation

Reçu : 11 novembre 2022

Accepté : 09 mai 2023

Publié: 05 juin 2023

DOI : https://doi.org/10.1038/s41598-023-34823-3

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER