Table of Contents
Fetching ...

Descripción automática de secciones delgadas de rocas: una aplicación Web

Stalyn Paucar, Christian Mejía-Escobar y Víctor Collaguazo

TL;DR

Este trabajo aborda la automatización de la descripción de láminas delgadas de rocas mediante una combinación de visión por computadora y procesamiento de lenguaje natural. Entrena un sistema CNN-Transformer sobre un dataset propio de 5600 imágenes distribuidas en 14 categorías y 300-token descripciones, logrando un BLEU de 0.71 con EfficientNetB7 y desplegándolo como una aplicación Web para uso público. Los resultados muestran que, si bien la descripción de atributos como tipo de roca y textura es más precisa, minerales y forma/hábito son más desafiantes, destacando la necesidad de métodos complementarios como segmentación y detección de objetos. El trabajo ofrece una plataforma interactiva con ventajas educativas y profesionaless, y propone direcciones futuras para ampliar la cobertura petrográfica y mejorar la precisión mediante datos adicionales y nuevas arquitecturas.

Abstract

The identification and characterization of various rock types is one of the fundamental activities for geology and related areas such as mining, petroleum, environment, industry and construction. Traditionally, a human specialist is responsible for analyzing and explaining details about the type, composition, texture, shape and other properties using rock samples collected in-situ or prepared in a laboratory. The results become subjective based on experience, in addition to consuming a large investment of time and effort. The present proposal uses artificial intelligence techniques combining computer vision and natural language processing to generate a textual and verbal description from a thin section image of rock. We build a dataset of images and their respective textual descriptions for the training of a model that associates the relevant features of the image extracted by EfficientNetB7 with the textual description generated by a Transformer network, reaching an accuracy value of 0.892 and a BLEU value of 0.71. This model can be a useful resource for research, professional and academic work, so it has been deployed through a Web application for public use.

Descripción automática de secciones delgadas de rocas: una aplicación Web

TL;DR

Este trabajo aborda la automatización de la descripción de láminas delgadas de rocas mediante una combinación de visión por computadora y procesamiento de lenguaje natural. Entrena un sistema CNN-Transformer sobre un dataset propio de 5600 imágenes distribuidas en 14 categorías y 300-token descripciones, logrando un BLEU de 0.71 con EfficientNetB7 y desplegándolo como una aplicación Web para uso público. Los resultados muestran que, si bien la descripción de atributos como tipo de roca y textura es más precisa, minerales y forma/hábito son más desafiantes, destacando la necesidad de métodos complementarios como segmentación y detección de objetos. El trabajo ofrece una plataforma interactiva con ventajas educativas y profesionaless, y propone direcciones futuras para ampliar la cobertura petrográfica y mejorar la precisión mediante datos adicionales y nuevas arquitecturas.

Abstract

The identification and characterization of various rock types is one of the fundamental activities for geology and related areas such as mining, petroleum, environment, industry and construction. Traditionally, a human specialist is responsible for analyzing and explaining details about the type, composition, texture, shape and other properties using rock samples collected in-situ or prepared in a laboratory. The results become subjective based on experience, in addition to consuming a large investment of time and effort. The present proposal uses artificial intelligence techniques combining computer vision and natural language processing to generate a textual and verbal description from a thin section image of rock. We build a dataset of images and their respective textual descriptions for the training of a model that associates the relevant features of the image extracted by EfficientNetB7 with the textual description generated by a Transformer network, reaching an accuracy value of 0.892 and a BLEU value of 0.71. This model can be a useful resource for research, professional and academic work, so it has been deployed through a Web application for public use.
Paper Structure (16 sections, 7 figures, 7 tables)

This paper contains 16 sections, 7 figures, 7 tables.

Figures (7)

  • Figure 1: Flujograma de las etapas principales de la metodología de trabajo, cada una con las plataformas y herramientas computacionales utilizadas para su desarrollo.
  • Figure 2: Ejemplos de imágenes de láminas delgadas de rocas. Son pares de imágenes en luz polarizada plana y cruzada. (a) Andesita, (b) Basalto, (c) Riolita, (d) Diorita, (e) Gabro, (f) Granito, (g) Roca ultramáfica, (h) Esquisto, (i) Filita, (j) Gneis, (k) Mármol, (l) Arenisca, (m) Caliza, y (n) Lutita.
  • Figure 3: Arquitectura del modelo de descripción textual automática.
  • Figure 4: Preparación del conjunto de imágenes para el entrenamiento.
  • Figure 5: Siete combinaciones de CNN y Transformer en el conjunto de validación. Curvas de aprendizaje de: (a) Precisión, y (b) Pérdida o error.
  • ...and 2 more figures