Analizar documentos para extraer texto, imágenes e información del documento

GroupDocs sale para compartir la primera versión de GroupDocs.Parser Cloud. Es una solución API REST independiente de la plataforma lista para usar para analizar y extraer datos de todos los formatos de archivo comerciales comunes sin depender de ninguna herramienta o complemento de terceros. Los desarrolladores pueden integrarlo con su aplicación web, de escritorio, móvil o en la nube sin una gran curva de aprendizaje porque se puede usar en cualquier plataforma o lenguaje compatible con REST.

¿Qué es GroupDocs.Parser Cloud?

Suponga que está desarrollando un sistema de administración de documentos y necesita una función para buscar o analizar texto, ¿no sería genial si su sistema pudiera leer o analizar una amplia gama de tipos de documentos sin instalar un lector de documentos relacionado?

GroupDocs.Parser Cloud cumple el propósito mencionado anteriormente. Es una API REST de extracción de datos de documentos que admite más de 50 tipos de documentos. Una de las características más valiosas de GroupDocs.Parser Cloud es analizar documentos con plantillas predefinidas. Es fácil definir una plantilla y extraer datos de documentos comerciales, por ejemplo, facturas, recibos, cotizaciones, cartas, etc. No se limita a la extracción de texto, sino que también puede extraer imágenes de los tipos de documentos admitidos. La API se puede utilizar no solo con documentos normales, sino también con contenedores como archivos ZIP, archivos de datos de correo OST/PST y carpetas en PDF. Dedique algo de tiempo y visite notas de la versión de una primera versión pública para obtener una lista completa de sus características.

¿Cómo funciona?

Puede usar las características de GroupDocs.Parser Cloud en su aplicación de dos maneras. Úselo a través de algún cliente REST o use nuestro SDK directamente en su lenguaje de programación favorito. Puede encontrar una lista completa de SDK del repositorio GroupDocs.Parser Github.

Aquí demostraré la funcionalidad de GroupDocs.Parser Cloud analizando un documento de Word con una plantilla predefinida. Estoy usando un cliente REST; cURL una herramienta de línea de comandos.

Lo primero es lo primero, antes de continuar, regístrese con groupdocs.cloud y obtenga el SID de la aplicación y la clave de la aplicación para autenticar sus llamadas API de descanso.

Crear plantilla

Como se compartió anteriormente, GroupDocs.Parser Cloud permite a los usuarios analizar documentos con plantillas predefinidas para extraer datos del documento. Crearemos una plantilla para el siguiente documento de Word y la guardaremos en el almacenamiento predeterminado.

Aquí vamos, sigue estos pasos para crear una plantilla simple:

Ejemplo de cURL:

· Obtener token de acceso

· Crear plantilla

// Primero obtenga el token de acceso
// Obtenga la clave de la aplicación y el SID de la aplicación de https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Cree una plantilla para analizar y guardar en el almacenamiento predeterminado de GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Analizar documento

Ahora analizaremos el documento de Word utilizando una plantilla predefinida del almacenamiento, generada anteriormente. La plantilla se puede proporcionar como un objeto o una ruta de almacenamiento; consulte el documento analizar por plantilla para obtener más detalles.

Ejemplo de cURL:

// Primero obtenga el token de acceso
// Obtenga la clave de la aplicación y el SID de la aplicación de https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Cargue el documento de origen en el almacenamiento predeterminado de GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Analizar por plantilla almacenada en el almacenamiento predeterminado de GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

¿Que sigue?

Inicie una prueba gratuita de GroupDocs.Parser Cloud hoy mismo: todo lo que necesita es registrarse en el servicio GroupDocs Cloud. Una vez que se haya registrado, estará listo para probar las potentes funciones de procesamiento de archivos que ofrece GroupDocs.Parser Cloud utilizando los siguientes recursos.

Si tiene alguna pregunta o sugerencia, no dude en escribirnos en GroupDocs.Parser Cloud Forum.