Convertir documentos de Word (DOC, DOCX) a formato de texto es un requisito común en la extracción de datos, indexación o flujos de trabajo de automatización. Con la ayuda del .NET Cloud SDK, puedes extraer fácilmente texto de documentos de Word para procesamiento de lenguaje natural, análisis de contenido o almacenamiento de grandes datos de texto sin depender de Microsoft Word.

API de Conversión de Word a Texto

El GroupDocs.Parser Cloud SDK para .NET ofrece potentes herramientas para analizar, extraer y convertir documentos de Word en formato de texto. Admite formatos de documentos populares como DOC, DOCX y otros, proporcionando a los desarrolladores una manera rápida de crear convertidores de documento a texto o de docx a txt en aplicaciones .NET.

Requisitos previos

  • Regístrate en GroupDocs Cloud Dashboard.
  • Obtén tu ID de cliente y secreto de cliente. Para más información, visita este artículo.
  • Instale .NET 6.0 o una versión posterior y Visual Studio.
  • Instala el SDK desde los Paquetes NuGet:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

Convertir DOCX a TXT usando C#

Aquí hay un ejemplo simple que demuestra cómo convertir DOCX a TXT o extraer texto de documentos de Word utilizando el SDK de GroupDocs.Parser Cloud para .NET.

1.: Inicializar la configuración de la API

var config = new Configuration
{
    ClientId = "YOUR_CLIENT_ID",
    ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);

2.: Llama al método Parse para extraer el contenido textual del documento. Inicializa un objeto del objeto ImagesRequest donde pasamos la instancia de la clase ImagesOptions como argumento.

var response = parserApi.Parse(new ParseRequest("sample.docx"));

3.: Guarda el texto extraído como un archivo .txt localmente para un procesamiento posterior.

File.WriteAllText("output.txt", response.Text);
  • 💡 También puedes extraer texto de páginas o párrafos específicos configurando filtros en el parámetro ParseOptions.
// Para más ejemplos, por favor visita https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
    // upload the input Word document to cloud storage
    var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.docx" }
};

var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

Extraer texto de Word a través de cURL

Si prefieres operaciones de línea de comandos, puedes utilizar la API REST directamente a través de cURL para convertir DOC o DOCX a texto en línea.

Paso 1: Obtener Token de Acceso:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Paso 2: Convertir DOCX a TXT:

curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
  -H "accept: application/json" \
  -H "authorization: Bearer {ACCESS_TOKEN}" \
  -o "{outputFile}.txt"

Reemplace {inputFile} con el nombre de su archivo de Word y {outputFile} con el nombre deseado del archivo TXT para guardar localmente.

Convertidor gratuito de DOCX a TXT en línea

Si deseas probar rápidamente la conversión de Word a texto en línea, echa un vistazo al Convertidor de DOCX a TXT gratuito. Te permite cargar y convertir instantáneamente cualquier archivo de Word a formato de texto directamente en tu navegador, sin necesidad de instalación ni codificación.

Extractor de Imágenes Gratuitas

Resumen

Hemos explorado que nuestro SDK de Cloud .NET proporciona una solución fiable y basada en la nube para extraer texto de documentos de Word y convertirlos en formato TXT. Simplifica la extracción de datos, el análisis de contenido y la integración con sistemas de procesamiento de documentos empresariales.

¿Por qué usar GroupDocs.Parser Cloud?

  • Soporta los formatos DOC y DOCX.
  • Integración fácil con aplicaciones .NET.
  • 100% basado en la nube — no se necesita Microsoft Word.
  • Generar una salida TXT limpia lista para el procesamiento de datos o almacenamiento.

Preguntas Frecuentes (FAQs)

  1. Can I convert DOCX to TXT using C#?
  • Sí. El SDK te permite extraer y guardar texto de documentos de Word directamente en formato TXT.
  1. ¿Soporta archivos DOC así como archivos DOCX?
  • Sí. Ambos formatos de archivo son totalmente compatibles para la conversión y la extracción de texto.
  1. ¿Es Microsoft Word necesario para esta conversión?
  • No. La conversión se realiza completamente en la plataforma GroupDocs Cloud.
  1. ¿Puedo seleccionar secciones o páginas específicas para la extracción?
  • Sí. Puede definir rangos de página o regiones para la extracción parcial de texto.

Enlaces útiles

Artículos Relacionados