API для извлечения текста из файлов и конвертации в изображения при необходимости
PNG API извлекает текст из различных типов файлов (PDF, DOCX, XLSX, RAR и др.) и собирает его в один текстовый файл. Если в документе есть изображения или не удается извлечь текст, файл конвертируется в изображения PNG.
Отправляет файлы на обработку.
curl -X POST https://pngapi.tim-0fficial.ru/process \
-H "Content-Type: application/json" \
-d '{
"urls": [
"https://zakupki.gov.ru/44fz/filestore/public/1.0/download/priz/file.html?uid=2B325E219F3A4EF28F2A03E7D471109E"
]
}'
{
"task_id": "550e8400-e29b-41d4-a716-446655440000",
"status": "running",
"message": "Обработка начата..."
}
Проверяет статус обработки.
{
"task_id": "550e8400-e29b-41d4-a716-446655440000",
"status": "done",
"text_file": "https://pngapi.tim-0fficial.ru/files/550e8400.../550e8400..._all_text.txt",
"images": [
"https://pngapi.tim-0fficial.ru/files/550e8400.../file_0_page_1.png"
],
"results": [...]
}
Получает текстовый файл или изображение.
curl -X POST https://pngapi.tim-0fficial.ru/process \
-H "Content-Type: application/json" \
-d '{
"urls": [
"https://zakupki.gov.ru/.../file.html?uid=FILE1",
"https://zakupki.gov.ru/.../file.html?uid=FILE2",
"https://zakupki.gov.ru/.../file.html?uid=FILE3"
]
}'
# Получаем task_id из ответа
TASK_ID="550e8400-e29b-41d4-a716-446655440000"
# Проверяем статус
curl https://pngapi.tim-0fficial.ru/status/$TASK_ID
# Скачиваем текстовый файл
curl -O https://pngapi.tim-0fficial.ru/files/$TASK_ID/${TASK_ID}_all_text.txt
# Скачиваем изображения (если есть)
curl -O https://pngapi.tim-0fficial.ru/files/$TASK_ID/file_0_page_1.png