
Microsoft SharePoint Syntex
Visão geral da compreensão de documentos do Microsoft SharePoint Syntex
A compreensão de documentos usa modelos de inteligência artificial (IA) para automatizar a classificação de arquivos e a extração de informações. Ele funciona melhor com documentos não estruturados, como cartas ou contratos. Esses documentos devem ter texto que pode ser identificado com base em frases ou padrões. O texto identificado designa o tipo de arquivo (sua classificação) e o que você deseja extrair (suas extrações).
Observação
Confira Adoção do SharePoint Syntex: guia de introdução para saber mais sobre os exemplos de cenários da compreensão de documentos.
Os modelos de compreensão de documentos são criados e gerenciados em um tipo de site do SharePoint chamado centro de conteúdo. Quando aplicada a uma biblioteca de documentos do SharePoint, o modelo é associado a um tipo de conteúdo que possui colunas para armazenar as informações que estão sendo extraídas. O tipo de conteúdo que você cria é armazenado na galeria de tipos de conteúdo do SharePoint. Você também pode optar por usar os tipos de conteúdo existentes para usar o esquema.
Observação
Os tipos de conteúdo somente leitura ou de conteúdo não podem ser atualizados, portanto, não podem ser usados em um modelo.
Adicione se Classificadores e Extratores ao seu modelo de compreensão de documentos para fazer o seguinte:
- Os classificadores são usados para identificar e classificar os documentos que são carregados na biblioteca de documentos. Por exemplo, um classificador pode ser “treinado” para identificar toda a renovação de documentos que são carregados na biblioteca. O tipo de conteúdo de renovação de contrato é definido por você quando você cria seu classificador.
- Os extratores recebem informações desses documentos. Por exemplo, para todos os documentos de renovação de contrato identificados na biblioteca de documentos, as colunas são exibidas no modo de exibição que também mostram a Data de início do serviço e Cliente para cada documento de renovação de contrato.
Você pode usar os arquivos de exemplo para treinar e testar seus separadores e extrações em seu modelo. Os arquivos de exemplo fornecem exemplos ao seu modelo sobre o que procurar ao tentar identificar e extrair dados de arquivos. Por exemplo, você treina os classificadores e os extratores da renovação de contrato com exemplos de documentos de renovação de contrato que a sua empresa usa. Você também pode usar arquivos de exemplo para testar a eficácia do seu modelo.
Depois de publicar seu modelo, use o centro de conteúdo para aplicá-lo a qualquer biblioteca de documentos do SharePoint à qual você tenha acesso.
Limitações de arquivo
Os modelos de compreensão de documentos usam a tecnologia reconhecimento óptico de caracteres (OCR) para digitalizar PDFs, imagens e arquivos TIFF, tanto quando você treina um modelo com arquivos de exemplo como quando executa o modelo em arquivos em uma biblioteca de documentos.
Observe as seguintes diferenças em relação a arquivos baseados em texto do Microsoft Office e arquivos verificados por OCR (PDF, imagem ou TIFF):
- Arquivos do Office: Truncado em 64.000 caracteres (no treinamento e quando executado em arquivos em uma biblioteca de documentos).
- Arquivos digitalizados com OCR: há um limite de 20 páginas.
Requisitos
O processamento de OCR funciona melhor em documentos que atendem aos seguintes requisitos:
- Nos formatos JPG, PNG ou PDF (texto ou digitalizado). PDFs inseridos por texto são melhores, pois não haverá erros na extração de caracteres e no local.
- Se seus PDFs estão bloqueados por senha, você deve remover o bloqueio antes de enviar a eles.
- O tamanho de arquivo combinado dos documentos usados para treinamento por coleção não deve exceder 50 MB, e documentos PDF não devem ter mais de 500 páginas.
- Para imagens, as dimensões devem estar entre 50 × 50 e 10.000 × 10.000 pixels.
Observação
Imagens muito largas ou com dimensões ímpares (por exemplo, plantas terrárias) podem ficar truncadas no processo de OCR e perder precisão.
- Para arquivos PDF, as dimensões devem ser de no máximo 17 x 17 polegadas, correspondentes aos tamanhos de papel Legal ou A3 e menores.
- Se digitalizados de documentos de papel, as digitalizações deverão ser imagens de alta qualidade.
- Deve usar o alfabeto latino (caracteres em inglês).
Observação
No momento, o AI Builder não dá suporte aos seguintes tipos de dados de entrada de formulário:
– Caixas de seleção ou botões de rádio
– Assinaturas
– PDFs preenchíveis
Tipos de arquivo compatíveis
Os modelos de compreensão de documentos são compatíveis com os seguintes tipos de arquivo:
- doc
- docx
- eml
- HEIC
- HEIF
- htm
- HTML
- JPEG
- jpg
- Markdown
- md
- msg
- PNG
- ppt
- pptx
- rtf
- tif
- tiff
- txt
- xls
- xlsx
Referencia: https://docs.microsoft.com/pt-br/microsoft-365/contentunderstanding/document-understanding-overview