Modelos de linguagem grande (LLMs), como o GPT-4 da OpenAI, são os blocos de construção para um número crescente de aplicativos de IA. Mas algumas empresas relutam em adotá-los, devido à incapacidade de acessar dados próprios e proprietários.

Não é um problema fácil de resolver, necessariamente – considerando que esse tipo de dados tende a ficar atrás de firewalls e vem em formatos que não podem ser acessados ​​por LLMs. Mas uma startup relativamente nova, a Unstructured.io, está tentando remover os obstáculos com uma plataforma que extrai e organiza dados corporativos de uma forma que os LLMs possam entender e aproveitar.

Brian Raymond, Matt Robinson e Crag Wolfe fundaram a Unstructured em 2022, depois de trabalharem juntos na Primer AI, que se concentrava na criação e implantação de soluções de processamento de linguagem natural (NLP) para clientes empresariais.

“Enquanto estávamos na Primer, repetidamente, encontramos um gargalo ao ingerir e pré-processar arquivos brutos de clientes contendo dados NLP (por exemplo, PDFs, e-mails, PPTX, XML etc.) “Nenhuma das empresas de integração de dados ou processamento inteligente de documentos estava ajudando a resolver esse problema, então decidimos formar uma empresa e enfrentá-lo de frente.”

Unstructured que oferece ferramentas para preparar dados corporativos para LLMs arrecada US$ 25 milhões

De fato, o processamento e a preparação de dados tendem a ser uma etapa demorada de qualquer fluxo de trabalho de desenvolvimento de IA. De acordo com uma pesquisa, os cientistas de dados gastam cerca de 80% de seu tempo preparando e gerenciando dados para análise. Como resultado, a maioria dos dados produzidos pelas empresas – cerca de dois terços – não é utilizada, de acordo com outra pesquisa.

“As organizações geram grandes quantidades de dados não estruturados diariamente, que quando combinados com LLMs podem aumentar a produtividade. O problema é que esses dados estão dispersos”, continuou Raymond. “O segredo sujo na comunidade de PNL é que os cientistas de dados hoje ainda precisam construir conectores de dados únicos e artesanais e pipelines de pré-processamento totalmente manuais. não estruturado [delivers] uma solução abrangente para conectar, transformar e preparar dados em linguagem natural para LLMs.”

O Unstructured fornece várias ferramentas para ajudar a limpar e transformar dados corporativos para ingestão de LLM, incluindo ferramentas que removem anúncios e outros objetos indesejados de páginas da Web, concatenam texto, realizam reconhecimento óptico de caracteres em páginas digitalizadas e muito mais. A empresa desenvolve pipelines de processamento para tipos específicos de PDFs; Documentos HTML e Word, inclusive para arquivos da SEC; e — acima de tudo — relatórios de avaliação de oficiais do Exército dos EUA.

Para lidar com documentos, o Unstructured treinou seu próprio modelo NLP de “transformação de arquivo” do zero e montou uma coleção de outros modelos para extrair texto e cerca de 20 elementos discretos (por exemplo, títulos, cabeçalhos e rodapés) de arquivos brutos. Vários conectores – cerca de 15 no total – extraem documentos de fontes de dados existentes, como software de gerenciamento de relacionamento com o cliente.

“Nos bastidores, estamos usando uma variedade de tecnologias diferentes para abstrair a complexidade”, disse Raymond. “Por exemplo, para PDFs e imagens antigas, estamos usando modelos de visão computacional. E para outros tipos de arquivo, estamos usando combinações inteligentes de modelos NLP, scripts Python e expressões regulares.”

Downstream, Unstructured integra-se com provedores como LangChain, uma estrutura para criar aplicativos LLM, e bancos de dados vetoriais, como o Weaviate e o Atlas Vector Search do MongoDB.

Anteriormente, o único produto da Unstructured era um conjunto de código aberto dessas ferramentas de processamento de dados. Raymond afirma que foi baixado cerca de 700.000 vezes e usado por mais de 100 empresas. Mas para cobrir os custos de desenvolvimento – e aplacar seus investidores, sem dúvida – a empresa está lançando uma API comercial que transformará dados em 25 formatos de arquivo diferentes, incluindo PowerPoints e JPGs.

“Temos trabalhado com agências governamentais e temos uma receita de vários milhões em um período muito curto. . . . Como nosso foco é a IA, estamos focados em um setor do mercado que não é afetado pela desaceleração econômica mais ampla”, disse Raymond.

Unstructured tem laços extraordinariamente próximos com agências de defesa, talvez um produto do passado de Raymond. Antes do Primer, ele era um membro ativo da comunidade de inteligência dos EUA, servindo no Oriente Médio e depois na Casa Branca durante o governo Obama antes de uma passagem pela CIA.

A Unstructured recebeu contratos de pequenas empresas da Força Aérea dos EUA e da Força Espacial dos EUA e fez parceria com o Comando de Operações Especiais dos EUA (SOCOM) para implantar um LLM “em conjunto com dados relevantes para a missão”. Além disso, o conselho da Unstructured inclui Michael Groen, ex-general e diretor do Joint Artificial Intelligence Center do Pentágono, e Ryan Lewis, que anteriormente liderou a Unidade de Inovação em Defesa do Departamento de Defesa.

O ângulo de defesa – uma fonte confiável de receita inicial – pode ter sido o fator decisivo no recente financiamento da Unstructured. Hoje, a empresa anunciou que levantou US$ 25 milhões em uma rodada de financiamento inicial da Série A e não divulgada anteriormente. Madrona liderou a Série A com participação da Bain Capital Ventures, que liderou a semente, e M12 Ventures, Mango Capital, MongoDB Ventures e Shield Capital, além de vários investidores anjos… leia mais em Teg6 19/07/2023