O InfiniteStack gerencia fluxos de trabalho multi-agente e multi-LLM através de uma arquitetura robusta baseada em Java com SpringBoot, que orquestra a execução de múltiplos agentes e modelos de linguagem de forma paralela e eficiente. A plataforma utiliza um sistema interno de gerenciamento de tarefas que coordena agentes independentes escritos em Python (seja pelo próprio usuário ou via interface no-code), o que permite a operação simultânea e a combinação de resultados. Esses agentes interagem com diversos modelos de linguagem – sejam locais ou externos (como os suportados por APIs de mercado) – por meio de um framework de integração que abstrai a comunicação com os modelos de forma padronizada e capaz de oferecer recursos de agentes Text-to-SQL, ReAct, RAG e de chamada de funções. O backend em Java gerencia o multithreading, de forma que os processos sejam escaláveis, enquanto modelos em Java/Python são tenham seus processos de treinamento e inferência executados sob demanda ou por agendamento para tarefas específicas de machine learning, os quais integrarão os resultados ao fluxo geral dos agentes com LLMs. Isso permite flexibilidade e otimização em cenários complexos de IA.

2. Quais medidas de segurança são adotadas no InfiniteStack? Especificamente, como garantem a implementação de guardrails adequados?

O InfiniteStack implementa várias medidas de segurança para proteger dados e modelos de IA:

Criptografia: Dados em trânsito e em repouso são protegidos com criptografia padrão da indústria (ex.: TLS para comunicações e AES para armazenamento).
Controle de Acesso: Autenticação baseada em perfis (RBAC) é usada para restringir o acesso a recursos específicos, com políticas granulares configuráveis pelo cliente.
Auditoria: Logs detalhados registram todas as ações na plataforma, e permitem rastreamento e conformidade.
Telemetria: API de telemetria do uso do InfiniteStack e seus metadados.
Observabilidade: Todo processo criado no InfiniteStack seja um workflow de ETL, um workflow de analytics ou machine learning, ou um workflow de agente, está ligado nativamente a um processo de observabilidade, que coleta detalhes de como cada um desses processos é executado e que tipo de resposta foi obtida.
Segregação: Como um contêiner Docker instalado no ambiente do cliente, o InfiniteStack mantém os dados e modelos isolados de infraestruturas externas.
Guardrails: No desenho da arquitetura do InfiniteStack existe um recurso de habilitação de guardrails que permite o controle contra prompt injection, verificação e proteção contra fontes inapropriadas em RAGs, controle de uso excessivo de tokens e janela de contexto e LLMs, verificação e proteção contra uso malicioso de Function-Calling e por fim verificação e proteção contra resultados inapropriados provenientes de LLMs. Todas as tarefas de verificação são executadas em conjunto com a biblioteca aberta Arize Phoenix de Observabilidade e Avaliação de LLMs, bem como em conjunto com a biblioteca infinitestack-python-lib que entre outras coisas controla como os dados de RAG, Text-to-SQL e Funcion-Calling são utilizados.

3. Como o InfiniteStack escala para lidar com altas demandas de processamento?

O InfiniteStack escala através de uma arquitetura baseada em contêineres Docker, que permite alocação dinâmica de recursos conforme a demanda, através de escalabilidade horizontal e pode rodar através de orquestradores como:

Kubernetes;
Docker Swarm;
Nomad (HashiCorp).

Já para o balanceamento de carga o InfiniteStack lida com altas demandas através da configuração de balanceadores em três diferentes classes:

Balanceamento On-Premises: NGINX ou HAProxy;
Balanceamento Kubernetes: Ingress Controller (K8s);
Balanceamento Cloud: AWS ALB, Google Load Balancer, Azure Load Balancer.

Existe ainda os recursos de auto-scaling baseados em Kubernetes Horizontal Pod Autoscaler (HPA), para a escala de pods automaticamente com base na carga, e o Cluster Autoscaler que adiciona e remove nós automaticamente conforme necessário.

Além das características intrínsecas ao Docker que permitem a escala horizontal, o InfiniteStack por ter o backend em Java e SpringBoot, gerencia o multithreading, e possibilita a execução paralela de múltiplos processos e agentes. A modularidade da plataforma permite inclusive que workflows de data products específicos de modelos de IA/ML assíncronos, ETLs e demais processos de engenharia de dados, criados no InfiniteStack possam rodar como funções serverless dos tipos:

AWS Lambda
Azure Functions
Google Cloud Functions
Oracle Functions

Da mesma forma, workflows específicos de data products relacionados a aplicações de dados complexas, criados no InfiniteStack possam rodar como processos no:

AWS Fargate
Google Cloud Run
Azure Container Apps
Oracle Cloud Kubernetes Engine (OKE) - Virtual Nodes

Por fim, para cenários de alta demanda, o InfiniteStack permite o uso de GPUs NVIDIA com suporte a CUDA para acelerar a inferência de modelos, e garantir desempenho otimizado de modelos de IA e LLMs locais, mesmo sob cargas intensas

4. É um modelo SaaS? Existe opção para rodar on-premises?

O InfiniteStack não é um produto SaaS. Ele é oferecido como um contêiner Docker, projetado para ser instalado diretamente no ambiente do cliente, seja on-premises em um servidor físico ou na nuvem privada da empresa. Essa abordagem prioriza segurança e privacidade, e habilita que os clientes mantenham controle sobre seus dados e modelos de IA.

5. Quais são as recomendações de infraestrutura?

As recomendações de infraestrutura para o InfiniteStack são:

Mínimo:

CPU: 2 vCPUs
Memória: 8 GB RAM
Armazenamento: 100 GB SSD

Recomendado:

CPU: 4+ vCPUs
Memória: 16+ GB RAM
Armazenamento: 500 GB SSD NVMe (expansível)

Opcional: GPU NVIDIA com suporte a CUDA para inferência acelerada.
Software:

Sistema Operacional: Linux (Ubuntu 20.04+, Debian 11+, RHEL 8+, CentOS 8+; recomendado: Ubuntu 24.04.1 LTS)
Docker Engine: Versão 27+
Docker Compose: Versão 2.x+

Rede: Portas 8081 (API), 5173 (interface web) e 443 (HTTPS) abertas para entrada; 443 (HTTPS) e 53 (DNS) para saída.

Maiores detalhes sobre recomendações de infraestrutura podem ser analisados no documento oficial “Pré-requisitos para Instalação do InfiniteStack”.

6. Como funciona a precificação do InfiniteStack?

O InfiniteStack oferece dois planos de assinatura mensais, adaptados às necessidades de diferentes perfis de clientes:

Plano Starter: Destinado a produtores rurais e empresas de menor porte que desejam iniciar a integração de dados. Por R$2.500/mês, este plano inclui:

Todas as funcionalidades da plataforma
Até 3 projetos de integração
1TB de armazenamento em nuvem
Dashboards em Grafana
LLMs locais com Webchat integrado
Opção de equipe dedicada (custo adicional)

Plano Business: Direcionado para empresas que já geram dados e necessitam de algumas integrações para o uso de IA em suas operações. Por R$10.000/mês, este plano disponibiliza:

Todas as funcionalidades da plataforma
Até 10 projetos de integração
Configuração na nuvem do cliente
Dashboards em Grafana
LLMs locais com Webchat integrado
Opção de equipe dedicada (custo adicional)

Plano Corporate: Voltado para corporações que necessitam de múltiplas integrações de sistemas e buscam incorporar IA em suas operações. Por R$50.000/mês, este plano oferece:

Todas as funcionalidades da plataforma, incluídas as do plano Starter e Business
Projetos de integração ilimitados
Configuração na nuvem do cliente
Dashboards em Grafana ou integrações com Microsoft Power BI
Suporte humanizado
Opção de equipe dedicada (custo adicional)

Ambos os planos são projetados para atender desde a fase inicial de integração de dados até a implementação de modelos robustos de IA, e proporcionar soluções sob medida conforme o nível de maturidade e tamanho da empresa.

Para mais detalhes, visite: https://infinitestack.ai

7. Como o InfiniteStack mitiga o risco de vendor lock-in?

O InfiniteStack minimiza o vendor lock-in ao oferecer uma solução instalada localmente via Docker, e permite ao cliente controle total sobre dados e modelos. A plataforma suporta a exportação de dados e modelos em formatos padrão, e facilita migrações ou integrações com outras ferramentas. Além disso, seus recursos agnósticos de cloud e a compatibilidade com scripts Python customizados e APIs abertas permite que os clientes adaptem ou substituam componentes conforme necessário, o que reduz significativamente a dependência de fornecedores específicos.

8. Como vocês gerenciam a governança dos agentes de IA?

No InfiniteStack, a governança dos agentes de IA é gerenciada com controle, transparência e conformidade em todas as etapas do ciclo de vida dos agentes. Isso é realizado através de uma combinação de monitoramento em tempo real, políticas de acesso, rastreabilidade e validação contínua. Além disso, recursos avançados como Catalogação, Observabilidade e Track (Data Lineage) do InfiniteStack elevam a governança pois proporcionam uma gestão detalhada e eficiente dos agentes de IA.

Recursos Essenciais de Governança

Monitoramento
Painéis em tempo real e logs detalhados rastreiam o desempenho e o comportamento dos agentes, o que leva à detecção imediata de anomalias ou comportamentos inesperados. Este monitoramento é feito pelo recurso Observabilidade do InfiniteStack.
Controle de Acesso
Políticas baseadas em perfis (RBAC) limitam quem pode criar, modificar ou executar agentes, e garantem que apenas usuários autorizados manipulem os agentes de IA.
Rastreabilidade Completa
A linhagem de dados (data lineage, feito pelo recurso Track do InfiniteStack) registra todas as ações dos agentes, desde as entradas até as decisões finais, com transparência para possíveis auditorias. Este recurso também está ligado à biblioteca aberta Arize Phoenix de Observabilidade e Avaliação de LLMs, usada para os guardrails.
Validação e Alertas
Regras configuráveis asseguram que os agentes operem dentro de parâmetros definidos, com alertas automáticos para qualquer desvio ou anomalia.

Catalogação de Dados e Modelos
Todo agente criado no InfiniteStack, mandatoriamente só pode usar fontes de dados e demais data products catalogados no recurso Catalog, o que permite:

Associar agentes a conjuntos de dados e modelos específicos e autorizados.
Facilitar a descoberta e o reuso de recursos, e evitar duplicações para garantir consistência.
Manter uma visão clara de quais ativos são utilizados por cada agente, para promover a conformidade.

9. Considerando a quantidade de dados e processamento de IA envolvidos, como o InfiniteStack analisa os dados de entrada para reduzir alucinações?

O InfiniteStack reduz alucinações através de um pipeline de pré-processamento robusto:

Validação: Checagem automática de entradas para garantir qualidade e conformidade com os requisitos dos modelos.
Filtragem: Remoção de dados irrelevantes ou ruidosos que possam confundir os modelos.
Transformação: Normalização e enriquecimento dos dados para consistência antes de alimentar os modelos.

Esses passos, gerenciados pelo backend em Java e suportados por scripts Python, asseguram que os modelos recebam dados confiáveis, e minimiza erros ou saídas incoerentes. Além disso, a redução de alucinações também se apóia nos recursos de guardrails tratadas na questão 2.

10. O InfiniteStack oferece suporte a RAG? Se sim, descreva brevemente a abordagem.

Sim, o InfiniteStack suporta RAG (Retrieval-Augmented Generation). A abordagem combina recuperação de informações com geração de texto, com recursos que acessam dados locais ou específicos do cliente em tempo real. Durante a execução, o modelo consulta um repositório indexado de dados empresariais, e enriquece as respostas com contexto relevante, o que melhora a precisão e reduz respostas genéricas.

No InfiniteStack, assim como no caso dos agentes, todos os dados que possam ser utilizados em um RAG, mandatoriamente precisam antes ser catalogados, no recurso Catalog, o que garante a conformidade dos dados com a LGPD, bem como proteção e privacidade. Além disso, o RAG pode usar os LLMs locais, bem como APIs de LLMs em cloud, inclusive escolher qual RAG deve usar qual LLM ou que um RAG pode fazer parte de um determinado agente.

Com relação aos embeddings o InfiniteStack oferece suporte nativo ao pgvector, mas suporta diversos outros bancos de vetores.

11. Como funciona o processo de fine-tuning no InfiniteStack?

O processo de fine-tuning no InfiniteStack permite ajustar modelos de linguagem pré-treinados, como DeepSeek, TinyLlama, Gemma, Qwen e Phi, para personalizar o comportamento do modelo em questão, aprimorar o conhecimento de domínio e otimizar o desempenho para tarefas específicas. Ele é projetado para transformar um modelo genérico em um modelo especializado, capaz de realizar tarefas de forma mais eficaz e eficiente, de forma a superar até mesmo as capacidades de RAG em flexibilidade.

Benefícios do Fine-Tuning

Ao realizar o fine-tuning em um dataset especializado, os usuários podem alcançar os seguintes resultados:

Atualizar o Conhecimento: Introduzir informações específicas de um domínio, como medicina, direito ou engenharia.
Customizar o Comportamento: Ajustar o tom, a personalidade ou o estilo de resposta do modelo para atender a necessidades específicas.
Otimizar para Tarefas: Melhorar a precisão e a relevância para casos de uso particulares, como análise de texto ou geração de respostas personalizadas.

Exemplos de Casos de Uso

O InfiniteStack suporta uma ampla gama de aplicações práticas, através da criação de agentes com base em LLMs com fine-tuning. No entanto para ilustrar como o fine-tuning pode agregar valor a diferentes negócios, seguem os exemplos abaixo:

Treinar um LLM para prever como um conjunto de dados impacta uma empresa de forma positiva ou negativa.
Utilizar interações históricas de dados para criar respostas mais precisas e personalizadas.
Ajustar um LLM em textos jurídicos para análise de contratos, pesquisa de jurisprudência e verificação de conformidade.

Importância dos Datasets

Para o fine-tuning, é essencial contar com um dataset de alta qualidade, geralmente estruturado em duas colunas — perguntas e respostas. A qualidade e a quantidade dos dados refletem diretamente no resultado final do modelo ajustado. O InfiniteStack oferece ferramentas integradas para a criação desses datasets.

Técnicas de Fine-Tuning no InfiniteStack

O InfiniteStack permite o uso dos seguintes métodos para o fine-tuning eficiente:

LoRA (Low-Rank Adaptation): Congela os pesos do modelo base e adiciona pequenas matrizes de ajuste às camadas de atenção, o que reduz os requisitos de memória e permite personalização rápida para diferentes tarefas.
QLoRA (Quantized LoRA): Combina LoRA com quantização em 4 bits, o que possibilita o ajuste de modelos grandes em GPUs com menos VRAM, e mantém alta performance com custo reduzido.

Além disso, o InfiniteStack suporta diversas abordagens de fine-tuning, como:

Reward Modelling (DPO, ORPO): Alinha o modelo a preferências humanas ou objetivos específicos, e ajusta respostas com base em comparações ou recompensas otimizadas.
Continued Pretraining: Estende o conhecimento do modelo em novos domínios, com refinamento para áreas especializadas.
Text Completion: Melhora a capacidade do modelo de prever e completar frases, útil para assistentes de escrita ou chatbots.

O processo de fine-tuning no InfiniteStack permite personalizar LLMs de forma eficiente e acessível. Com suporte a técnicas modernas como LoRA e QLoRA, ferramentas para criação de datasets e uma interface amigável, a plataforma capacita os usuários a transformar modelos pré-treinados em agentes especializados, otimizados para suas necessidades específicas — desde análise de dados até geração de respostas personalizadas.

12. Quais modelos estatísticos o InfiniteStack suporta?

O InfiniteStack oferece suporte built-in a uma ampla gama de modelos estatísticos e de machine learning por meio de duas bibliotecas renomadas: Smile (para Java, disponível em https://haifengl.github.io/) e scikit-learn (para Python, disponível em https://scikit-learn.org/). Isso significa que todos os modelos estatísticos disponíveis nessas bibliotecas estão diretamente integrados à plataforma, prontos para uso sem configurações adicionais. Abaixo, detalhamos os principais tipos de modelos suportados por cada uma:

Modelos Suportados via Smile (Java)

A biblioteca Smile é uma das mais robustas para machine learning em Java, e o InfiniteStack inclui todos os seus algoritmos, como:

Classificação:

Árvores de Decisão
Random Forests
Gradient Boosting Machines (GBM)
Support Vector Machines (SVM)
Redes Neurais
Naive Bayes

Regressão:

Regressão Linear
Ridge Regression
Lasso
Elastic Net
SVM para Regressão

Clustering:

K-Means
Hierarchical Clustering
DBSCAN
Gaussian Mixture Models (GMM)

Redução de Dimensionalidade:

Principal Component Analysis (PCA)
Linear Discriminant Analysis (LDA)

Outros:

Algoritmos de associação
Detecção de anomalias

Modelos Suportados via scikit-learn (Python)

A scikit-learn é uma das bibliotecas mais populares para machine learning em Python, e o InfiniteStack suporta integralmente todos os seus modelos e ferramentas:

Classificação:

K-Nearest Neighbors (KNN)
Árvores de Decisão
Random Forests
Support Vector Machines (SVM)
Gradient Boosting
AdaBoost

Regressão:

Regressão Linear
Ridge
Lasso
Elastic Net
Regressão Logística
Support Vector Regression (SVR)

Clustering:

K-Means
DBSCAN
Agglomerative Clustering
Spectral Clustering

Redução de Dimensionalidade:

PCA
t-SNE
UMAP
Factor Analysis

Pré-processamento e Feature Engineering:

Normalização e scaling
Encoding de variáveis categóricas
Imputação de dados faltantes

Além de oferecer todos os modelos das bibliotecas Smile e scikit-learn, o InfiniteStack permite que os usuários executem scripts personalizados em Python. Isso significa que, caso um modelo ou algoritmo específico não esteja diretamente disponível nas bibliotecas integradas, ele pode ser implementado sob medida, de maneira a garantir total flexibilidade para atender às necessidades dos usuários e clientes.

13. Como é feita a curadoria e o monitoramento de dados e modelos no InfiniteStack?

No InfiniteStack, a curadoria e o monitoramento de dados e modelos são realizados de forma integrada, através dos recursos nativos de Catalogação, Observabilidade e Track (Data Lineage). Esses recursos garantem que os dados e modelos sejam gerenciados de maneira transparente, segura e em total conformidade com as melhores práticas de governança, e proporciona às organizações controle completo sobre seus ativos de IA.

Curadoria de Dados e Modelos

A curadoria no InfiniteStack é centralizada no recurso de Catalogação, que organiza e documenta todos os ativos de dados e modelos de IA em um inventário unificado. Esse recurso oferece:

Descoberta e Reuso de Ativos: Facilita o acesso e a reutilização de dados e modelos já existentes, evita duplicações e promove consistência nas análises e aplicações de IA.
Visão Clara e Detalhada: Mantém um registro preciso de quais dados e modelos estão em uso, suas versões, origens e permissões, para garantir responsabilidades e auditorias.
Gestão de Metadados: Associa informações contextuais aos ativos, como qualidade dos dados, proprietário e permissões de uso, para levar a uma curadoria mais eficaz e alinhada às políticas da organização.

Com a Catalogação, as empresas podem manter um repositório organizado e acessível, para promover a colaboração entre equipes e que apenas ativos confiáveis e autorizados sejam utilizados.

Monitoramento de Dados e Modelos

O monitoramento é realizado através do recurso de Observabilidade em tempo real, que oferece uma visão contínua do desempenho e do comportamento dos modelos de IA:

Painéis em Tempo Real: Acompanham métricas críticas, como acurácia, latência, uso de CPU e memória.
Detecção de Anomalias: Identifica rapidamente comportamentos inadequados, como drifts de dados ou saídas inesperadas.
Otimização de Recursos: Fornece insights detalhados sobre a utilização de infraestrutura.

Esse monitoramento contínuo assegura que os modelos operem dentro dos parâmetros esperados e que qualquer desvio seja identificado e corrigido imediatamente.

Rastreabilidade e Conformidade

O recurso Track (Data Lineage) garante uma visão detalhada da origem e do fluxo dos dados utilizados pelos modelos:

Rastreamento Completo: Registra cada etapa do processo, desde a ingestão de dados até as decisões finais dos modelos, para proporcionar transparência sobre como os dados são transformados e utilizados.
Auditorias Precisas: Facilita a verificação de conformidade com políticas internas e regulamentos externos.
Validação de Fontes: Assegura que os dados processados pelos modelos provenham de fontes confiáveis e autorizadas, e assim evitar o uso de informações incorretas ou não conformes.

O Track (Data Lineage) é essencial para ambientes regulados, pois garante que todas as ações dos modelos possam ser rastreadas e justificadas.

No InfiniteStack, a curadoria e o monitoramento de dados e modelos são realizados de forma robusta e integrada. A Catalogação centraliza e organiza os ativos de dados e modelos, enquanto a Observabilidade garante o monitoramento contínuo do desempenho e comportamento dos modelos. Para complementar esses recursos, o Track (Data Lineage) oferece rastreabilidade completa, e assegura transparência e conformidade. Juntos, esses recursos permitem que as organizações gerenciem seus ativos de IA de maneira eficaz, segura e em total alinhamento com as políticas internas e regulamentos externos.

14. Como funciona o suporte técnico do InfiniteStack?

O InfiniteStack foi desenvolvido para ofertar 99,8% de disponibilidade de funcionamento, sem levar em consideração os recursos de infraestrutura do cliente, na qual o InfiniteStack será instalado.

O SLA de suporte possui disponibilidade de 24 horas por dia durante 365 dias por ano.

O atendimento para suporte e manutenção em caso de indisponibilidade deverá ser solicitado por um dos seguintes canais de comunicação:

Ligação telefônica no número (11) 3819-1455
Mensagem eletrônica para o e-mail help@scicrop.com
Abertura de chamado técnico na central de atendimento em: https://atendmento.scicrop.com

Caso haja necessidade de atendimento presencial, a solicitação deverá ser feita por um destes canais acima, para agendamento da visita técnica, mediante custo adicional a ser informado no momento da solicitação.

O SLA para atendimento de solicitações é:

Atendimento	SLA	Classificação
Horário comercial	6 horas	Crítica
Horário comercial	12 horas	Alta prioridade
Horário comercial	24 horas	Prioridade média
Horário comercial	48 horas	Baixa prioridade
Horário comercial	72 horas	Serviço geral

A SciCrop poderá ter janelas de manutenções nos sistemas de licenciamento do InfiniteStack, que poderão ocasionar instabilidades temporárias. No caso de manutenções ocorrerem, as mesmas serão realizadas somente a partir das 0h01 da manhã dos sábados até às 23h59 das noites de domingo.

Constantemente durante 24/7 serão mantidas verificações automáticas preventivas de disponibilidade do InfiniteStack.

15. Em quais linguagens de programação sua solução foi desenvolvida?

O InfiniteStack é desenvolvido principalmente em Java, e utiliza o framework SpringBoot para robustez e escalabilidade. Scripts em Python são suportados para tarefas de machine learning, gerenciados pelo backend em Java, o que garante flexibilidade para customizações e integrações com sistemas legados.

Sobre a SciCrop

A SciCrop é uma empresa especializada em IA e Analytics para a cadeia do agronegócio. Entre suas soluções, destaca-se o InfiniteStack, uma plataforma de modelagem e gestão de recursos de IA e analytics para empresas. O InfiniteStack acelera a integração de dados e a adoção de IA através de recursos low-code, e permite que empresas conectem dados, criem pipelines automatizados e gerenciem o uso de IA internamente.

FAQ sobre recursos de IA, Infraestrutura e Modelo de Negócios do InfiniteStack.