Come si differenzia il vostro approccio RAG?

Non usiamo semplici database vettoriali. Costruiamo grafi di conoscenza che mantengono il contesto semantico e gerarchico dei documenti, garantendo risposte che non solo trovano l'informazione, ma la comprendono.

I miei dati vengono usati per il training?

Assolutamente no. Per le soluzioni Enterprise, offriamo deployment su cloud privato o on-premise. I modelli vengono fine-tunati sui tuoi dati, ma quei pesi rimangono di tua esclusiva proprietà.

Quali sono i tempi di implementazione?

Per un sistema RAG standard, 2-3 settimane. Per progetti di Fine-Tuning complessi, dalle 4 alle 8 settimane a seconda della pulizia del dataset iniziale.

Quanto costa l'investimento iniziale e qual è il ROI?

L'investimento dipende da obiettivi e scope. Il ROI dipende fortemente dal volume del processo automatizzato. Per sistemi RAG su processi documentali intensivi, i clienti tipicamente recuperano l'investimento in 3–6 mesi grazie al risparmio di ore-uomo. Usiamo il nostro ROI Calculator per stimare i numeri reali basandoci sui tuoi dati.

Offrite manutenzione post-rilascio?

Sì. L'AI non è statica. Offriamo piani 'Enterprise Care' che includono retraining periodico, monitoraggio delle performance e aggiornamenti di sicurezza prioritari.

Quali tecnologie usate?

Lavoriamo con stack open source e cloud: Llama, Mistral, vettoriali (Qdrant, pgvector), LangChain/LlamaIndex per orchestrazione, Next.js e Python per applicazioni. Preferiamo soluzioni che restano di vostra proprietà e deployabili on-premise o su cloud dedicato.

Lavorate con aziende di ogni dimensione?

Sì. Abbiamo progetti con startup, PMI e enterprise. Il comune denominatore è la volontà di avere un sistema AI reale in produzione, non una demo. Per realtà molto piccole consigliamo di partire da un audit per capire priorità e budget.

Come funziona l'audit gratuito?

Dopo la richiesta ti contattiamo in 24–48 ore. Una call di discovery (circa 30 min) per capire obiettivi, dati e vincoli. In seguito inviamo una sintesi con raccomandazioni e stima di tempi e investimento. Nessun impegno.

Posso avere il codice sorgente?

Sì. Il codice che scriviamo è di proprietà del cliente. Nessun lock-in: repository, documentazione e pesi dei modelli addestrati vi appartengono.

Gestite anche il deploy e l'hosting?

Sì. Possiamo occuparci del deploy su vostra infrastruttura (on-premise o cloud che già usate) o consigliare e configurare ambienti dedicati. Supportiamo anche la manutenzione e il monitoraggio post-go-live.

Costruite anche AI Agents? Come si differenziano dal RAG?

Sì. Gli AI Agents sono sistemi che non si limitano a rispondere ma eseguono azioni: inviano email, compilano form, interrogano API, prendono decisioni condizionate. Il RAG è ideale per la ricerca documentale intelligente. Gli Agents sono ideali per automatizzare workflow multi-step. Spesso li combiniamo: un Agent che usa RAG per trovare le informazioni e poi agisce di conseguenza.

I sistemi che costruite sono conformi al GDPR?

Sì. Progettiamo ogni sistema con la conformità GDPR come requisito non negoziabile, non come afterthought. Questo significa: data residency in Italia o EU, possibilità di deploy on-premise, zero trasmissione di dati a provider esterni senza consenso esplicito, audit trail completo, e documentazione per il DPO.

Quando Fare Fine-Tuning di un LLM? 7 Segnali che È il Momento Giusto

Il fine-tuning è diventato la soluzione a tutto nel mondo LLM. Team che non riescono a far rispondere il modello nel formato giusto, che vogliono personalizzare il tono, che cercano di ridurre le allucinazioni — tutti pensano che il fine-tuning sia la risposta.

La verità: nella maggior parte dei casi, il fine-tuning non è necessario. E farlo prematuramente spreca risorse, complica la manutenzione, e spesso produce risultati peggiori di un buon sistema RAG o di prompt engineering avanzato.

Questo articolo ti aiuta a capire quando il fine-tuning è davvero la risposta giusta.

Prima di Tutto: Hai Esaurito le Alternative?

Il fine-tuning dovrebbe essere l'ultima risorsa, non la prima. Prima di considerarlo, verifica di aver esplorato:

Gerarchia di soluzioni (costo e complessità crescente):

1. Prompt engineering → zero costo, implementabile in ore
2. Few-shot examples → zero costo, implementabile in un giorno
3. RAG con knowledge base → costo medio, implementabile in settimane
4. Fine-tuning → costo alto, implementabile in settimane/mesi
5. Pre-training custom → costo molto alto, raramente giustificato

Se sei al livello 1-3 e stai pensando di saltare al 4, probabilmente non dovresti.

I 7 Segnali che il Fine-Tuning è Necessario

Segnale 1: Il Formato dell'Output è Critico e il Prompt Non Basta

Se il tuo sistema richiede un output in un formato preciso (JSON complesso, struttura proprietaria, formato legacy), e i modelli base continuano a sbagliare anche con few-shot e structured output mode — il fine-tuning è la soluzione.

Esempio concreto: Generazione di fatture XML nel formato specifico di un ERP legacy con 40 campi obbligatori. Nessun modello base produce output valido al 100% senza fine-tuning.

Indicatore: Tasso di errore di parsing > 5% in produzione dopo ottimizzazione del prompt.

Segnale 2: Hai Bisogno di Conoscenza Dominio-Specifica Non Pubblica

RAG risolve il problema della "conoscenza aggiornata", ma non il problema della "conoscenza non scritta". Procedure operative aziendali, gergo interno, convenzioni di naming, regole di business non documentate — queste non esistono in nessun documento recuperabile.

Esempio: Un'azienda farmaceutica vuole che il modello capisca la differenza tra i suoi prodotti interni con nomi simili (es. Composto-A vs Composto-B nei contesti diversi). Non è scritto da nessuna parte — è conoscenza tacita del team.

Indicatore: Il modello fa errori sistematici su terminologia o classificazioni specifiche dell'azienda, anche con context RAG pertinente.

Segnale 3: Latenza Critica con Token Budget Ridotto

Il fine-tuning permette di "memorizzare" nel modello conoscenza che altrimenti dovrebbe essere nel prompt. Questo riduce la lunghezza del contesto → riduce la latenza e il costo.

Scenario: Un assistente vocale che deve rispondere in < 200ms. Con un system prompt di 2.000 token + RAG context, è impossibile. Fine-tuning + sistema snello: fattibile.

Indicatore: Latenza P95 > SLA con architettura RAG ottimizzata.

Segnale 4: Volume Tale da Giustificare il Costo

Il fine-tuning ha un costo fisso significativo, ma il modello risultante è più economico da inferire se si usa una versione self-hosted o se riduce significativamente il context.

Analisi break-even:

Costo fine-tuning (GPT-4o-mini, ~100K esempi):
- Training: ~$2.000-5.000
- Valutazione e iterazioni: ~$500
- Totale: ~$3.000-5.500

Risparmio mensile da fine-tuning:
- System prompt più corto: -500 token * 100K query/mese * $0.0000006 = -$30/mese
- Meno errori → meno retry: -$200/mese
- Totale risparmio: ~$230/mese

Break-even: ~15-24 mesi ← Non giustificato!

Scenario ad alto volume (1M query/mese):
- Risparmio mensile: ~$2.300/mese
- Break-even: ~2-3 mesi ← Giustificato!

Indicatore: Volume mensile > 500K query.

Segnale 5: Il Tono e lo Stile Sono Business-Critical

Se la tua applicazione richiede uno stile comunicativo molto specifico (tono legale preciso, brand voice rigoroso, linguaggio tecnico certificato), il few-shot aiuta ma non garantisce consistenza a scale.

Esempio: Una compagnia assicurativa dove ogni risposta deve rispettare formule legali precise per evitare implicazioni contrattuali. Il modello base "normalizza" il linguaggio in modo inappropriato.

Indicatore: Human evaluation score del tono/stile < 90% dopo ottimizzazione prompt.

Segnale 6: Ridurre Allucinazioni su Dominio Chiuso

In domini dove l'allucinazione ha conseguenze gravi (medicina, diritto, finanza), il fine-tuning su dati curati può insegnare al modello a rispondere "non so" invece di inventare.

# Esempio training data per ridurre allucinazioni
training_examples = [
    {
        "messages": [
            {"role": "system", "content": "Sei un assistente medico che risponde solo su farmaci approvati AIFA."},
            {"role": "user", "content": "Qual è il dosaggio di Farmaco-X per pazienti anziani?"},
            # Questa info non è nella knowledge base del modello
            {"role": "assistant", "content": "Non ho informazioni specifiche sul dosaggio di Farmaco-X per pazienti anziani nella mia base di conoscenza. Ti consiglio di consultare il foglietto illustrativo aggiornato o un medico specialista."}
        ]
    },
    # ... centinaia di esempi dove il modello sa dire "non so"
]

Indicatore: Hallucination rate > 3% su test set con domande fuori knowledge base.

Segnale 7: Compliance Richiede Modello Controllato Internamente

In alcuni settori (defense, healthcare, banking regolamentato), non è possibile usare modelli API esterni. Il fine-tuning su modelli open source (Llama, Mistral) deployati on-premise è l'unica opzione.

Indicatore: Requisiti di data residency o sicurezza che escludono API cloud.

Il Framework Decisionale

                      Il problema è risolvibile con
                      prompt engineering / few-shot?
                              │
                    ┌─────────┴─────────┐
                   SÌ                  NO
                    │                   │
            Usa prompt                Il formato
            engineering           output è il problema?
                                       │
                               ┌───────┴───────┐
                              SÌ              NO
                               │               │
                    Usa structured           Hai > 500K
                    outputs / Pydantic      query/mese?
                                               │
                                       ┌───────┴───────┐
                                      SÌ              NO
                                       │               │
                              Analizza               Usa RAG
                              break-even           ottimizzato
                              fine-tuning

Quando il Fine-Tuning NON è la Risposta

❌ "Il modello non sa delle nostre ultime 3 campagne marketing"

Soluzione: RAG. Indexa i documenti delle campagne. Il fine-tuning non è per dati aggiornati frequentemente.

❌ "Il modello non risponde sempre in italiano"

Soluzione: "Rispondi sempre e solo in italiano." nel system prompt. Testato e funziona al 99.5%+.

❌ "Vogliamo un tono più amichevole"

Soluzione: Few-shot con 10-15 esempi di tono desiderato. Zero costo, implementabile oggi.

❌ "Il modello fa troppi errori matematici"

Soluzione: Non fare fare i calcoli al modello. Usa tool/code execution per i calcoli, e l'LLM solo per l'interpretazione.

❌ "Vogliamo personalizzarlo sul nostro brand"

Soluzione: System prompt dettagliato + few-shot. Il fine-tuning per il brand voice raramente vale il costo.

Se Decidi di Procedere: Dati è Tutto

Il fine-tuning è buono quanto i dati di training. I requisiti minimi:

Volume minimo per risultati affidabili:
- Task semplice (format/style): 100-500 esempi
- Task medio (knowledge domain): 1.000-5.000 esempi
- Task complesso (behavior change): 10.000+ esempi

Qualità > Quantità: 500 esempi perfetti battono 5.000 mediocri.

Struttura dati per fine-tuning OpenAI (JSONL):
{
  "messages": [
    {"role": "system", "content": "..."},
    {"role": "user", "content": "..."},
    {"role": "assistant", "content": "..."}  ← output target
  ]
}

Processo di Raccolta Dati

# Pipeline di raccolta e validazione dati per fine-tuning
import json
from pydantic import BaseModel

class TrainingExample(BaseModel):
    messages: list[dict]

    def validate_format(self) -> bool:
        if len(self.messages) < 2:
            return False
        if self.messages[-1]["role"] != "assistant":
            return False
        if not self.messages[-1]["content"].strip():
            return False
        return True

def curate_training_data(raw_examples: list[dict]) -> list[TrainingExample]:
    """
    Filtra e valida esempi di training.
    """
    validated = []
    for ex in raw_examples:
        try:
            example = TrainingExample(**ex)
            if example.validate_format():
                validated.append(example)
        except Exception as e:
            print(f"Esempio non valido: {e}")

    print(f"Validati: {len(validated)}/{len(raw_examples)} esempi")
    return validated

def check_data_quality(examples: list[TrainingExample]) -> dict:
    """
    Statistiche sulla qualità del dataset.
    """
    lengths = [len(json.dumps(ex.messages)) for ex in examples]
    return {
        "total": len(examples),
        "avg_length_chars": sum(lengths) / len(lengths),
        "min_length": min(lengths),
        "max_length": max(lengths),
        "outliers_too_short": sum(1 for l in lengths if l < 200),
        "outliers_too_long": sum(1 for l in lengths if l > 4000),
    }

Conclusioni

Il fine-tuning è uno strumento potente ma costoso. Fallo solo quando:

Il formato output è critico e insuperabile con prompt
Hai conoscenza tacita non documentabile in RAG
La latenza richiede context ridotto
Il volume giustifica il break-even economico
Il tono/stile è business-critical
Le allucinazioni su dominio chiuso sono inaccettabili
La compliance richiede modelli interni

In tutti gli altri casi, stai pagando per una complessità che non ti serve.

Stai valutando se fare fine-tuning o RAG per il tuo progetto? Contattaci per un assessment tecnico gratuito.

Quando Fare Fine-Tuning di un LLM? 7 Segnali che È il Momento Giusto

Questo articolo ti aiuta a capire quando il fine-tuning è davvero la risposta giusta.

Prima di Tutto: Hai Esaurito le Alternative?

Il fine-tuning dovrebbe essere l'ultima risorsa, non la prima. Prima di considerarlo, verifica di aver esplorato:

Gerarchia di soluzioni (costo e complessità crescente):

1. Prompt engineering → zero costo, implementabile in ore
2. Few-shot examples → zero costo, implementabile in un giorno
3. RAG con knowledge base → costo medio, implementabile in settimane
4. Fine-tuning → costo alto, implementabile in settimane/mesi
5. Pre-training custom → costo molto alto, raramente giustificato

Se sei al livello 1-3 e stai pensando di saltare al 4, probabilmente non dovresti.

I 7 Segnali che il Fine-Tuning è Necessario

Segnale 1: Il Formato dell'Output è Critico e il Prompt Non Basta

Esempio concreto: Generazione di fatture XML nel formato specifico di un ERP legacy con 40 campi obbligatori. Nessun modello base produce output valido al 100% senza fine-tuning.

Indicatore: Tasso di errore di parsing > 5% in produzione dopo ottimizzazione del prompt.

Segnale 2: Hai Bisogno di Conoscenza Dominio-Specifica Non Pubblica

Indicatore: Il modello fa errori sistematici su terminologia o classificazioni specifiche dell'azienda, anche con context RAG pertinente.

Segnale 3: Latenza Critica con Token Budget Ridotto

Il fine-tuning permette di "memorizzare" nel modello conoscenza che altrimenti dovrebbe essere nel prompt. Questo riduce la lunghezza del contesto → riduce la latenza e il costo.

Scenario: Un assistente vocale che deve rispondere in < 200ms. Con un system prompt di 2.000 token + RAG context, è impossibile. Fine-tuning + sistema snello: fattibile.

Indicatore: Latenza P95 > SLA con architettura RAG ottimizzata.

Segnale 4: Volume Tale da Giustificare il Costo

Il fine-tuning ha un costo fisso significativo, ma il modello risultante è più economico da inferire se si usa una versione self-hosted o se riduce significativamente il context.

Analisi break-even:

Costo fine-tuning (GPT-4o-mini, ~100K esempi):
- Training: ~$2.000-5.000
- Valutazione e iterazioni: ~$500
- Totale: ~$3.000-5.500

Risparmio mensile da fine-tuning:
- System prompt più corto: -500 token * 100K query/mese * $0.0000006 = -$30/mese
- Meno errori → meno retry: -$200/mese
- Totale risparmio: ~$230/mese

Break-even: ~15-24 mesi ← Non giustificato!

Scenario ad alto volume (1M query/mese):
- Risparmio mensile: ~$2.300/mese
- Break-even: ~2-3 mesi ← Giustificato!

Indicatore: Volume mensile > 500K query.

Segnale 5: Il Tono e lo Stile Sono Business-Critical

Indicatore: Human evaluation score del tono/stile < 90% dopo ottimizzazione prompt.

Segnale 6: Ridurre Allucinazioni su Dominio Chiuso

In domini dove l'allucinazione ha conseguenze gravi (medicina, diritto, finanza), il fine-tuning su dati curati può insegnare al modello a rispondere "non so" invece di inventare.

# Esempio training data per ridurre allucinazioni
training_examples = [
    {
        "messages": [
            {"role": "system", "content": "Sei un assistente medico che risponde solo su farmaci approvati AIFA."},
            {"role": "user", "content": "Qual è il dosaggio di Farmaco-X per pazienti anziani?"},
            # Questa info non è nella knowledge base del modello
            {"role": "assistant", "content": "Non ho informazioni specifiche sul dosaggio di Farmaco-X per pazienti anziani nella mia base di conoscenza. Ti consiglio di consultare il foglietto illustrativo aggiornato o un medico specialista."}
        ]
    },
    # ... centinaia di esempi dove il modello sa dire "non so"
]

Indicatore: Hallucination rate > 3% su test set con domande fuori knowledge base.

Segnale 7: Compliance Richiede Modello Controllato Internamente

Indicatore: Requisiti di data residency o sicurezza che escludono API cloud.

Il Framework Decisionale

                      Il problema è risolvibile con
                      prompt engineering / few-shot?
                              │
                    ┌─────────┴─────────┐
                   SÌ                  NO
                    │                   │
            Usa prompt                Il formato
            engineering           output è il problema?
                                       │
                               ┌───────┴───────┐
                              SÌ              NO
                               │               │
                    Usa structured           Hai > 500K
                    outputs / Pydantic      query/mese?
                                               │
                                       ┌───────┴───────┐
                                      SÌ              NO
                                       │               │
                              Analizza               Usa RAG
                              break-even           ottimizzato
                              fine-tuning

Quando il Fine-Tuning NON è la Risposta

❌ "Il modello non sa delle nostre ultime 3 campagne marketing"

Soluzione: RAG. Indexa i documenti delle campagne. Il fine-tuning non è per dati aggiornati frequentemente.

❌ "Il modello non risponde sempre in italiano"

Soluzione: "Rispondi sempre e solo in italiano." nel system prompt. Testato e funziona al 99.5%+.

❌ "Vogliamo un tono più amichevole"

Soluzione: Few-shot con 10-15 esempi di tono desiderato. Zero costo, implementabile oggi.

❌ "Il modello fa troppi errori matematici"

Soluzione: Non fare fare i calcoli al modello. Usa tool/code execution per i calcoli, e l'LLM solo per l'interpretazione.

❌ "Vogliamo personalizzarlo sul nostro brand"

Soluzione: System prompt dettagliato + few-shot. Il fine-tuning per il brand voice raramente vale il costo.

Se Decidi di Procedere: Dati è Tutto

Il fine-tuning è buono quanto i dati di training. I requisiti minimi:

Volume minimo per risultati affidabili:
- Task semplice (format/style): 100-500 esempi
- Task medio (knowledge domain): 1.000-5.000 esempi
- Task complesso (behavior change): 10.000+ esempi

Qualità > Quantità: 500 esempi perfetti battono 5.000 mediocri.

Struttura dati per fine-tuning OpenAI (JSONL):
{
  "messages": [
    {"role": "system", "content": "..."},
    {"role": "user", "content": "..."},
    {"role": "assistant", "content": "..."}  ← output target
  ]
}

Processo di Raccolta Dati

# Pipeline di raccolta e validazione dati per fine-tuning
import json
from pydantic import BaseModel

class TrainingExample(BaseModel):
    messages: list[dict]

    def validate_format(self) -> bool:
        if len(self.messages) < 2:
            return False
        if self.messages[-1]["role"] != "assistant":
            return False
        if not self.messages[-1]["content"].strip():
            return False
        return True

def curate_training_data(raw_examples: list[dict]) -> list[TrainingExample]:
    """
    Filtra e valida esempi di training.
    """
    validated = []
    for ex in raw_examples:
        try:
            example = TrainingExample(**ex)
            if example.validate_format():
                validated.append(example)
        except Exception as e:
            print(f"Esempio non valido: {e}")

    print(f"Validati: {len(validated)}/{len(raw_examples)} esempi")
    return validated

def check_data_quality(examples: list[TrainingExample]) -> dict:
    """
    Statistiche sulla qualità del dataset.
    """
    lengths = [len(json.dumps(ex.messages)) for ex in examples]
    return {
        "total": len(examples),
        "avg_length_chars": sum(lengths) / len(lengths),
        "min_length": min(lengths),
        "max_length": max(lengths),
        "outliers_too_short": sum(1 for l in lengths if l < 200),
        "outliers_too_long": sum(1 for l in lengths if l > 4000),
    }

Conclusioni

Il fine-tuning è uno strumento potente ma costoso. Fallo solo quando:

Il formato output è critico e insuperabile con prompt
Hai conoscenza tacita non documentabile in RAG
La latenza richiede context ridotto
Il volume giustifica il break-even economico
Il tono/stile è business-critical
Le allucinazioni su dominio chiuso sono inaccettabili
La compliance richiede modelli interni

In tutti gli altri casi, stai pagando per una complessità che non ti serve.

Stai valutando se fare fine-tuning o RAG per il tuo progetto? Contattaci per un assessment tecnico gratuito.

Quando Fare Fine-Tuning di un LLM? 7 Segnali che È il Momento Giusto

Prima di Tutto: Hai Esaurito le Alternative?

I 7 Segnali che il Fine-Tuning è Necessario

Segnale 1: Il Formato dell'Output è Critico e il Prompt Non Basta

Segnale 2: Hai Bisogno di Conoscenza Dominio-Specifica Non Pubblica

Segnale 3: Latenza Critica con Token Budget Ridotto

Segnale 4: Volume Tale da Giustificare il Costo

Segnale 5: Il Tono e lo Stile Sono Business-Critical

Segnale 6: Ridurre Allucinazioni su Dominio Chiuso

Segnale 7: Compliance Richiede Modello Controllato Internamente

Il Framework Decisionale

Quando il Fine-Tuning NON è la Risposta

❌ "Il modello non sa delle nostre ultime 3 campagne marketing"

❌ "Il modello non risponde sempre in italiano"

❌ "Vogliamo un tono più amichevole"

❌ "Il modello fa troppi errori matematici"

❌ "Vogliamo personalizzarlo sul nostro brand"

Se Decidi di Procedere: Dati è Tutto

Processo di Raccolta Dati

Conclusioni

Vuoi approfondire per il tuo business?

Quando Fare Fine-Tuning di un LLM? 7 Segnali che È il Momento Giusto

Prima di Tutto: Hai Esaurito le Alternative?

I 7 Segnali che il Fine-Tuning è Necessario

Segnale 1: Il Formato dell'Output è Critico e il Prompt Non Basta

Segnale 2: Hai Bisogno di Conoscenza Dominio-Specifica Non Pubblica

Segnale 3: Latenza Critica con Token Budget Ridotto

Segnale 4: Volume Tale da Giustificare il Costo

Segnale 5: Il Tono e lo Stile Sono Business-Critical

Segnale 6: Ridurre Allucinazioni su Dominio Chiuso

Segnale 7: Compliance Richiede Modello Controllato Internamente

Il Framework Decisionale

Quando il Fine-Tuning NON è la Risposta

❌ "Il modello non sa delle nostre ultime 3 campagne marketing"

❌ "Il modello non risponde sempre in italiano"

❌ "Vogliamo un tono più amichevole"

❌ "Il modello fa troppi errori matematici"

❌ "Vogliamo personalizzarlo sul nostro brand"

Se Decidi di Procedere: Dati è Tutto

Processo di Raccolta Dati

Conclusioni

Vuoi approfondire per il tuo business?