Amazon SageMaker Ground Truth Plus

Domande generali

D: Cos'è Amazon SageMaker Ground Truth Plus?

Amazon SageMaker Ground Truth Plus consente di creare facilmente set di dati di formazione di alta qualità senza dover creare applicazioni di etichettatura o gestire le forze lavoro di etichettatura personalmente. Una volta forniti i dati insieme ai requisiti di etichettatura, SageMaker Ground Truth Plus gestisce l'impostazione dei flussi di lavoro di etichettatura dei dati e li controlla per tuo conto, in conformità ai tuoi requisiti. Da lì, una forza lavoro esperta addestrata su varie attività di machine learning (ML) esegue l'etichettatura dei dati. Ground Truth Plus utilizza tecniche di ML, inclusi apprendimento attivo, pre-etichettatura e convalida automatica. Ciò migliora la qualità del set di dati di output e riduce i costi di etichettatura dei dati. Ground Truth Plus fornisce trasparenza nelle operazioni di etichettatura dei dati e nella gestione della qualità. Con Ground Truth Plus puoi monitorare l'andamento dei set di dati di formazione in più progetti, tenere traccia delle metriche dei progetti, ad esempio la velocità effettiva giornaliera, analizzare la qualità delle etichette e fornire un feedback sui dati etichettati. Ground Truth Plus può essere utilizzato per vari casi d'uso, tra cui visione artificiale, elaborazione del linguaggio naturale e riconoscimento vocale.

D: Perché dovrei usare Amazon SageMaker Ground Truth Plus?

Per formare un modello di machine learning (ML), i data scientist hanno bisogno di set di dati etichettati di grandi dimensioni e qualità elevata. Man mano che cresce l'adozione di ML, le esigenze di etichettatura aumentano. Questo costringe i data scientist a trascorrere settimane a costruire flussi di lavoro di etichettatura dei dati e a gestire una forza lavoro per l'etichettatura dei dati. Purtroppo, questo rallenta l'innovazione e aumenta i costi. Per poter dedicare il loro tempo alla costruzione, alla formazione e all'implementazione di modelli di ML, i data scientist in genere incaricano altri team interni costituiti da responsabili delle operazioni sui dati e da responsabili di programmi di produrre set di dati di formazione di alta qualità. Tuttavia, questi team in genere non hanno accesso alle competenze necessarie per fornire set di dati di formazione di alta qualità, il che influisce sui risultati di ML.

Amazon SageMaker Ground Truth Plus consente ai data scientist, nonché ai responsabili aziendali, come gestori di operazioni sui dati e gestori di programmi, di creare set di dati di formazione di alta qualità, eliminando il lavoro pesante indifferenziato associato alla creazione di applicazioni di etichettatura dei dati e alla gestione della forza lavoro di etichettatura. Tutto ciò che devi fare è condividere i dati insieme ai requisiti di etichettatura e Ground Truth Plus imposta e gestisce il tuo flusso di lavoro di etichettatura dei dati, in base a questi requisiti. Da lì, una forza lavoro esperta addestrata su varie attività di ML esegue l'etichettatura dei dati. Per utilizzare Ground Truth Plus, non hai nemmeno bisogno di una profonda esperienza di ML o di una conoscenza della progettazione del flusso di lavoro e della gestione della qualità.

D: Come inizio a utilizzare Amazon SageMaker Ground Truth Plus?

Per iniziare subito a utilizzare Amazon SageMaker Ground Truth Plus, completa il modulo di requisiti del progetto. Il nostro team ti contatterà per discutere il tuo progetto di etichettatura dei dati.

D: In che modo Amazon SageMaker Ground Truth Plus può aiutarmi a gestire i miei set di dati di formazione?

Amazon SageMaker Ground Truth Plus fornisce maggiore trasparenza nelle operazioni di etichettatura dei dati e nella gestione della qualità. Ad esempio, SageMaker Ground Truth Plus fornisce una vista del progetto, che puoi utilizzare per monitorare l'andamento del set di dati di formazione in diversi progetti. Inoltre, un pannello di controllo di metriche in tempo reale permette di tenere traccia delle metriche dettagliate del progetto, tra cui la velocità effettiva giornaliera. SageMaker Ground Truth Plus fornisce anche un'interfaccia utente che consente di analizzare la qualità delle etichette e fornire un feedback in tempo reale. Infine, con la modalità streaming, puoi ottenere un tempo di risposta dell'etichetta nello stesso giorno o nella stessa ora per determinati tipi di carichi di lavoro.

D: In che modo Amazon SageMaker Ground Truth Plus contribuisce ad aumentare la precisione dei miei set di dati di formazione?

Ground Truth Plus utilizza molte tecniche per aumentare la precisione del set di dati di formazione:

  • Tecniche di ML: Ground Truth Plus utilizza tecniche di ML, inclusi apprendimento attivo, pre-etichettatura e convalida automatica, che migliorano la qualità del set di dati di output e riducono i costi di etichettatura dei dati. Un flusso di lavoro di etichettatura multi-fase include modelli di ML per l'apprendimento attivo che permette a Ground Truth Plus di ridurre i costi selezionando gli elementi da etichettare e i modelli di ML per pre-etichettare i dati selezionati che riducono lo sforzo umano. Ground Truth Plus utilizza la convalida automatica per identificare i potenziali errori che vengono poi inviati per un ulteriore passaggio di revisione umana. Questo migliora significativamente la qualità delle etichette rilevando gli errori umani.
  • Interfaccia di etichettatura intuitiva: Ground Truth Plus utilizza caratteristiche di etichettatura assistive come (1) Snapping, che fa scattare un cuboide 3D imperfetto per coprire strettamente l'oggetto racchiuso. (2) Auto-segmentazione, che completa una maschera di oggetto con solo quattro clic di punti estremi.

Qual è la differenza tra SageMaker Ground Truth e SageMaker Ground Truth Plus?

• SageMaker Ground Truth Plus è un servizio chiavi in mano completamente gestito, in cui gli esperti AWS configurano e gestiscono i flussi di lavoro e una forza lavoro esterna di etichettatori di dati. Ha uno SLA garantito in termini di qualità, tempistiche per la consegna delle etichette e prezzi personalizzati. SageMaker Ground Truth è un'opzione self-service in cui i clienti possono configurare i propri flussi di lavoro, scegliere tra interfacce utente di etichettatura predefinite o svilupparne di proprie e gestire la propria forza lavoro interna. Possono anche procurarsi la forza lavoro da Mechanical Turk o da un fornitore nel Marketplace AWS. I prezzi di SageMaker Ground Truth si basano sul piano tariffario pubblico.

Privacy dei dati

D: In che modo Amazon SageMaker Ground Truth Plus contribuisce a proteggere e rendere sicuri i miei dati?

Per impostazione predefinita, Amazon SageMaker Ground Truth Plus codifica i dati archiviati in un bucket di Amazon S3 a riposo e in transito. L'accesso ai dati è controllato tramite AWS Identity and Access Management (IAM). I tuoi dati vengono memorizzati in un account AWS indipendente e un bucket Amazon S3 viene creato per il tuo progetto. Amazon SageMaker Ground Truth Plus non archivia né esegue copie dei dati al di fuori dell'ambiente AWS creato per te. AWS registra e controlla tutti gli accessi ai tuoi dati utilizzando la registrazione degli accessi ad Amazon S3 e AWS CloudTrail.

D: Chi ha accesso ai miei contenuti elaborati e archiviati da Amazon SageMaker Ground Truth Plus?

I dipendenti autorizzati di AWS e la forza lavoro esperta che etichetta i tuoi dati avranno accesso ai tuoi contenuti elaborati da Amazon SageMaker Ground Truth Plus. La forza lavoro esperta che etichetta i tuoi dati li visualizza e li etichetta attraverso il portale sicuro dei lavoratori di SageMaker Ground Truth. L'accesso attraverso il portale dei lavoratori permette ai lavoratori solo di visualizzare ed etichettare i dati, non di modificarli o eliminarli. La tua fiducia, la tua privacy e la tua sicurezza sono la nostra massima priorità. Implementiamo controlli tecnici e fisici appropriati, compresa la crittografia a riposo e in transito, progettati per impedire l'accesso non autorizzato o la divulgazione dei tuoi contenuti.

D: Gli input di dati (immagini, file di testo, video, ecc.) elaborati da Amazon SageMaker Ground Truth Plus vengono archiviati? Come vengono utilizzati da AWS?

Amazon SageMaker Ground Truth Plus archivia i contenuti elaborati e non elaborati solo per la durata dei tuoi progetti ed elimina i contenuti associati al tuo progetto di etichettatura dei dati su richiesta. Amazon SageMaker Ground Truth Plus utilizza i tuoi contenuti esclusivamente per fornire e mantenere il servizio. Amazon SageMaker Ground Truth Plus non utilizza mai i tuoi contenuti o qualsiasi modello formato su quei contenuti a beneficio di altri clienti.

D: I contenuti elaborati da Amazon SageMaker Ground Truth Plus vengono spostati al di fuori della Regione AWS in cui utilizzo Amazon SageMaker Ground Truth Plus?

I contenuti elaborati da Amazon SageMaker Ground Truth Plus vengono codificati e archiviati a riposo nella Regione AWS in cui utilizzi Amazon SageMaker Ground Truth Plus. A meno che non specifichi diversamente nei requisiti di localizzazione dei dati concordati reciprocamente attraverso una dichiarazione di lavoro, sarà possibile accedere ai tuoi contenuti al di fuori della Regione AWS in cui sono archiviati per eseguire il servizio di etichettatura.

D: Posso richiedere l'eliminazione dei dati (immagini, file di testo, video ecc.) archiviati da Amazon SageMaker Ground Truth Plus?

Sì. Puoi richiedere l'eliminazione di input di dati elaborati e non elaborati associati al tuo progetto di etichettatura dei dati contattando il Supporto AWS.

D: I miei contenuti elaborati e archiviati da Amazon SageMaker Ground Truth Plus rimangono di mia proprietà?

Sì. Manterrai la proprietà sui contenuti. Li useremo solo previo consenso.

D: Posso elaborare i dati relativi alle informazioni sanitarie personali (PHI) attraverso Amazon SageMaker Ground Truth Plus?

No. Attualmente, Amazon SageMaker Ground Truth Plus non è un servizio idoneo alla normativa HIPAA.

Forza lavoro

D: Cos'è una forza lavoro esperta in Amazon SageMaker Ground Truth Plus?

Con Ground Truth Plus, l'etichettatura viene eseguita da una forza lavoro altamente qualificata, diversificata ed elastica, addestrata su attività di machine learning che può contribuire a soddisfare un'ampia varietà di esigenze, tra cui sicurezza, privacy e conformità dei dati. La forza lavoro è formata da due livelli, 1/Forza lavoro di Amazon: è costituita da lavoratori impiegati e gestiti da Amazon, laddove Amazon controlla gli SLA di operazioni, qualità e tempo di risposta per tuo conto. 2/Forza lavoro del fornitore: è costituita da lavoratori presenti in una lista curata di fornitori di terze parti, specializzati nella fornitura di servizi di etichettatura dei dati, laddove Amazon controlla gli SLA di qualità e tempo di risposta per tuo conto.

D: Chi decide quale livello di forza lavoro sarà usato per il mio progetto Amazon SageMaker Ground Truth Plus?

Puoi decidere il tipo di forza lavoro da utilizzare per il tuo progetto. A meno che non indichi di utilizzare una forza lavoro specifica, per aiutarti a soddisfare i requisiti di qualità, tempo di risposta e sicurezza del tuo progetto, può essere utilizzata la forza lavoro di Amazon, la forza lavoro del fornitore o una combinazione di entrambe.

D: Di quali cambiamenti implementati dalla forza lavoro del fornitore alla luce del COVID-19 dovrei essere al corrente?

Alla luce del COVID-19, alcuni fornitori di servizi hanno implementato una policy di lavoro a distanza per la salute e la sicurezza dei loro dipendenti.

D: Quali standard di sicurezza deve rispettare la forza lavoro di un fornitore?

I fornitori di servizi devono ottenere la conformità SOC 2 o la certificazione ISO 27001 su base annuale da parte di un revisore terzo indipendente.

Il report SOC 2 contiene una descrizione dell'ambiente di controllo del fornitore di servizi basata sui Trust Services Criteria dell'American Institute of Certified Public Accountants (AICPA): sicurezza, disponibilità, processo, integrità, confidenzialità e riservatezza.

La certificazione ISO 27001 si basa sull'International Organization for Standardization (ISO) e sull'International Electrotechnical Commission (IEC), che illustra nei dettagli i requisiti per stabilire, implementare, mantenere e migliorare continuamente un sistema di gestione della sicurezza delle informazioni (ISMS).

Oltre a ottenere indipendentemente SOC 2 o ISO 27001, i fornitori di servizi sono tenuti a mantenere ulteriori controlli di sicurezza, descritti di seguito, per contribuire a mantenere i tuoi dati sicuri.

Controlli tecnologici:
I fornitori di servizi devono utilizzare software appropriati per bloccare ogni tentativo di scaricare o copiare i file/dati dai propri sistemi e prevenire l'accesso non autorizzato a questi ultimi. I fornitori di servizi devono inoltre vietare ai loro dipendenti di archiviare o copiare i dati relativi alle attività dei clienti.

Controlli di sicurezza di rete:
Chiediamo che la rete dei nostri fornitori di servizi sia progettata in modo da prevenire l'accesso da remoto ai dati relativi alle attività del cliente. Inoltre, la condivisione di file peer-to-peer è bloccata nella rete del fornitore e il firewall dovrebbe poter consentire un'elevata disponibilità.

Controllo dei dipendenti:
I fornitori di servizi devono garantire di avere accordi di non divulgazione con i propri dipendenti. I fornitori di servizi devono adottare politiche rigide per prevenire qualsiasi divulgazione delle informazioni ed evitare la trasmissione delle informazioni da parte dei dipendenti attraverso qualsiasi mezzo: cartaceo, USB, telefono cellulare o altri supporti.

Controlli sugli accessi fisici:
I fornitori di servizi devono mantenere misure di controllo sugli accessi fisici per prevenire accessi non autorizzati ai loro siti di produzione. Ciò può includere tornelli con autenticazione biometrica, identificazione del dipendente attraverso un badge, ecc.

D: In che modo AWS aiuta la forza lavoro di un fornitore a rispettare questi standard di sicurezza?

AWS richiede che i fornitori di servizi forniscano rapporti sulle loro certificazioni SOC 2 o ISO 27001 prima di diventare parte della forza lavoro dei fornitori di Amazon SageMaker Ground Truth Plus. I report SOC e le certificazioni ISO di AWS non coprono la forza lavoro dei fornitori.

Amazon SageMaker Ground Truth

Domande generali

D: Cos'è Amazon SageMaker Ground Truth?

Amazon SageMaker Ground Truth consente di etichettare in modo efficiente e accurato i set di dati richiesti per la formazione dei sistemi di machine learning. SageMaker Ground Truth può etichettare automaticamente una parte del set di dati in base alle etichette fatte manualmente dagli etichettatori. Puoi scegliere di utilizzare una forza lavoro di Amazon Mechanical Turk in crowdsourcing composta da oltre 500.000 etichettatori, i tuoi dipendenti o uno dei fornitori di servizi di terze parti per l’etichettatura dati elencato in AWS Marketplace, precedentemente selezionato da Amazon. SageMaker Ground Truth utilizza algoritmi innovativi e tecniche di esperienza utente (UX) per migliorare la precisione dell'etichettatura umana. Nel tempo, il modello migliora progressivamente imparando continuamente dalle etichette create dagli esseri umani, per aumentare l'etichettatura automatica.

D: Che cos'è l'etichettatura dei dati automatica?

L'etichettatura dei dati automatica è l'etichettatura dei dati mediante il machine learning. Amazon SageMaker Ground Truth selezionerà prima un campione casuale di dati e lo invierà agli umani per essere etichettato. I risultati vengono quindi utilizzati per addestrare un modello di etichettatura che tenta di etichettare automaticamente un nuovo campione di dati grezzi. Le etichette vengono confermate quando il modello può etichettare i dati con un punteggio di confidenza che soddisfa o supera una soglia elevata. Laddove il punteggio di confidenza scende al di sotto di questa soglia, i dati vengono inviati agli etichettatori. Alcuni dati etichettati da persone vengono utilizzati per generare un nuovo gruppo di dati per formare un modello di etichettatura e il modello viene riformato nuovamente in modo automatico per migliorarne l’accuratezza. Questo processo si ripete con ogni campione di dati grezzi da etichettare. Con ogni iterazione, il modello di etichettatura diventa più capace di etichettare automaticamente i dati grezzi e meno dati vengono instradati agli esseri umani.

Uso di Amazon SageMaker Ground Truth

D: Perché dovrei utilizzare Amazon SageMaker Ground Truth?

Prima di costruire, formare e implementare modelli di machine learning, hai bisogno di dati. I modelli di successo si basano su dati di formazione di alta qualità: la raccolta e l'etichettatura dei set di dati di formazione richiede molto tempo e impegno. Per costruire i set di dati in cui essere formati, gli etichettatori devono valutare un gran numero di immagini o altri tipi di dati, quindi identificare ed etichettare determinati oggetti in ogni tipo di dati. Queste attività di etichettatura sono distribuite tra molti etichettatori, aggiungendo spese generali e costi significativi. Se ci sono etichette errate, il sistema apprende dalle informazioni errate e fa previsioni imprecise.

Amazon SageMaker Ground Truth risolve questo problema semplificando l'esecuzione efficiente dell'etichettatura dei dati utilizzando i dati archiviati in Amazon S3, utilizzando una combinazione di etichettatura automatica dei dati e etichettatura eseguita dall'uomo.

D: Come inizio con Amazon SageMaker Ground Truth?

Amazon SageMaker Ground Truth offre un'esperienza gestita in cui è possibile impostare un intero lavoro di etichettatura dei dati con pochi passaggi. Per iniziare a utilizzare Amazon SageMaker Ground Truth, accedi alla Console di gestione AWS e vai alla console SageMaker. Quindi seleziona Lavori di etichettatura in Ground Truth. Qui puoi creare un lavoro di etichettatura. Per prima cosa, come parte del flusso di creazione del lavoro di etichettatura, fornisci un puntatore al bucket S3 che contiene il set di dati da etichettare. Ground Truth offre modelli per attività di etichettatura comuni in cui è sufficiente fare clic su alcune scelte e fornire istruzioni minime su come ottenere l’etichettatura dei propri dati. In alternativa, puoi creare il tuo modello personalizzato. Come ultima fase della creazione di un lavoro di etichettatura, seleziona una delle tre opzioni umane di forza lavoro: (1) una forza lavoro pubblica crowdsourcing, (2) un insieme selezionato di fornitori di servizi di terze parti per l’etichettatura dati, oppure (3) usa lavoratori di tua scelta. Hai inoltre la possibilità di abilitare l'etichettatura automatica dei dati.

D: In che modo i miei set di dati di addestramento sono gestiti utilizzando Amazon SageMaker Ground Truth?

Amazon SageMaker Ground Truth gestisce i metadati, le etichette associate e una tassonomia delle etichette e dei set di dati. È possibile utilizzare facilmente AWS SDK tramite un notebook SageMaker, o la console di Ground Truth all'interno della console SageMaker, per richiedere e gestire i set di dati e le etichette. Consulta la documentazione di Amazon SageMaker Ground Truth per maggiori informazioni.

D: In che modo Amazon SageMaker Ground Truth consente di aumentare la precisione dei miei set di dati di formazione?

Amazon SageMaker Ground Truth offre le seguenti funzionalità per permettere di aumentare la precisione dell'etichettatura dei dati eseguita dagli esseri umani:

(a) Consolidamento delle annotazioni: contrasta l'errore/bias dei singoli lavoratori inviando ciascun oggetto dati a più lavoratori e quindi consolida le loro risposte (dette "annotazioni") in un'unica etichetta. Quindi prende le loro annotazioni e le confronta usando un algoritmo di consolidamento delle annotazioni. Questo algoritmo prima rileva le annotazioni anomale che vengono ignorate. Esegue quindi un consolidamento ponderato delle annotazioni, assegnando pesi più elevati a annotazioni più affidabili. L'output è una singola etichetta per ogni oggetto.

(b) Best practice dell'interfaccia di annotazione: queste sono le caratteristiche delle interfacce di annotazione che consentono ai lavoratori di svolgere le loro attività in modo più accurato. I lavoratori umani sono inclini a errori e pregiudizi e interfacce ben progettate migliorano la precisione del lavoratore. Una buona pratica è quella di visualizzare brevi istruzioni associate ad esempi di etichette buone e cattive in un pannello laterale fisso. Un'altra best practice è di scurire l'area al di fuori del confine del riquadro quando i lavoratori stanno disegnando il riquadro di delimitazione su un'immagine.

D: In che modo Amazon SageMaker Ground Truth garantisce che i miei dati sono protetti e sicuri?

Per impostazione predefinita, Amazon SageMaker Ground Truth crittografa i dati a riposo e in transito. L'accesso ai dati può anche essere controllato tramite AWS Identity and Access Management (IAM). Ground Truth non memorizza o crea copie dei tuoi dati al di fuori del tuo ambiente AWS e i tuoi dati rimangono sotto il tuo controllo. Inoltre, Ground Truth supporta standard di conformità come il GDPR (General Data Protection Regulation) e offre funzionalità complete di registrazione e auditing utilizzando Amazon CloudWatch e Amazon CloudTrail. Consulta la documentazione di Amazon SageMaker Ground Truth per maggiori informazioni.

D: Come posso accedere a una forza lavoro umana utilizzando Amazon SageMaker Ground Truth?

Da SageMaker Ground Truth, puoi scegliere una delle tre opzioni della forza lavoro, ovvero (1) la forza lavoro pubblica crowdsourcing attraverso Amazon Mechanical Turk, (2) fornitori di servizi terzi per l'etichettatura dei dati disponibili attraverso Marketplace AWS e (3) i tuoi dipendenti. Consulta la documentazione di Amazon SageMaker Ground Truth per maggiori informazioni.  

Utilizzo di fornitori di servizi di terze parti per l’etichettatura dei dati

D: I fornitori di servizi di etichettatura dei dati di Amazon SageMaker Ground Truth possono processare dati riservati?

Sì, il fornitore di servizi di etichettatura dei dati di Amazon SageMaker Ground Truth può processare dati riservati. Il contratto sul servizio standard tra i clienti AWS e i fornitori terzi di servizi di etichettatura dei dati contiene alcune protezioni di base per le tue informazioni riservate. Verifica tali termini prima di condividere qualsiasi informazione riservata con il fornitore di servizi. Le condizioni sono disponibili nella pagina contenente gli elenchi del fornitore di servizi su AWS Marketplace.

D: Lavoro con un fornitore di servizi di terze parti attraverso AWS Marketplace. Di quali cambiamenti implementati dai fornitori di servizi alla luce del COVID-19 dovrei essere al corrente?

Considerando il rapido impatto del COVID-19, alcuni fornitori di servizi hanno implementato temporaneamente una policy di lavoro a distanza per la sicurezza dei loro dipendenti. Durante questo periodo, gli standard di sicurezza tra cui la conformità SOC 2 e ulteriori controlli di sicurezza delineati nella sezione Domande Frequenti sottostante potrebbero non essere applicabili ai fornitori di servizi interessati. Per adattarsi a questa situazione, i fornitori di servizi interessati hanno aggiornato i loro elenchi di Marketplace AWS e non tratteranno i dati dei clienti a distanza senza il consenso specifico del cliente.

D: A quali standard di sicurezza i fornitori di servizi di etichettatura dei dati di Amazon SageMaker Ground Truth devono rispondere?

Un fornitore di servizi di etichettatura dei dati deve possedere conformità e certificazione SOC 2 su base annuale. Il report SOC 2 contiene una descrizione dell'ambiente di controllo del fornitore di servizi basata sui Trust Services Criteria dell'American Institute of Certified Public Accountants (AICPA): sicurezza, disponibilità, processo, integrità, confidenzialità e riservatezza.

Oltre al SOC 2, ai fornitori di servizi viene richiesto di mantenere questi ulteriori controlli di sicurezza, per conservare al sicuro i dati dei clienti.

Controlli tecnologici:
I fornitori di servizi devono utilizzare software appropriati per bloccare ogni tentativo di scaricare o copiare i file/dati dai propri sistemi e prevenire l'accesso non autorizzato a questi ultimi. I fornitori di servizi devono inoltre vietare ai loro dipendenti di archiviare o copiare i dati relativi alle attività dei clienti.

Controlli di sicurezza di rete:
Chiediamo che la rete dei nostri fornitori di servizi sia progettata in modo da prevenire l'accesso da remoto ai dati relativi alle attività del cliente. Inoltre, la condivisione di file peer-to-peer è bloccata nella rete del fornitore e il firewall dovrebbe poter consentire un'elevata disponibilità.

Controllo dei dipendenti:
I fornitori di servizi devono garantire di avere accordi di non divulgazione con i propri dipendenti. I fornitori di servizi devono adottare politiche rigide per prevenire qualsiasi divulgazione delle informazioni ed evitare la trasmissione delle informazioni da parte dei dipendenti attraverso qualsiasi mezzo: cartaceo, USB, telefono cellulare o altri media.

Controlli sugli accessi fisici:
I fornitori di servizi devono mantenere misure di controllo sugli accessi fisici per prevenire accessi non autorizzati ai loro siti di produzione. Ciò può includere tornelli con autenticazione biometrica, identificazione del dipendente attraverso un badge, ecc.

D: In che modo AWS garantisce che i fornitori di servizi si attengano a questi standard di sicurezza?

AWS chiede ai fornitori di servizi di fornire i report di certificazione SOC 2 prima di essere inseriti negli elenchi di marketplace e ne conferma:

L'autenticità (se il fornitore di servizi è certificato presso l'AICPA);

Il periodo del report (data di validità della certificazione SOC 2); e

Il sito di produzione (il sito fisico dove la forza lavoro del fornitore di servizi lavora sulle attività di etichettatura di Amazon SageMaker Ground Truth).

D: Qual è la frequenza di verifica degli standard di sicurezza del fornitore di servizi?

Gli standard di sicurezza di ogni fornitore di servizi vengono verificati annualmente per assicurare il rispetto dei requisiti obbligatori.

D: Esistono eccezioni alla verifica di AWS?

No. Se un fornitore di servizi non risponde agli standard di sicurezza, il loro elenco viene rimosso dal Marketplace AWS. La rimozione dall'elenco viene completata entro 24 ore e tutti i clienti attivi ricevono una notifica via e-mail.

D: Qualora un fornitore di servizi offra servizi di etichettatura dei dati in diversi siti di produzione, questi ultimi devono tutti essere sottoposti al processo di verifica?

Sì. Tutti i siti devono rispettare gli standard di sicurezza richiesti.

D: Cosa accade in caso di violazione dei dati sul sito di produzione del fornitore di servizi?

Il fornitore di servizi informa AWS e i clienti interessati entro 24 ore dal rilevamento di qualsiasi accesso, raccolta, acquisizione, utilizzo, trasmissione, divulgazione, corruzione o perdita non autorizzata, reale o sospettata, delle informazioni dei clienti. Il fornitore di servizi rimedierà nell'immediato ad ogni incidente di sicurezza e fornirà per iscritto dettagli sulle investigazioni interne ad AWS e ai clienti interessati.

Prezzi e disponibilità

D: Quanto costa Amazon SageMaker Ground Truth?

Consulta la pagina dei prezzi di SageMaker Ground Truth per informazioni sui prezzi attuali.

D: In quali Regioni AWS è disponibile Amazon SageMaker Ground Truth?

La tabella delle Regioni AWS elenca tutte le regioni AWS in cui Amazon SageMaker Ground Truth è attualmente disponibile.

Generazione di dati sintetici

Q: Come posso generare dati sintetici etichettati?

Amazon SageMaker Ground Truth permette di generare dati sintetici etichettati al posto tuo. Tu specifichi i tuoi requisiti di immagine sintetica o fornisci asset 3D e immagini di base, come immagini di progettazione assistita dall'elaboratore (CAD), e gli artisti digitali di AWS creano immagini da zero o utilizzano asset forniti dal cliente. Le immagini generate imitano pose e posizionamenti di oggetti, includono variazioni di oggetti o scene e opzionalmente aggiungono delle integrazioni, come scratch, tagli e altre alterazioni, eliminando il dispendioso processo di raccolta di dati o il bisogno di danneggiare parti per acquisire immagini. SageMaker Ground Truth può generare centinaia di migliaia di immagini sintetiche etichettate automaticamente con elevata precisione.

D: Perché dovrei usare dati sintetici etichettati?

Ottenere dati per i modelli di formazione di machine learning (ML) impiega molto tempo e molti sforzi. Per alcuni tipi di dati, come scenari rari o altamente variabili, la raccolta di dati può essere costosa o persino impossibile. Per esempio, identificare difetti di manifattura richiede una grande quantità di immagini. Inoltre, i modelli di ML devono essere formati a riconoscere scenari che non si verificano frequentemente, come difetti rari. Per identificare i difetti rari, i modelli di ML necessitano di immagini di difetti. Tuttavia, dal momento che questi eventi accadono in maniera non frequente, questi dati sono spesso creati manualmente, il che può richiedere danni a parti costose. Infine le immagini devono essere etichettate manualmente.

Utilizzando SageMaker Ground Truth, è possibile generare dati sintetici che sono automaticamente etichettati, riducendo il tempo e le spese necessarie alla raccolta e all'etichettatura dei dati di formazione. Puoi quindi usare i dati sintetici per formare modelli di ML attraverso un'ampia gamma di casi d'uso di visioni informatiche, come oggetti, anomalie e individuazione dei difetti.

D: Come fa Amazon SageMaker Ground Truth a generare dati sintetici etichettati?

Vi è un processo in tre fasi per generare dati sintetici etichettati. In primo luogo, si forniscono asset 3D, immagini base, e/o requisiti di immagine. In secondo luogo, gli artisti digitali convertono questi input in asset 3D, aggiungendo integrazioni come scratch, tagli e texture. In terzo luogo, SageMaker Ground Truth genera immagini sintetiche e le etichette automaticamente.

D: Posso usare SageMaker Ground Truth per generare dati sintetici etichettati se non possiedo immagini o asset 3D?

Sì, vi è una libreria di asset 3D di più di 1 milione di oggetti che può essere usata per supportare la creazione di dati sintetici al posto tuo. In alternativa, è possibile utilizzare un piccolo set di immagini pre-etichettate per creare nuovi set di dati sintetici. Se si hanno immagini di background o esempi dei dati necessari, questi possono accelerare la creazione di dati sintetici altamente accurati.

IA generativa

D: Come posso usare Amazon SageMaker Ground Truth Plus per creare le mie applicazioni di IA generativa?

SageMaker Ground Truth Plus ti aiuta a generare set di dati di alta qualità per personalizzare e allineare i modelli di base alle preferenze umane. Esistono due tipi di set di dati etichettati generati da Amazon SageMaker Ground Truth: dati dimostrativi e dati sulle preferenze.

Nei dati dimostrativi, un annotatore di dati completa un'attività (come scrivere domande e risposte o riassumere un testo) che simula e dimostra come un modello interagirebbe con un essere umano. Il set di dati etichettato viene quindi utilizzato per ottimizzare il modello in un processo noto come ottimizzazione di precisione supervisionata (SFT).

Nei dati sulle preferenze, un annotatore umano fornisce feedback diretti e indicazioni sul contenuto generato da un modello o sui dati del modello simulato. Ad esempio, classificare le risposte testuali di un modello linguistico di grandi dimensioni in base a dimensioni specifiche come precisione, pertinenza o chiarezza di scrittura. Un metodo di ottimizzazione che utilizza i dati sulle preferenze è chiamato apprendimento per rinforzo dal feedback umano (RLHF).

D: Quali casi d'uso dell'IA generativa può supportare Amazon SageMaker Ground Truth Plus?

Amazon SageMaker Ground Truth Plus ti consente di generare set di dati per modelli linguistici di grandi dimensioni (LLM), modelli testo-immagine e modelli testo-video. Per i modelli linguistici di grandi dimensioni, gli annotatori di dati possono creare set di dati dimostrativi per la messa a punto supervisionata, tra cui coppie di domande e risposte, riepiloghi di testo, rielaborazione del testo per aggiungere elementi di redazione o modificare stile e voce. Gli annotatori possono anche creare set di dati sulle preferenze per RLHF classificando le risposte LLM per garantire che i chatbot siano allineati alle preferenze umane. Per i modelli testo-immagine e testo-video, gli annotatori di dati possono creare set di dati ricchi di didascalie. Questi set di dati vengono quindi utilizzati per addestrare i modelli su come generare immagini e video più strettamente allineati con l'input di testo originale dell'utente. Gli annotatori di dati possono anche generare set di dati sulle preferenze, contenenti immagini e video classificati in base a dimensioni specificate dal cliente, ad esempio attributi estetici specifici. Puoi anche richiedere un nuovo tipo di attività non ancora coperto e il nostro team lavorerà con te per creare un flusso di lavoro che soddisfi le tue esigenze.

D: Perché il feedback umano è importante per i modelli di base?

Nelle applicazioni di intelligenza artificiale generativa, gli esseri umani sono in genere sia il richiedente che il consumatore di contenuti. È quindi fondamentale che gli esseri umani insegnino ai modelli di base come rispondere correttamente in base alle richieste degli utenti. Ottimizzando e personalizzando i modelli con dati etichettati, gli annotatori di dati possono simulare lo stile, la lunghezza e la precisione del modo in cui un modello dovrebbe interagire con gli utenti. Ad esempio, per creare un chatbot, gli annotatori di dati insegnano al modello come rispondere alle domande e fornire risposte addestrandolo su domande e risposte scritte da persone. Gli annotatori di dati classificano anche le diverse risposte dei chatbot in base al loro allineamento con le preferenze umane per insegnare al modello come scrivere in base all'intento e ai valori umani, cosa che può essere fatta attraverso l'apprendimento per rinforzo dal feedback umano (RLHF).
 

Prezzi di Amazon SageMaker Ground Truth
Ulteriori informazioni sui prezzi di etichettatura dei dati di Amazon SageMaker

Inizia con l'etichettatura dei dati di Amazon SageMaker senza impegni anticipati o contratti a lungo termine.

Ulteriori informazioni 
Registrati per creare un account AWS
Registrati per creare un account gratuito

Ottieni l'accesso immediato al piano gratuito di AWS. 

Registrati 
Inizia a creare nella console
Inizia a lavorare nella console

Inizia subito con l'etichettatura dei dati di Amazon SageMaker nella Console di gestione AWS.

Accedi