Cos'è la visione computerizzata?
La visione artificiale è una tecnologia che le macchine utilizzano per riconoscere automaticamente le immagini e descriverle in modo accurato ed efficiente. Oggi, i sistemi informatici hanno accesso a un grande volume di immagini e dati video provenienti o creati da smartphone, telecamere del traffico, sistemi di sicurezza e altri dispositivi. Le applicazioni di visione artificiale utilizzano l'intelligenza artificiale e il machine learning (IA/ML) per elaborare questi dati in modo accurato in modo da identificare gli oggetti e riconoscere i volti, nonché per la classificazione, la raccomandazione, il monitoraggio e il rilevamento.
Perché la visione artificiale è importante?
Anche se la tecnologia di elaborazione delle informazioni visive esiste da tempo, prima gran parte del processo richiedeva l'intervento umano, impiegava molto tempo ed era soggetto a errori. Ad esempio, in passato l'implementazione di un sistema di riconoscimento facciale richiedeva agli sviluppatori di etichettare manualmente migliaia di immagini con punti dati chiave, come la larghezza del ponte nasale e la distanza tra gli occhi. L'automazione di queste attività richiedeva un'ampia potenza di calcolo, perché i dati delle immagini sono non strutturati e complessi da organizzare per i computer. Le applicazioni di visione erano quindi costose e inaccessibili per la maggior parte delle organizzazioni.
Oggi, i progressi nel campo, combinati a un notevole aumento della potenza di calcolo, hanno migliorato sia la scala che la precisione dell'elaborazione dei dati delle immagini. I sistemi di visione artificiale basati su risorse di cloud computing ora sono accessibili a tutti. Qualsiasi organizzazione può utilizzare la tecnologia per la verifica dell'identità, la moderazione dei contenuti, l'analisi di video in streaming, il rilevamento degli errori e altro ancora.
Quali sono i casi d'uso della visione artificiale?
Numerose applicazioni di visione artificiale sono utilizzate per l'intrattenimento, gli affari, l'assistenza sanitaria, i trasporti e la vita quotidiana. Di seguito esaminiamo alcuni casi d'uso:
Sicurezza e protezione
I governi e le imprese utilizzano la visione artificiale per migliorare la sicurezza di risorse, siti e strutture. Ad esempio, telecamere e sensori monitorano spazi pubblici, siti industriali e ambienti ad alta sicurezza. Inviano avvisi automatici se si verifica qualcosa di inusuale, come un individuo non autorizzato che entra in un'area riservata.
Allo stesso modo, la visione artificiale può migliorare la sicurezza personale a casa e sul posto di lavoro. Ad esempio, può monitorare una miriade di problemi relativi alla sicurezza. Tra questi, lo streaming in tempo reale a casa per rilevare animali domestici o telecamere in diretta che rilevano visitatori o pacchi consegnati. Sul posto di lavoro, tale monitoraggio include l'uso di adeguati dispositivi di protezione individuale da parte dei lavoratori, l'informazione dei sistemi di allarme o la generazione di rapporti.
Efficienza operativa
La visione artificiale può analizzare immagini ed estrarre metadati per la business intelligence, creando nuove opportunità di profitto ed efficienze operative. Ad esempio, può:
- Identifica automaticamente i difetti di qualità prima che i prodotti lascino la fabbrica
- Rileva i problemi di manutenzione e sicurezza delle macchine
- Analizza le immagini dei social media per scoprire tendenze e modelli di comportamento dei clienti
- Autentica i dipendenti grazie al riconoscimento facciale automatico
Sanità
L'assistenza sanitaria è uno dei settori leader per l'applicazione della tecnologia di visione artificiale. In particolare, l'analisi delle immagini mediche crea una visualizzazione di organi e tessuti per aiutare i medici a effettuare diagnosi rapide e accurate, con conseguenti migliori risultati dei trattamenti e una migliore aspettativa di vita. Ad esempio:
- Rilevazione di tumori mediante analisi di nei e lesioni cutanee
- Analisi radiografica automatica
- Scoperta dei sintomi dalle risonanze magnetiche
Veicoli a guida autonoma
La tecnologia dei veicoli autonomi utilizza la visione artificiale per riconoscere immagini in tempo reale e creare mappe 3D da più telecamere montate sul veicolo autonomo. Può analizzare le immagini e identificare altri utenti della strada, segnali stradali, pedoni o ostacoli.
Nei veicoli semiautonomi, la visione artificiale utilizza il machine learning (ML) per monitorare il comportamento del conducente. Ad esempio, cerca segni di distrazione, affaticamento e sonnolenza in base alla posizione della testa del conducente, al tracciamento degli occhi e al movimento della parte superiore del corpo. Se la tecnologia rileva determinati segnali di pericolo, avvisa il conducente e riduce la possibilità di un incidente di guida.
Agricoltura
Dall'aumento della produttività alla riduzione dei costi con l'automazione intelligente, le applicazioni di visione artificiale migliorano il funzionamento complessivo del settore agricolo. Le immagini satellitari e le riprese UAV aiutano ad analizzare vasti tratti di terreno e migliorare le pratiche agricole. Le applicazioni di visione artificiale automatizzano attività come il monitoraggio delle condizioni dei campi, l'identificazione delle malattie delle colture, il controllo dell'umidità del suolo e la previsione delle condizioni meteorologiche e dei raccolti. Il monitoraggio degli animali con la visione artificiale è un'altra strategia fondamentale dell'agricoltura intelligente.
Come funziona la visione artificiale?
I sistemi di visione artificiale utilizzano la tecnologia di intelligenza artificiale (IA) per imitare le capacità del cervello umano responsabili del riconoscimento e della classificazione degli oggetti. Gli informatici addestrano i computer a riconoscere i dati visivi inserendo grandi quantità di informazioni. Gli algoritmi di machine learning (ML) identificano modelli comuni in queste immagini o video e applicano tali conoscenze per identificare con precisione immagini sconosciute. Ad esempio, se i computer elaborano milioni di immagini di automobili, inizieranno a creare modelli di identità in grado di rilevare con precisione un veicolo in un'immagine. La visione artificiale utilizza tecnologie come quelle indicate di seguito.
Deep learning
Il deep learning è un tipo di ML che utilizza reti neurali. Le reti neurali di deep learning sono costituite da molti strati di moduli software, chiamati neuroni artificiali, che lavorano insieme all'interno del computer. Usano calcoli matematici per elaborare automaticamente diversi aspetti dei dati dell'immagine e sviluppare gradualmente una comprensione combinata.
Reti neurali convoluzionali
Le reti neurali convoluzionali (CNN) utilizzano un sistema di etichettatura per classificare i dati visivi e comprendere l'intera immagine. Analizzano le immagini come pixel e assegnano a ciascun pixel un valore di etichetta. Il valore viene immesso per eseguire un'operazione matematica chiamata convoluzione e fare previsioni sull'immagine. Come un essere umano che tenta di riconoscere un oggetto a distanza, una CNN identifica innanzitutto i contorni e le forme semplici prima di inserire dettagli aggiuntivi come colore, forme interne e texture. Infine, ripete il processo di previsione su diverse iterazioni per migliorare la precisione.
Reti neurali ricorrenti
Le reti neurali ricorrenti (RNN) sono simili alle CNN, ma possono elaborare una serie di immagini per trovare collegamenti tra di esse. Mentre le CNN vengono utilizzate per l'analisi di singole immagini, le RNN possono analizzare i video e comprendere le relazioni tra le immagini.
Qual è la differenza tra visione artificiale ed elaborazione delle immagini?
L'elaborazione delle immagini utilizza algoritmi per alterare qualità delle immagini come nitidezza, levigatura, filtraggio o miglioramento. La visione artificiale è diversa in quanto non modifica un'immagine, ma dà un senso a ciò che vede e svolge un'attività, come l'etichettatura. In alcuni casi, è possibile utilizzare l'elaborazione delle immagini per modificarne una in modo che un sistema di visione artificiale possa comprenderla meglio. In altri casi si utilizza la visione artificiale per identificare immagini o parti di un'immagine e quindi si utilizza l'elaborazione delle immagini per modificarle ulteriormente.
Quali sono le attività più comuni che la visione artificiale può eseguire?
Di seguito diamo un'occhiata ad alcuni esempi di attività di visione artificiale che le organizzazioni possono implementare.
Classificazione delle immagini
La classificazione delle immagini consente ai computer di vedere un'immagine e classificare con precisione in quale classe rientra. La visione artificiale comprende classi ed etichette, ad esempio alberi, aerei o edifici. Un esempio è una fotocamera che può riconoscere i volti in una fotografia e concentrarsi su di essi.
Rilevamento di oggetti
Il rilevamento di oggetti è un'attività di visione artificiale per il rilevamento e la localizzazione di immagini. Utilizza la classificazione per identificare, ordinare e organizzare le immagini. Il rilevamento di oggetti viene utilizzato nei processi industriali e di produzione per controllare le applicazioni autonome e monitorare le linee di produzione. Anche i produttori di videocamere connesse per la casa e i fornitori di servizi si affidano al rilevamento di oggetti per elaborare i flussi video in diretta dalle telecamere, rilevare persone e oggetti in tempo reale e fornire avvisi agli utenti finali.
Monitoraggio di oggetti
Il monitoraggio di oggetti utilizza modelli di deep learning per identificare e tracciare elementi appartenenti a categorie. Ha diverse applicazioni pratiche in diversi settori. Il primo elemento del monitoraggio di oggetti è il rilevamento degli oggetti; attorno all'oggetto viene creato un riquadro di delimitazione, quindi gli viene assegnato un ID e può essere tracciato attraverso i fotogrammi. Ad esempio, il monitoraggio di oggetti può essere utilizzato per il monitoraggio del traffico in ambienti urbani, la sorveglianza umana e l'imaging medico.
Segmentazione
La segmentazione è un algoritmo di visione artificiale che identifica un oggetto dividendo le immagini in diverse regioni in base ai pixel visti. La segmentazione semplifica un'immagine, ad esempio posizionando una forma o un contorno intorno a un elemento per determinare di cosa si tratta. In questo modo, la segmentazione riconosce anche se è presente più di un oggetto in un'immagine o in una cornice.
Ad esempio, se in un'immagine sono presenti un gatto e un cane, è possibile utilizzare la segmentazione per riconoscere i due animali. A differenza del rilevamento di oggetti, che crea un riquadro attorno a un oggetto, la segmentazione tiene traccia dei pixel per determinare la forma di un oggetto, facilitando l'analisi e l'etichettatura.
Recupero di immagini basato sul contenuto
Il recupero di immagini basato sul contenuto è un'applicazione di tecniche di visione artificiale in grado di cercare immagini digitali specifiche in database di grandi dimensioni. Analizza metadati come tag, descrizioni, etichette e parole chiave. Il recupero semantico utilizza comandi come "Trova immagini di edifici" per recuperare contenuti appropriati.
In che modo AWS ti aiuta con le attività di visione artificiale?
AWS fornisce il set più ampio e completo di servizi di intelligenza artificiale e machine learning (IA/ML) per clienti di tutti i livelli di esperienza collegati a un set completo di origini dati.
Per i clienti che si basano su framework e gestiscono la propria infrastruttura, ottimizziamo le versioni dei framework di deep learning più diffusi, tra cui PyTorch, MXNet e TensorFlow. AWS offre un portafoglio ampio e completo di servizi ML per infrastrutture di elaborazione, rete e storage con una scelta di processori e acceleratori per soddisfare esigenze di prestazioni e budget uniche.
Per i clienti che desiderano creare una soluzione di visione artificiale standard nella propria azienda, Amazon SageMaker semplifica la preparazione dei dati e la creazione, l'addestramento e l'implementazione di modelli di ML per qualsiasi caso d'uso con infrastruttura, strumenti e flussi di lavoro completamente gestiti, comprese offerte senza codice per l'analisi delle aziende.
Per i clienti che non hanno competenze di machine learning, hanno bisogno di un time-to-market più rapido o desiderano aggiungere intelligenza a un processo o a un'applicazione esistente, AWS offre una gamma di servizi di visione artificiale basati sul machine learning. Questi servizi consentono di aggiungere facilmente intelligenza alle applicazioni di intelligenza artificiale tramite API preaddestrate. Amazon Rekognition automatizza l'analisi di immagini e video con il ML e analizza milioni di immagini, live streaming e video archiviati in pochi secondi.
Inizia a utilizzare la visione artificiale creando un account AWS gratuito oggi stesso.
Passaggi successivi su AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.