Como a IA treinada em pássaros está revelando mistérios subaquáticos

Apresentando GIST: o próximo estágio em amostragem inteligente

Avaliação

Avaliamos o Perch 2.0 usando uma sonda linear de poucos disparos em tarefas marítimas, como distinguir diferentes baleia de barbatana espécies ou diferentes orca subpopulações. Seu desempenho foi comparado com modelos pré-treinados que são suportados em nosso Poleiro Hoplita repositório para modelagem ágil e aprendizagem por transferência. Eles incluem Poleiro 2.0, Poleiro 1.0, SurfPerche o modelo de baleia multiespécie.

Para avaliação de dados subaquáticos utilizamos três conjuntos de dados: NOAA PIPAN RecifeSete DCLDE.

Noa pipi: Um subconjunto anotado do Arquivo de dados acústicos passivos NOAA NCEI das gravações do NOAA Pacific Islands Fisheries Science Center. Inclui rótulos usados em nossos modelos de baleias anteriores, bem como novas anotações para espécies de barbatanas, como baleia minke comum, baleia jubarte, baleia sei, baleia azul, baleia-comum e baleia de Bryde.
Conjunto de recifes: Desenvolvido para SurfPerch treinamento de modelo, este conjunto de dados aproveita anotações de dados do Projeto Google Artes e Cultura: Chamando Nossos Corais. Inclui uma mistura de ruídos biológicos de recife (coaxar, crepitar, rosnar), classes específicas de espécies/gêneros (por exemplo, donzelas, golfinhos e garoupas) e ruídos antropomórficos e classes de ondas.
DCLDE: Este conjunto de dados é avaliado usando três conjuntos de rótulos diferentes:
- Espécie: Para distinguir entre baleias assassinas, jubartes, sons abióticos e sons subaquáticos desconhecidos (com alguma incerteza nos rótulos de baleias assassinas e jubartes).
- Biografia da espécie conhecida: Para certos rótulos de baleias assassinas e jubartes.
- Ecótipo: Para distinguir entre subpopulações de baleias assassinas (ecótipos), incluindo Transient/Biggs, residentes do norte, residentes do sul, orcas do sudeste do Alasca e orcas offshore.

Neste protocolo, para um determinado conjunto de dados alvo com dados rotulados, calculamos embeddings de cada um dos modelos candidatos. Em seguida, selecionamos um número fixo de exemplos por classe (4, 8, 16 ou 32) e treinamos um modelo simples de regressão logística multiclasse sobre os embeddings. Usamos o classificador resultante para calcular o área sob a curva característica de operação do receptor (AUC_ROC), onde valores próximos de 1 indicam uma maior capacidade de distinção entre classes. Este processo simula o uso de um determinado modelo de incorporação pré-treinado para criar um classificador personalizado a partir de um pequeno número de exemplos rotulados.

Nossos resultados mostram que mais exemplos por classe melhoram o desempenho em todos os modelos, exceto nos dados ReefSet, onde o desempenho é alto mesmo com apenas quatro exemplos por classe para todos os modelos, exceto o modelo multiespécie de baleias. Notavelmente, o Perch 2.0 é consistentemente o modelo com melhor ou o segundo melhor desempenho para cada conjunto de dados e tamanho de amostra.

Fonte

Cleiton

Next Resumo de notícias de SEO da Diggity Marketing - agosto de 2022 »

Previous « Musk diz X lançando bate-papo com “criptografia estilo Bitcoin: o que isso significa?