top of page

Baixar conjunto de dados cars196

  • disgeasechighsertt
  • Aug 24, 2023
  • 9 min read


Conjunto de dados Cars196: um guia abrangente




Se você estiver interessado em classificação e recuperação de imagens refinadas, talvez já tenha ouvido falar do conjunto de dados Cars196. Este conjunto de dados contém 16.185 imagens de 196 classes de carros, variando de modelos comuns a raros e exóticos. É amplamente utilizado como referência para aprendizado de métricas profundas, um ramo do aprendizado de máquina que visa aprender métricas de distância significativas entre pontos de dados.




cars196 dataset download



Neste artigo, forneceremos um guia abrangente para o conjunto de dados Cars196, abrangendo sua descrição, recursos, fonte, citação, download, uso, aplicativos e desafios. Também mostraremos como carregar e explorar o conjunto de dados com o TensorFlow Datasets, uma biblioteca que fornece acesso fácil a vários conjuntos de dados para aprendizado de máquina. Ao final deste artigo, você terá uma melhor compreensão do conjunto de dados Cars196 e como usá-lo para seus próprios projetos.


O que é o conjunto de dados Cars196?




O conjunto de dados Cars196 foi introduzido por Jonathan Krause et al. em seu artigo "3D Object Representations for Fine-Grained Categorization" , que foi apresentado no 4º International IEEE Workshop on 3D Representation and Recognition (3dRR-13) em 2013. O artigo propôs uma nova abordagem para representar objetos 3D usando uma coleção de visualizações 2D e aplicou-a à categorização refinada de carros.


Descrição e características




O conjunto de dados Cars196 contém 16.185 imagens de 196 classes de carros. Os dados são divididos em 8.144 imagens de treinamento e 8.041 imagens de teste, onde cada classe foi dividida aproximadamente em uma divisão de 50-50. As aulas são tipicamente no nível de Marca, Modelo, Ano, por exemplo. Tesla Model S 2012 ou cupê BMW M3 2012.


O conjunto de dados também fornece caixas delimitadoras para cada imagem, que indicam a localização do carro na imagem. As caixas delimitadoras são dadas como quatro coordenadas (x_min, y_min, x_max, y_max) em pixels.Além disso, o conjunto de dados fornece um ID para cada imagem, que é um identificador exclusivo que pode ser usado para fazer referência à imagem.


O conjunto de dados tem as seguintes características:


  • Imagem: Uma imagem de um carro em formato JPEG com tamanho variável e profundidade de cor.



  • Bbox: Uma caixa delimitadora para o carro na imagem como uma tupla de quatro carros alegóricos.



  • ID: Um ID para a imagem como uma string.



  • Rótulo: Um rótulo para a classe do carro como um número inteiro entre 0 e 195.



Fonte e citação




O conjunto de dados Cars196 foi criado por Jonathan Krause et al. da Universidade de Stanford. As imagens foram coletadas de várias fontes na internet, como Google Images, Flickr e fóruns de carros. Os autores anotaram manualmente as imagens com caixas delimitadoras e rótulos.


O conjunto de dados está hospedado no site do Stanford AI Lab, onde você pode encontrar mais informações sobre o conjunto de dados, como exemplos de imagens, nomes de classes, estatísticas e links para download. Você também pode encontrar o código-fonte para carregar e processar o conjunto de dados com o MATLAB.


Se você usar o conjunto de dados Cars196 para sua pesquisa ou projeto, cite o seguinte documento:


@InProedings {KrauSestarkDengfei-FEI_3DRR2013, title = Representações de objetos 3D para categorização de granulação fina, booktitle = {4th International IEEE Workshop em REPRESENTAÇÃO E RECONSTRAÇÃO 3D (3DRR-13), ano = 2013, {Syd = Syd) Li fei-fei


Como baixar e usar o conjunto de dados Cars196?




Agora que você sabe o que é o conjunto de dados Cars196 e de onde ele vem, você pode estar se perguntando como baixá-lo e usá-lo em seus próprios projetos. Há duas maneiras principais de fazer isso: baixando o conjunto de dados diretamente do site do Stanford AI Lab ou carregando o conjunto de dados com conjuntos de dados do TensorFlow.


Baixando o conjunto de dados




A maneira mais fácil de baixar o conjunto de dados Cars196 é visitar o site do Stanford AI Lab e clicar no botão "Download Dataset".Isso fará o download de um arquivo ZIP chamado "car_ims.tgz" que contém todas as imagens no conjunto de dados. O tamanho do arquivo é de cerca de 1,8 GB, portanto, pode levar algum tempo dependendo da velocidade da sua internet.


Após baixar o arquivo ZIP, você precisa extraí-lo para uma pasta de sua preferência. Você pode usar qualquer ferramenta que possa lidar com arquivos ZIP, como WinZip, 7-Zip ou os utilitários integrados do Windows ou Mac OS. A pasta extraída conterá 16.185 arquivos JPEG nomeados com seus IDs, como "000001.jpg", "000002.jpg", etc.


Você também precisa baixar dois arquivos de texto que contenham as caixas delimitadoras e os rótulos de cada imagem. Esses arquivos são denominados "cars_annos.mat" e "cars_test_annos_withlabels.mat" e podem ser encontrados no mesmo site . Você precisa colocar esses arquivos na mesma pasta das imagens.


Alternativamente, você pode usar os seguintes comandos para baixar e extrair o conjunto de dados de um terminal ou prompt de comando:


wget tar -xvzf car_ims.tgz wget wget


Carregando o conjunto de dados com conjuntos de dados do TensorFlow




Se você estiver usando o TensorFlow como sua estrutura de aprendizado de máquina, também poderá carregar o conjunto de dados Cars196 com TensorFlow Datasets (TFDS) , uma biblioteca que fornece acesso fácil a vários conjuntos de dados para aprendizado de máquina. O TFDS lida com o download, extração, divisão, embaralhamento e lote dos dados para você, para que você possa se concentrar na construção de seu modelo.


Para usar o TFDS, você precisa instalá-lo primeiro com o seguinte comando:


pip instalar tensorflow-datasets


Em seguida, você pode importá-lo em seu script Python junto com o TensorFlow:


importar tensorflow como tf importar tensorflow_datasets como tfds


Para carregar o conjunto de dados Cars196 com TFDS, você pode usar o seguinte código:


(train_ds, test_ds), ds_info = tfds.load('cars196', split=['train', 'test'], shuffle_files=True, with_info=True)


Isso fará o download e carregará o conjunto de dados como dois objetos tf.data.Dataset: train_ds e test_ds. Esses objetos são iteráveis e podem ser usados para alimentar seu modelo com dados. O objeto ds_info contém informações úteis sobre o conjunto de dados, como nome, versão, recursos, tamanho, divisões, citação, etc.


Você também pode especificar outros parâmetros para tfds.load(), como download=False se você já baixou o conjunto de dados manualmente ou as_supervised=True se deseja obter os dados como pares (imagem, rótulo) em vez de dicionários. Para obter mais detalhes sobre como usar o TFDS, consulte a documentação oficial.


Explorando o conjunto de dados com visualização e estatísticas




Antes de usar o conjunto de dados Cars196 para suas tarefas de aprendizado de máquina, é uma boa ideia explorá-lo com alguma visualização e estatísticas. Isso pode ajudá-lo a entender melhor os dados e identificar possíveis problemas ou desafios.


Uma maneira de visualizar o conjunto de dados é usar matplotlib , uma biblioteca Python popular para plotagem e gráficos. Você pode usar matplotlib para exibir algumas imagens de amostra do conjunto de dados junto com seus rótulos e caixas delimitadoras. Por exemplo, você pode usar o seguinte código para plotar 9 imagens aleatórias do objeto train_ds:


import matplotlib.pyplot as plt import numpy as np # Obtém 9 imagens aleatórias de train_ds images = [] labels = [] bboxes = [] for image_dict in train_ds.take(9): images.append(image_dict['image']) labels.append(image_dict['label']) bboxes.append(image_dict['bbox']) # Plota imagens em uma grade 3x3 fig, axes = plt. subplots(3, 3, figsize=(10, 10)) for i, ax in enumerate(axes.flat): # Obtém imagem, rótulo e bbox image = images[i].numpy() label = labels[i].numpy() bbox = bboxes[i].numpy() # Desenha bbox na imagem x_min, y_min, x_max, y_max = bbox image = cv2.rectangle(image, (x_min, y_ min), (x_max, y_max), (255, 0, 0), 2) # Mostrar imagem e rótulo ax.imshow(image) ax.set_title(f'Class: label') plt.show()


Isso produzirá um gráfico como este:


Outra maneira de explorar o conjunto de dados é usar pandas , uma biblioteca Python popular para análise e manipulação de dados. Você pode usar pandas para criar um quadro de dados que contém o ID, o rótulo e a caixa delimitadora para cada imagem no conjunto de dados. Por exemplo, você pode usar o seguinte código para criar um quadro de dados para o objeto test_ds:


import pandas as pd # Crie um quadro de dados vazio df = pd.DataFrame(columns=['ID', 'Label', 'Bbox']) # Itere sobre test_ds e anexe linhas a df para image_dict em test_ds: # Obtenha ID, rótulo e bbox ID = image_dict['id'].numpy().decode('utf-8') label = image_dict['label'].numpy() bbox = image_ dict['bbox'].numpy() # Anexa linha a df df = df.append('ID': ID, 'Label': label, 'Bbox': bbox, ignore_index=True) # Mostra as 5 primeiras linhas de df df.head()


Isso produzirá um quadro de dados como este:


EU IARótuloBbox


000001.jpg181[39.0, 116.0, 569.0, 375.0]


000002.jpg103[36.0, 36.0, 180.0, 175.0]


000003.jpg145[49.0, 21.0, 203.0, 135.0]


000004.jpg187[28.0, 25.0, 221.0, 166.0]


000005.jpg185[25.0, 32.0, 587.0, 359.0]


Você pode usar pandas para executar várias operações no quadro de dados, como filtragem, classificação, agrupamento, agregação, etc. Por exemplo, você pode usar o seguinte código para obter o número de imagens por classe no objeto test_ds:


# Agrupar por rótulo e ID de contagem df.groupby('Label')['ID'].count()


Isso produzirá uma série como esta:


RótuloEU IA


041


141


241


......


19341


19441


19541


Quais são os aplicativos e desafios do conjunto de dados Cars196?




O conjunto de dados Cars196 é um recurso valioso para pesquisadores e profissionais interessados em classificação e recuperação de imagens de baixa granularidade. São tarefas que envolvem reconhecer e encontrar imagens que pertencem a categorias específicas e detalhadas dentro de um domínio maior.


Aplicações em visão computacional e aprendizado de máquina




A classificação e recuperação de imagens granulares têm muitas aplicações em visão computacional e aprendizado de máquina, como:


  • Identificação de aves: Reconhecer e encontrar imagens de diferentes espécies de aves com base em sua aparência e atributos.



  • Verificação facial: confirmação da identidade de uma pessoa com base em sua imagem facial, como em sistemas biométricos ou plataformas de mídia social.



  • Pesquisa de produtos: encontrar imagens de produtos que correspondam a uma determinada consulta, como em e-commerce ou compras online.



  • Reconhecimento de obras de arte: Identificar e localizar imagens de obras de arte com base em seu estilo, gênero, artista, etc., como em museus ou galerias.



O conjunto de dados Cars196 pode ser usado para treinar e avaliar modelos para essas tarefas, bem como para explorar novos métodos e técnicas para classificação e recuperação de imagens refinadas. Por exemplo, alguns dos artigos que usaram o conjunto de dados Cars196 são:


  • "Deep Metric Learning via Lifted Structured Feature Embedding" por Hyun Oh Song et al. , que propôs uma nova função de perda para aprendizado de métrica profunda que encoraja pares positivos a terem maior similaridade do que pares negativos por uma grande margem.



  • "Deep Metric Learning com Angular Loss" por Jian Wang et al. , que propôs uma nova função de perda para aprendizado de métrica profunda que encoraja pares positivos a terem ângulos menores do que pares negativos no espaço de incorporação.



  • "Hard-Aware Deeply Cascaded Embedding" por Weihua Chen et al. , que propôs uma nova estrutura para aprendizado métrico profundo que seleciona dinamicamente exemplos difíceis e aprende vários embeddings com diferentes níveis de dificuldade.



Desafios na categorização refinada e no aprendizado de métricas




Embora o conjunto de dados Cars196 seja útil e interessante, ele também apresenta alguns desafios para categorização refinada e aprendizado de métricas. Estes são:


  • Escassez de dados: o conjunto de dados Cars196 possui apenas 16.185 imagens, o que é relativamente pequeno em comparação com outros conjuntos de dados de imagens, como ImageNet ou COCO . Isso significa que há menos dados disponíveis para cada classe, o que pode levar a problemas de overfitting ou underfitting.



  • Desequilíbrio de dados: o conjunto de dados Cars196 tem uma divisão balanceada de 50-50 entre as imagens de treinamento e teste, mas não tem uma distribuição balanceada de imagens por classe.Algumas classes têm mais imagens do que outras, o que pode levar a problemas de viés ou variação.



  • Complexidade dos dados: o conjunto de dados Cars196 tem alta variabilidade intraclasse e interclasse, o que significa que existem grandes diferenças dentro e entre as classes. Por exemplo, algumas classes têm diferentes modelos, cores, ângulos, condições de iluminação, planos de fundo etc., o que pode dificultar a distinção entre elas.



  • Qualidade dos dados: O conjunto de dados Cars196 apresenta alguns problemas com a qualidade dos dados, como ruído, desfoque, oclusão, distorção etc., que podem afetar o desempenho dos modelos. Por exemplo, algumas imagens têm baixa resolução, baixo contraste, visibilidade parcial ou desalinhamento das caixas delimitadoras.



Esses desafios exigem design e avaliação cuidadosos dos modelos e métodos para categorização refinada e aprendizado de métrica. Eles também fornecem oportunidades para mais pesquisas e melhorias neste domínio.


Conclusão




Neste artigo, fornecemos um guia abrangente para o conjunto de dados Cars196, um conjunto de dados popular para classificação e recuperação de imagens refinadas. Cobrimos sua descrição, recursos, fonte, citação, download, uso, aplicativos e desafios. Também mostramos como carregar e explorar o conjunto de dados com conjuntos de dados e pandas do TensorFlow.


Esperamos que este artigo tenha ajudado você a entender melhor o conjunto de dados Cars196 e como usá-lo em seus próprios projetos. Se você tiver alguma dúvida ou feedback, sinta-se à vontade para deixar um comentário abaixo.


perguntas frequentes




Aqui estão algumas perguntas frequentes sobre o conjunto de dados Cars196:


  • P: Quantas imagens existem no conjunto de dados Cars196?



  • R: Existem 16.185 imagens no conjunto de dados Cars196, divididas em 8.144 imagens de treinamento e 8.041 imagens de teste.



  • P: Quantas classes existem no conjunto de dados Cars196?



  • R: Existem 196 classes no conjunto de dados Cars196, cada uma representando uma marca, modelo e ano de carro diferentes.



  • P: Como posso baixar o conjunto de dados Cars196?



  • R: Você pode baixar o conjunto de dados Cars196 no site do Stanford AI Lab ou pode usar conjuntos de dados do TensorFlow para carregá-lo diretamente em seu script Python.



  • P: Como posso citar o conjunto de dados Cars196?



  • R: Você pode citar o seguinte documento se usar o conjunto de dados Cars196 para sua pesquisa ou projeto:



@inproceedingsKrauseStarkDengFei-Fei_3DRR 2013, título = 3D Object Representations for Fine-Grained Categorization, livro = 4th International IEEE Workshop on 3D Representation and Recognition (3dRR-13), ano = 2013, endereço = Sydney, Australia, autor = Jonathan Krause and Michael Stark and Jia Deng and Li Fei-Fei


  • P: Quais são alguns dos desafios do conjunto de dados Cars196?



  • R: Alguns dos desafios do conjunto de dados Cars196 são escassez de dados, desequilíbrio de dados, complexidade e qualidade dos dados. Esses desafios exigem design e avaliação cuidadosos dos modelos e métodos para categorização refinada e aprendizado de métrica.



0517a86e26


 
 
 

Recent Posts

See All
cs go baixar pc windows 7

Como Baixar e Jogar CS:GO no PC Windows 7 Se você está procurando um jogo de tiro rápido, competitivo e emocionante, experimente o...

 
 
 

Yorumlar


© 2023 by Strategic Consulting. Proudly created with Wix.com

bottom of page