É um segredo aberto que os conjuntos de dados usados para treinar modelos de IA são profundamente falhos. Os conjuntos de dados de imagem tendem a ser centrados nos EUA e no Ocidente, parcialmente porque as imagens ocidentais dominavam a internet quando os conjuntos de dados foram compilados. E como destacado recentemente por um estudo do Allen Institute for AI, os dados usados para treinar modelos de linguagem contêm linguagem tóxica e vieses. Agora, a OpenAI diz que quer combatê-los, formando parcerias com instituições externas para criar novos conjuntos de dados, esperançosamente aprimorados. A OpenAI anunciou hoje Data Partnerships, um esforço para colaborar com organizações de terceiros para construir conjuntos de dados públicos e privados para treinamento de modelos de IA. Como parte do programa Data Partnerships, a OpenAI diz que coletará conjuntos de dados em larga escala que reflitam a sociedade humana e que não estão facilmente acessíveis online hoje. Enquanto a empresa planeja trabalhar em uma ampla gama de modalidades, incluindo imagens, áudio e vídeo, ela busca especialmente dados que expressem intenção humana (por exemplo, escrita longa ou conversas) em diferentes idiomas, tópicos e formatos. A OpenAI diz que trabalhará com organizações para digitalizar dados de treinamento se necessário, usando uma combinação de reconhecimento óptico de caracteres e ferramentas de reconhecimento automático de fala e removendo informações sensíveis ou pessoais, se necessário. No início, a OpenAI está procurando criar dois tipos de conjuntos de dados: um conjunto de dados de código aberto que seria público para qualquer pessoa usar no treinamento de modelos de IA e um conjunto de conjuntos de dados privados para treinar modelos de IA proprietários. Os conjuntos privados são destinados a organizações que desejam manter seus dados privados, mas desejam que os modelos da OpenAI compreendam melhor seu domínio. “No geral, estamos buscando parceiros que desejam nos ajudar a ensinar a IA a entender nosso mundo para ser maximamente útil para todos”, destaca a OpenAI.
Referências:
OpenAI wants to work with organizations to build new AI training data sets
OpenAI Data Partnerships launches today to expand AI …
OpenAI Unveils Data Partnerships Program to Propel AGI …
Unlocking the Future of AI with OpenAI’s GPT-4 Vision and …
OpenAI shows off new ChatGPT tools with no plans of slowing …
KX ANNOUNCES KDB.AI AND KX COPILOT IN MICROSOFT …
Deixe um comentário