quinta-feira, agosto 14, 2025
HomeInternetOpenAI Lança Dois Modelos de IA de Código Aberto que Performam na...

OpenAI Lança Dois Modelos de IA de Código Aberto que Performam na Mesma Nível que o o3 e o o3-Mini.

OpenAI lançou na terça-feira dois modelos de inteligência artificial (IA) de código aberto. Esta é a primeira contribuição da empresa de São Francisco à comunidade aberta desde 2019, quando o GPT-2 foi disponibilizado. Os novos modelos, nomeados gpt-oss-120b e gpt-oss-20b, prometem desempenho semelhante aos modelos o3 e o3-mini. Construídos com a arquitetura de mistura de especialistas (MoE), a empresa afirma que esses modelos passaram por rigoroso treinamento e avaliação de segurança. Os pesos abertos desses modelos podem ser baixados através da plataforma Hugging Face.

Em uma postagem na rede social X (anteriormente Twitter), o CEO da OpenAI, Sam Altman, anunciou o lançamento dos modelos, destacando que “o gpt-oss-120b tem desempenho equivalente ao do o3 em questões de saúde desafiadoras.” Ambos os modelos estão sendo hospedados na listagem da OpenAI na Hugging Face, e pessoas interessadas podem baixar e executá-los localmente.

Em seu website, a OpenAI explica que esses modelos são compatíveis com a interface de programação de aplicativos (API) da empresa e podem operar com fluxos de trabalho agentes. Além disso, esses modelos suportam o uso de ferramentas, como busca na web e execução de código em Python. Com raciocínio nativo, os modelos exibem uma cadeia de pensamento transparente (CoT), que pode ser ajustada para focar em respostas de alta qualidade ou em saídas de baixa latência.

No que diz respeito à arquitetura, os modelos são baseados na arquitetura MoE para reduzir o número de parâmetros ativos e aumentar a eficiência de processamento. O gpt-oss-120b ativa 5,1 bilhões de parâmetros por token, enquanto o gpt-oss-20b ativa 3,6 bilhões de parâmetros por token. O primeiro possui um total de 117 bilhões de parâmetros e o segundo, 21 bilhões. Ambos os modelos suportam um comprimento de conteúdo de 128 mil tokens.

Esses modelos de IA de código aberto foram treinados principalmente em uma base de dados de textos em inglês, com foco nas áreas de Ciência, Tecnologia, Engenharia e Matemática (STEM), programação e conhecimentos gerais. Na fase de pós-treinamento, a OpenAI utilizou um ajuste fino baseado em aprendizado por reforço (RL).

Com base em testes internos da empresa, o gpt-oss-120b supera o o3-mini em competições de programação (Codeforces), resolução de problemas gerais (MMLU e Humanity’s Last Exam) e chamada de ferramentas (TauBench). No entanto, de maneira geral, esses modelos apresentam desempenho ligeiramente inferior ao dos modelos o3 e o3-mini em outros benchmarks, como o GPQA Diamond.

A OpenAI enfatiza que esses modelos passaram por treinamentos de segurança intensivos. Na fase de pré-treinamento, a empresa filtrou dados prejudiciais relacionados a ameaças químicas, biológicas, radiológicas e nucleares (CBRN). A empresa também afirmou ter utilizado técnicas específicas para garantir que o modelo rejeite solicitações inseguras e esteja protegido contra injeções de solicitações.

Apesar de serem de código aberto, a OpenAI afirma que os modelos foram treinados de forma que não possam ser ajustados por agentes mal-intencionados para gerar resultados prejudiciais.

RELATED ARTICLES
- Advertisment -

Most Popular

Recent Comments