O DeepSeek, uma pequena startup chinesa, sacudiu o mundo da Inteligência Artificial nesta semana, ao divulgar seus novos modelos.
Com avanços que impressionaram o mercado, a empresa passa a rivalizar com os principais modelos disponíveis no segmento, como o ChatGPT, da OpenAI.
Em algumas tarefas, o DeepSeek é capaz inclusive de igualar ou até superar esses modelos ocidentais.
Esse anúncio está repercutindo mundo afora pelas implicações na corrida da Inteligência Artificial e na “Guerra Fria” entre Estados Unidos e China.
Além disso, o mercado analisa as consequências para as empresas que mais se beneficiaram da IA até agora, como a americana NVIDIA.
Apenas no dia do anúncio, a empresa perdeu quase 17% de valor de mercado — cerca de meio trilhão de dólares.
Até a manhã de ontem(27/01), era a empresa mais valiosa do planeta. Já não é mais.
E quem está causando esse estrago é uma empresa chinesa que, até poucas horas ou dias atrás, era uma ilustre desconhecida, exceto para aqueles que já estavam envolvidos na indústria de Inteligência Artificial.
Neste artigo, vamos analisar por que o anúncio do DeepSeek impressionou (e assustou) os mercados.
Afinal, o que essa startup chinesa tem de diferente?
Novo modelo do DeepSeek impressionou o mercado
O DeepSeek divulgou nesta semana seu novo modelo chamado DeepSeek R1, que já está disponível e pode ser acessado.
Claro que a empresa agora enfrenta alguns problemas de sobrecarga, com muita gente testando suas aplicações, mas ela conseguiu, nestes últimos dias, chegar ao topo da lista de aplicativos gratuitos mais baixados na App Store.
Em alguns momentos, esteve até à frente do ChatGPT:
Junto com os modelos recentes, a startup divulgou um paper técnico bem detalhado, que eu não tenho a capacidade de interpretar por completo, já que contém muitos cálculos e informações técnicas.
Mas é interessante notar como eles mostram, de forma bem transparente, os cálculos, os testes e os resultados obtidos.
Logo na primeira página, há comparações entre o DeepSeek e, por exemplo, o modelo GPT-4 da OpenAI.
Em algumas tarefas, o DeepSeek até supera o modelo da OpenAI.
Fonte: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Sem dúvida, essa façanha está deixando muita gente boquiaberta, inclusive pessoas da indústria que não imaginavam que isso pudesse acontecer.
Figuras renomadas do Vale do Silício, como Marc Andreessen (fundador do Netscape e hoje um venture capitalist), declararam publicamente sua admiração.
No X (antigo Twitter), ele disse:
“O DeepSeek é um dos avanços mais incríveis e impressionantes que já vi. E, como código-fonte aberto, é um presente profundo para o mundo.”
A mudança no processo de treinamento
Mas, além dos avanços em si, o que está chamando atenção é a mudança de processo de treinamento e inferência do modelo DeepSeek.
Eles conseguiram otimizar essa etapa com muita criatividade e engenhosidade, de forma que outros modelos ainda não haviam conseguido.
E as consequências disso impressionam ainda mais. Um trecho interessante de um artigo do Jeffrey Emanuel destaca o seguinte:
“O que é particularmente fascinante é que, durante o treinamento, eles observaram o que chamaram de ‘Momento Ahá’ — aquele momento de ‘clique’ no cérebro — uma fase em que o modelo aprendeu espontaneamente a revisar seu próprio processo de pensamento no meio do fluxo, ao encontrar incerteza. Esse comportamento emergente não foi explicitamente programado; surgiu naturalmente da interação entre o modelo e o ambiente de aprendizado por reforço. O modelo literalmente parava, sinalizava potenciais problemas em seu raciocínio e reiniciava com uma abordagem diferente, tudo sem ser explicitamente treinado para fazer isso.”
Ou seja, o modelo está aprendendo e raciocinando ao longo do próprio aprendizado, mudando sua forma de gerar respostas.
Isso é realmente surreal. E, ao mesmo tempo que fascina, também assusta.
Os números do avanço do DeepSeek
Para mostrar o impacto disso em números:
Custo do treinamento
- Modelos como ChatGPT e LLaMA da Meta custam cerca de US$ 100 milhões para serem treinados.
- O DeepSeek R1 foi treinado com apenas US$ 5 milhões (menos de 10% do custo dos concorrentes).
Quantidade de GPUs necessárias
- Modelos tradicionais usam 100.000 GPUs para treinamento.
- O DeepSeek R1 usou apenas 2.000 GPUs.
Custo de integração via API:
- 95% mais barato do que o padrão atual.
Execução em hardware comum:
- O DeepSeek pode ser rodado até em placas de vídeo de jogos, em vez de exigir hardware de data centers.
Isso muda o jogo completamente e coloca em xeque muitas premissas sobre Inteligência Artificial, como o investimento necessário em infraestrutura, equipamentos e processadores.
Código-fonte aberto é um presente para a sociedade
E para estressar mais uma vez o ponto, vejamos este tweet do Morgan Brow:
“E, sim, tudo isso está disponível em código-fonte aberto. Você pode literalmente testar os modelos agora mesmo. Estamos vivendo em tempos selvagens.”
Portanto, se o código-fonte é aberto, qualquer um pode inspecionar, auditar, copiar e modificar o código. Isso é o que torna essa tecnologia transformadora e disruptiva.
Por exemplo, há a questão do custo: alguns já disseram que ele pode estar subestimado, mas isso pode ser testado e comprovado.
Se houver qualquer inconsistência, logo se tornará pública.
Além disso, as empresas de tecnologia que desenvolvem seus próprios modelos de Inteligência Artificial também podem aproveitar esse avanço, incorporando algumas das modificações e melhorias nos seus próprios modelos.
De certa forma, o mundo inteiro sai ganhando com isso, pois esse avanço pode ser incorporado e utilizado por todos. Essa é a maravilha do código-fonte aberto.
É exatamente isso que o autor do outro post, que já compartilhei, traz:
“Mas é melhor acreditar que a Meta e todos os outros grandes laboratórios de IA estão separando esses modelos do DeepSeek, estudando cada palavra nesses relatórios técnicos e cada linha do código-fonte aberto que eles lançaram, tentando desesperadamente integrar esses mesmos truques e otimizações em seus próprios pipelines de treinamento e inferência. Qual o impacto disso tudo? Bem, ingenuamente, parece que a demanda agregada por treinamento e computação de inferência deve ser dividida por um grande número. Talvez não por 45 vezes, mas talvez 25 ou até 30 vezes. Porque o que você pensou que precisava antes desses lançamentos de modelos, agora é muito menos.”
O que ele quer dizer com isso?
Se antes eram necessários vários GPUs, investimento em infraestrutura, data centers e hardware, além de um investimento de dezenas ou até centenas de bilhões de dólares para treinar esses modelos de linguagem de larga escala, agora, com esses ganhos brutais de eficiência, talvez sejam necessários bem menos equipamentos do que isso.
O impacto DO DeepSeek para a NVIDIA
E o que acontece com empresas que têm seu modelo de negócio baseado na produção e fornecimento desse tipo de maquinário, como a NVIDIA?
Bom, aquela demanda que antes existia talvez caia bastante ou até desabe no curto ou curtíssimo prazo.
O que se imaginava que a empresa faturaria e teria de lucro — e que o mercado estava precificando — talvez não se concretize mais, pelo menos não na mesma magnitude.
É exatamente a conclusão aqui deste fio de tweets que eu coloquei.
“Então, para a NVIDIA, isso é assustador, porque o modelo de negócios inteiro é construído em vender GPUs supercaras, com margem de 90%. E, se todo mundo pode, subitamente, fazer Inteligência Artificial com placas de vídeo regulares, placas de vídeo de jogos, bom… aí vocês entendem o problema.”
E é por este motivo, principalmente, que a NVIDIA está caindo tanto. Mais de 17%, já perdeu mais de meio trilhão de dólares em valor de mercado. Mas não é apenas a NVIDIA que está caindo.
A gente precisa lembrar das demais empresas, porque há toda uma cadeia de suprimentos.
Se a NVIDIA, que fornece as placas para treinamento de Inteligência Artificial, compra chips de outras empresas, e essas empresas, por sua vez, compram maquinário de outros fornecedores, então toda essa cadeia de suprimentos está sofrendo hoje.
Por isso:
- NVIDIA cai 17%
- TSMC (Taiwan) cai mais de 13%
- ASML (Holanda), que fornece os equipamentos que produzem os chips e as máquinas ultramodernas, cai quase 6% no dia de hoje (27/01)
O alfinete da “bolha” das empresas de tecnologia?
E alguns já se perguntam: será que este é, finalmente, o alfinete que pode estourar a bolha das “Sete Magníficas”?
As Sete Magníficas são as sete empresas de maior valor de mercado, que dominam a bolsa americana.
Se compararmos a situação atual com outras bolhas da história, como a bolha da internet, nos anos 2000 e a bolha das Nifty Fifty stocks, no final dos anos 60, vemos que, hoje, a valorização dessas empresas supera em muito o que foi visto nesses dois exemplos passados.
Por isso, chama tanto a atenção o quanto essas empresas de tecnologia se valorizaram.
Aqui temos um gráfico da Gavekal Research, que mostra os momentos em que esse mercado começou a subir.
Os principais motores dessa alta foram:
- A revolução dos smartphones
- A expansão do petróleo de xisto
- Os cortes de impostos e a desregulação no governo Trump
- Os auxílios emergenciais e o boom da tecnologia durante a COVID-19
- A correção forte que veio com as altas de juros
- E, finalmente, a febre da Inteligência Artificial, que faz o mercado americano seguir subindo sem parar, muito centrado nessas empresas
Mas será que esse “alfinete” finalmente chegou? Ainda não sabemos.
LEIA TAMBÉM | Donald Trump 2.0: isso é o que realmente podemos esperar do segundo mandato
O momento Sputnik da Inteligência Artificial
E a questão final de todas — que o mercado também está comentando bastante — é uma frase que já foi dita por algumas pessoas nos últimos dias.
O Mark Andreessen também tuitou sobre isso:
“O DeepSeek R1 é o “momento Sputnik” da Inteligência Artificial.”
Para quem se lembra, o momento Sputnik marcou a corrida espacial na década de 1950, quando os russos lançaram um novo satélite, surpreendendo a todos — especialmente os americanos, que foram pegos desprevenidos.
E, com certeza, agora muitos americanos e o próprio governo dos EUA também foram pegos desprevenidos.
Talvez este seja o momento Sputnik da corrida da Inteligência Artificial, e os chineses tenham conseguido recuperar o tempo perdido em poucos meses, o que chama ainda mais atenção e coloca todas as premissas anteriores em cheque.
Apesar das fortes restrições, conseguiram contornar as limitações e, com criatividade e engenhosidade, lançaram o DeepSeek R1, que está deixando muita gente de cabelo em pé.
Enfim, vamos ficar de olho e acompanhar o que será desse novo modelo e o que ele representará para:
- As grandes empresas de tecnologia
- O mundo em geral, diante dos avanços da IA
- A “Guerra Fria” entre Estados Unidos e China