No mundo competitivo das startups tecnológicas, onde empreendedores tendem a pensar em ideias comparáveis ​​ao mesmo tempo e os “espaços quentes” ficam rapidamente lotados de candidatos bem financiados, os fossos competitivos são mais importantes do que nunca.

Idealmente, à medida que a sua startup cresce, você deseja não apenas ser capaz de se defender dos concorrentes, mas também achar cada vez mais fácil romper com eles, tornando o seu negócio cada vez mais inexpugnável e levando a uma dinâmica de “winner takes all”.

Parece simples, mas na realidade muitas startups em crescimento, incluindo algumas bem conhecidas, experimentam exactamente o inverso (custos mais elevados de aquisição de clientes resultantes do aumento da concorrência, tecnologia central que é replicada e melhorada por concorrentes que começaram mais tarde e aprenderam com os seus erros iniciais, etc.).

Embora existam vários tipos de fossos competitivos, como uma marca poderosa (Apple) ou economias de escala (Oracle),  os efeitos de rede  são particularmente eficazes na criação desta dinâmica vencedora e têm sido associados a algumas das maiores histórias de sucesso no mundo. a história da indústria da Internet.

Os efeitos de rede vêm em diferentes sabores, e hoje quero falar sobre um tipo específico que tem estado no centro da algumas teses de investimento, resultante de um profundo interesse no mundo dos dados e do aprendizado de máquina:  rede de dados efeitos .

Efeitos de rede versus   efeitos de rede de dados

O conceito de efeito de rede (em geral) já é bem compreendido: uma situação do tipo volante em que um bem ou serviço se torna mais valioso quando mais pessoas o utilizam. Muitos exemplos por aí, desde o sistema telefônico (o valor de um telefone aumenta se todos tiverem um telefone) até o Facebook e muitos mercados (com algumas nuances para este último).

Embora produzam muitos dos mesmos benefícios,  os efeitos da rede de dados  são mais sutis e geralmente menos compreendidos.   Os efeitos da rede de dados ocorrem quando seu produto, geralmente alimentado por aprendizado de máquina, se torna mais inteligente à medida que obtém mais dados de seus usuários . No Brasil poucas empesas estão maduras a esse ponto, analisando tendo como comparação empresas dos Estados Unidos, China e Canadá estão nessa vanguarda, no Brasil a que mais se destaca e é considerada pelo mercado americano a “Palantir of  Travel” é o Hurb.com .

Em outras palavras: quanto mais usuários viajam, mais dados eles armazenam e tratam; quanto mais dados eles contribuem, mais inteligente sua plataforma se torna (o que pode significar qualquer coisa, desde melhorias básicas de desempenho até  no caso do Hurb conseguir um preço 46% abaixo do preço dos concorrentes, previsões, recomendações, personalização, etc.); quanto mais inteligente for o seu produto, melhor ele atenderá aos seus usuários e maior será a probabilidade de eles voltarem com frequência e contribuírem com mais dados – e assim por diante. 

Os efeitos da rede de dados exigem pelo menos algum nível de produção automatizada da aprendizagem, conhecido como “Reinforce Learning”, conversamos com o Engenheiro de Machine Learning  Lucas Cruz, do Hurb.com que está indo esse ano fazer Mestrado no Canadá na que é considerada a melhor universidade re Reinforce Learning do Mundo, University of Alberta é claro que a maioria das empresas bem administradas “aprende” de alguma forma com os dados, mas isso normalmente é feito por meio de análises, com analistas humanos fazendo grande parte do trabalho e um processo separado para criar insights sobre o produto ou serviço. Quanto mais automação você incorporar ao loop, maior será a probabilidade de obter um efeito volante.

O Google é um exemplo clássico do efeito de rede de dados em jogo: quanto mais as pessoas pesquisam, mais dados fornecem, permitindo ao Google refinar e melhorar constantemente o seu desempenho principal, bem como personalizar a experiência do utilizador. O Waze, agora uma empresa do Google, é outro grande exemplo, essencialmente um banco de dados contributivo construído sobre efeitos de rede de dados.

Há também muitos exemplos de efeitos de rede de dados encontrados no nível do recurso (e não no negócio principal): por exemplo, mecanismos de recomendação que agora estão em toda parte, desde Amazon (produtos que você deseja comprar) até Netflix (filmes que você deseja para assistir) ao Linkedin (pessoas com as quais você deseja se conectar) e continue melhorando com mais usuários/dados.

Observe que os efeitos de rede “padrão” e os efeitos de rede de dados podem ser encontrados absolutamente na mesma empresa. Parte da magia da Uber é que ela se beneficia tanto de sua missão principal: um efeito de rede padrão (a Uber se torna mais valiosa para todos à medida que mais motoristas e mais clientes “aderem” ao serviço) e um efeito de rede de dados (mais dados permitem que a Uber para melhorar constantemente seus algoritmos de roteamento para conseguir um carro para os clientes o mais rápido possível e para garantir que seus motoristas consigam tantos empregos quanto puderem, deixando todos felizes e com maior probabilidade de serem membros de longo prazo da rede). Da mesma forma, o Facebook beneficia tanto de um efeito de rede “padrão” (quanto mais pessoas estão no Facebook, mais interessante é a experiência de todos) e de efeitos de rede de dados, à medida que o feed de notícias, por exemplo, se torna cada vez mais personalizado com base em enormes ciclos de aprendizagem de dados.

Agora disponível para todos?

Muitos dos exemplos mencionados até agora são sobre grandes empresas e, na verdade, como veremos a seguir, essas grandes empresas têm uma vantagem importante (mais dados).

No entanto, os efeitos da rede de dados estão agora a tornar-se uma possibilidade para um grupo muito mais vasto de empresas, numa fase inicial do seu desenvolvimento, como resultado da democratização das ferramentas de Big Data (infraestruturas mais baratas e rápidas para processar grandes quantidades de dados) e da aprendizagem automática/IA. (um número crescente de ferramentas e algoritmos prontos para uso para analisar e aprender automaticamente com essa grande quantidade de dados). Em um mundo onde você pode ter acesso a tecnologias semelhantes às do Google e inspiradas no Google, do Hadoop ao  CockroachDB  e ao TensorFlow, você não precisa ser o Google para implementar a infraestrutura central e os ciclos de aprendizagem para se beneficiar dos efeitos da rede de dados. [divulgação: FirstMark é um investidor no Cockroach Labs]

Os efeitos da rede de dados podem funcionar igualmente bem num contexto de consumo (aprendizado entre todos os utilizadores do produto) e num contexto empresarial (aprendizado entre todos os clientes, que formam uma rede de facto), numa variedade de indústrias.

Para dar exemplos de diferentes setores do meu próprio portfólio:

  • Produtividade: À medida que mais usuários usam Amy/Andrew, os assistentes de agendamento com tecnologia de AI criados por x.ai , o sistema reúne cada vez mais dados de e-mail, o que torna a IA mais inteligente, o que por sua vez melhora a experiência do usuário (em termos de tempo de resposta , por exemplo) e torna o sistema cada vez mais escalável (para que possa atender mais usuários), resultando em mais utilização e mais dados;
  • Software empresarial:  HyperScience  (IA para a empresa) e  ActionIQ  (plataforma de Big Data Marketing) construíram sistemas que ficam (ou ficarão) mais inteligentes com cada novo cliente empresarial (ambas as empresas estão em grande parte furtivas);
  • Internet das Coisas: Os efeitos da rede de dados são particularmente relevantes para a defesa a longo prazo das empresas da Internet das Coisas, incluindo  Helium  (IoT empresarial) e  Kinsa  (IoT de saúde/consumo) no meu portfólio. O hardware muitas vezes será copiado e às vezes comoditizado. No entanto, se você pensar em cada dispositivo como um nó em uma rede que contribui com dados, as empresas de IoT terão a oportunidade de criar insights/aprendizados de cada cliente que serão cada vez mais difíceis de replicar – o valor real é construído no nível de software e de dados. ;
  • Saúde:  A Recombine , uma empresa de testes genéticos, construiu uma rede de clínicas parceiras que administram seus testes; a cada novo teste, o Recombine reúne mais dados de DNA nos quais (com o consentimento apropriado) pode executar aprendizado de máquina para melhorar seus testes e desenvolver novos com agilidade (reunindo assim mais dados);
  • Empresas de API/desenvolvedores:  Sense360  está construindo uma API para permitir que desenvolvedores móveis integrem facilmente a inteligência do sensor em seus aplicativos e continuarão aprendendo com grandes quantidades de dados (GPS, acelerômetro, giroscópio, barômetro, etc.), em sua rede de clientes.

O problema da partida a frio e a “armadilha de dados”

Os efeitos da rede de dados normalmente não “acontecem simplesmente”. Para começar, eles exigem um compromisso da startup de ser fundamentalmente uma empresa de dados, com o objetivo declarado de criar ciclos de feedback de dados no produto, primeiro manualmente e depois automaticamente. Isso envolve construir o tipo certo de infraestrutura de dados (usando plataformas e ferramentas modernas de Big Data) e equipe de dados (engenheiros de dados, cientistas de dados, etc.).

O outro requisito fundamental para construir um efeito de rede de dados são… bem, dados. Às vezes, são necessários muitos dados. Embora você possa fazer muitas coisas com pequenas quantidades de dados, alguns dos algoritmos de aprendizado de máquina mais poderosos (como o aprendizado profundo) consomem particularmente dados.

Há uma questão interessante do “ovo e da galinha” aí – você começa concentrando-se em acumular o máximo de dados possível e depois constrói a equipe/infraestrutura de dados ou vice-versa?

As empresas que pretendem construir efeitos de rede de dados no nível dos recursos (por exemplo, uma empresa de comércio que constrói um sistema de recomendação para personalizar a experiência de seus clientes) podem se dar ao luxo de fazer o primeiro e construir sua equipe/infraestrutura de dados ao longo do tempo – veja exemplos de palestras recentes de  Birchox  ou  Bonobos  (onde a equipe de ciência e engenharia de dados foi criada em 2012, 5 anos após a fundação da empresa em 2007) em nosso evento mensal  Data Driven NYC .

Para startups “pure play” de dados/aprendizado de máquina, a construção da equipe de dados vem naturalmente em primeiro lugar, começando pelos próprios fundadores, e a falta de acesso a grandes conjuntos de dados no início é um problema real. Em parte, dá às grandes empresas da Internet uma vantagem real (“porque é que a Google não faria isto?” torna-se uma questão ainda mais difícil quando não se trata apenas de número de engenheiros, mas também de acesso a enormes conjuntos de dados). Mais fundamentalmente, não ter dados ou ter dados limitados, por definição, impede em grande parte progressos significativos na construção de um produto baseado em dados – um verdadeiro problema de “arranque a frio”.

O problema da partida a frio pode ser mais ou menos grave. Em alguns casos, pode ser superado de forma razoavelmente rápida porque o domínio em que a startup se concentra é comparativamente estreito.  x.ai  é um exemplo perfeito disso: embora o produto fique cada vez melhor com mais dados, a empresa conseguiu começar a automatizar partes do processo de agendamento com uma rapidez notável, em grande parte porque ele aborda um universo finito de problemas (há apenas alguns muitos cenários diferentes envolvidos no agendamento de uma reunião) e requer um tipo específico de dados (e-mails que são relevantes para o agendamento de uma reunião).

Na maioria dos casos, você precisa ter uma estratégia de aquisição de dados para superar o problema da inicialização a frio. Já vi muitas startups de dados chegarem aos clientes com uma abordagem que muitas vezes equivale a “dê-nos seus dados, nós os usaremos para ajustar nossos algoritmos e coisas incríveis acontecerão”. Sem valor real fornecido antecipadamente, isso normalmente não funciona.

Muitas das estratégias de aquisição de dados em estágio inicial que vi terem sucesso se enquadram em grande parte na categoria “agitação” – um exemplo clássico de fundadores fazendo coisas que não serão escalonáveis, a fim de levar a empresa a um estágio em que possa ter uma chance para escalar. Alguns exemplos de estratégias:

  • rastrear a web (para treinar algoritmos de reconhecimento de entidade, por exemplo)
  • encontrar conjuntos de dados na Dark Web (legalmente, aparentemente)
  • colocar SDKs de captura de dados em aplicativos de terceiros (com consentimento do usuário final e mediante pagamento de uma taxa para o aplicativo)
  • fazendo algum trabalho manual para simular o que o software eventualmente fará
  • fazendo pequenas aquisições de empresas para obter acesso a um conjunto de dados particularmente relevante

Uma abordagem que gosto particularmente é construir uma “armadilha de dados”. A ideia é construir algo que agregue valor real e tangível aos usuários desde o início e incentivá-los a começar a contribuir com seus dados. Por exemplo, tenho visto startups de desenvolvedores/empresas criando aplicativos paralelos divertidos (e gratuitos), normalmente direcionados aos consumidores, para começar a coletar dados. Às vezes, a “armadilha de dados” pode ser um verdadeiro negócio por si só – Recombine, a empresa de testes genéticos que mencionei anteriormente, gera receitas anuais de 8 dígitos vendendo seu teste de pré-fertilidade, uma quantidade surpreendente de receitas considerando os dados que coleta por meio desses testes. altamente valioso por si só.

Aprendendo com os dados de outra pessoa

E se você não for o proprietário dos dados? Este é um problema que se aplica tanto a empresas de consumo como a empresas, regulamentadas ou não. As questões de privacidade de dados merecem uma postagem totalmente diferente, mas a melhor prática aqui é incorporar a privacidade ao DNA central do produto desde o início. Divulgação, consentimento e controles do usuário são essenciais.

Num contexto empresarial, o problema aparece precocemente e com frequência. Um cenário típico: uma startup de software de pequena empresa com grande tecnologia aborda uma grande corporação, promete processar e analisar grandes quantidades de dados de clientes e, da mesma forma, espera ajustar seus algoritmos para o benefício deste cliente (mas, eventualmente, todos os outros clientes – para construir o efeito de rede de dados). A grande corporação protege muito seus dados, tudo precisa ser feito no local (e não na nuvem), e o departamento de segurança bloqueará tudo o que ela não entender ou não puder controlar. Esta pode ser uma conversa difícil.

Algumas maneiras possíveis de resolver esse problema:

  • Negociar antecipadamente e divulgar totalmente que, embora os dados permaneçam estritamente propriedade do cliente, os  aprendizados  de dados serão propriedade do fornecedor
  • Um modelo contributivo onde o cliente precisa ingressar na “rede de aprendizagem do cliente” para se beneficiar do que o produto aprendeu com todos os outros clientes
  • Um preço escalonado em que o cliente paga mais se decidir não aderir à “rede de aprendizagem do cliente”
  • No início da vida da startup, visar as startups como potenciais clientes, pois tendem a ter uma atitude mais progressista em relação a essas questões.

A maior referência do Mundo no assunto é a Empresa Norte Americana Palantir