¿Cuáles son algunos mini proyectos en big data que podría hacer con un equipo de dos o tres personas en uno o dos meses? Soy un estudiante de tercer año de ingeniería informática de la India.

Las competiciones de Kaggle in class son un buen punto de partida: Kaggle in Class

Puedes pasar a proyectos más desafiantes compitiendo aquí:
1. Kaggle: Competiciones | Kaggle
2. Driven Data: Competiciones
3. crowdanalytix: CrowdANALYTIX:Comunidad
4. InnoCentive: InnoCentive – Challenge Browser
4. Quora Programming Challennges: http://www.quora.com/challenges

Estos concursos tienen objetivo y conjunto de datos claramente definidos. También puedes comprobar la eficiencia de tu algoritmo en comparación con otros y sobre todo, aprendes mucho de los foros de discusión.

Intenta más proyectos explorando las APIs de twitter, facebook, etc. APIs.

Si te sientes abrumado por estas competencias, un comienzo más suave lo puedes encontrar en los proyectos de cursos de varios MOOCs. Enumerando algunos de ellos:
1. Stanford Machine Learning en coursera
2. Mining Massive Datasets en coursera
3. UIUC data science track en coursera
4. Hadoop course en udacity
y así sucesivamente. Se pueden encontrar muchos buenos cursos en coursera, udacity, edx, khanacademy, etc. donde hay proyectos basados en el contenido del curso.

El sitio web de scikit learn contiene muchos proyectos estupendos: documentación de scikit-learn 0.15.2

Hay libros que enseñan a través de la implementación, puedes probarlos también:
1. Machine Learning in Action
2. Introduction to Statistical Learning with Applications in R
3. Python for Data Analysis
4. Building Machine Learning Systems with R
Algunos más aquí: Machine Learning Kit – Get – O’Reilly Media
y aquí: Data Science Kit – Get – O’Reilly Media

¿Qué es lo siguiente?
Si después de todo esto te sientes más bien aventurero, prueba el Campeonato Mundial de Texata, la copa KDD o el MIT BIG DATA Challenge 🙂