Logiciel de recherche de corrélation dans les données

Tim

Logiciel de recherche de corrélation dans les données


Je recherche un logiciel où je peux importer une grande quantité de données (5000 colonnes, nombre de lignes inconnu, environ 20 Go) et le logiciel me donne une corrélation d’estimation (n’a pas besoin d’être très précis). Google translate dit que cela doit être le « coefficient de corrélation » (« korrelationskoeffizient » en allemand).

Cas d’utilisation: je travaille dans une « centrale thermique à chaleur perdue » en tant qu’étudiant aide employé et souhaitais optimiser certains processus. Les 5000 colonnes sont des mesures prises à partir de capteurs. À la fin, je veux savoir quelle (s) valeur (s) augmentera si j’en change une autre. Bien sûr, à la fin, cela sera vérifié par des personnes qui comprennent ce sujet mieux que moi.

Edit: Le système d’exploitation n’a pas d’importance. Préféré est windows ou mac (lieu de travail) mais linux est ok aussi (privé)

Izzy ♦

Pourriez-vous modifier votre question et indiquer quel système d’exploitation doit être pris en charge? Merci!

Réponses


 Cosmin Saveanu

Si votre ordinateur a suffisamment de RAM, vous pouvez lire et traiter complètement le fichier avec R , en utilisant éventuellement le package data.table .

D’après votre description, vous disposez d’une longue série de relevés de capteur et souhaitez modéliser le système pour pouvoir prédire le comportement. C’est un sujet très complexe que je ne connais pas, mais des packages R, comme  » prévision  » existent pour construire de tels modèles.

Pour commencer, ce serait probablement une bonne idée de couper une petite partie du gros fichier de 20 Go et d’analyser uniquement cette partie gérable. Faire une telle coupe est trivial avec les outils Unix / Linux dans un terminal:

head -n 5000 bigfile.txt > first5000lines.txt

C’est toujours une bonne idée de regarder réellement une fraction des données dans un logiciel de feuille de calcul et vous pouvez réduire le nombre de colonnes en utilisant:

cut -f 1:50 first5000lines.txt > 50colsfirst5000lines.txt

Beaucoup de recherches et d’efforts pour comprendre l’analyse des données seront nécessaires pour la tâche que vous décrivez et je ne pense pas qu’il existe un type de logiciel capable de faire le travail automatiquement.

R est multiplateforme et des versions pour Windows, Mac et Linux existent.


 Vi.

Eureqa est conçu pour trouver des corrélations (y compris les corrélations complexes non variables à plusieurs variables). Cela ne fonctionne pas pour les ensembles de données volumineux, vous pouvez donc l’utiliser sur des données partielles.

Vous pouvez essayer d’insérer un ensemble limité de données dans la version en ligne pour voir les corrélations de «fruits bas» dans vos données.

Malheureusement, ce n’est pas FOSS.

Tim

Bien que ce soit le genre d’outil que je veux dire, je choisis la réponse de Cocofifi car r est gratuit.


 Jeffrey Weimer

Je suggère également que R soit un point de départ basé sur ce que je comprends qu’il doit être conçu. L’inconvénient peut être qu’il vous oblige à travailler sur une interface de ligne de commande.

Une approche différente est trouvée avec des outils qui sont plus basés sur l’interface utilisateur et plus orientés sur les feuilles de calcul. L’origine est un exemple de peut-être l’un des meilleurs outils à utiliser lorsque ces deux critères sont importants pour vous. Je ne peux pas parler de la limite de taille des données d’origine.

Enfin, vous souhaitez peut-être concevoir vos propres widgets d’interface utilisateur autour d’un package d’analyse de données autoproclamé à proposer aux futurs utilisateurs pour simplement « pointer, cliquer et obtenir de beaux résultats ». Igor Pro serait ma recommandation dans ce cas.

 

#de, corrélation, dans, données), Les, Logiciel, recherche

 

elle.fr

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *