L' avenir eDiscovery Arms Race: tout est sur la sémantique
Au cours des cinq dernières années, il ya eu une confluence de logiciels d'e-discovery, la jurisprudence, les politiques de gouvernance des informations, et l'intégration des technologies d'information, qui ont tous contribué à façonner le marché eDiscovery aujourd'hui. Comme nous regardons vers l'avenir, nous nous demandons comment continuer à optimiser eDiscovery de manière intelligente de réduire les volumes de données, diminuer de façon efficace la quantité de collecte, et de rationaliser le processus d'examen, tout en offrant également la précision des documents le plus élevé possible, la fiabilité et la répétabilité. Trouver ESI pertinente est de plus en plus difficile pour les organisations, que le volume augmente et ESI est répartie sur les systèmes de messagerie, partage de fichiers, et un ordinateur portable / de bureau. Pour compliquer encore les choses, les avocats sont en expansion afin d'inclure la découverte mouvements référentiels ESI nouvelles, telles que SharePoint et d'autres outils de collaboration, qui augmentent encore le volume d'ESI et complique l'identification et la collecte. Alors, comment le problème peut être adressée à un équilibre entre les contraintes opposées du volume ESI, les charges d'e-discovery et de la précision document pertinent et de la précision? La réponse est simple, mais il sera difficile à mettre en œuvre. La future eDiscovery course aux armements est dans le développement de pointe, fonctions intelligentes d'analyse. En d'autres termes, il est tout au sujet de la sémantique.
La première avance dans la réduction de la collecte ESI non pertinentes (ou l'abattage d'ESI) a été l'identification de fichier simple. Logiciel livré la capacité d'identifier les types de fichiers rapidement et facilement des fichiers à exclure du système d'exploitation (OEC, par exemple) et d'autres programmes exécutables fichiers (par exemple Word, Excel, PowerPoint, Numbers, Keynote, etc), qui sont des résidents sur tous les ordinateurs et ne contiennent aucune ESI pertinentes. Technologie d'identification de fichier a été un saut quantique. Il réduit le volume de la collecte de 50% à 60% sur la force brutale de collecte traditionnelle légistes, qui copie des disques ensemble. La deuxième avance a recherche par mot clé booléenne, qui a été un outil d'e-discovery puissant. Au fil du temps, recherche par mot clé est devenue plus sophistiquée avec l'ajout de variantes orthographiques des mots clés et les variations du mot racine. Cette augmentation de l'exactitude recherche par mot clé, y compris les fautes d'orthographe courantes et des variantes racine, comme parler vs parler. Toutefois, recherche par mot clé nécessite une connaissance a priori de ce que l'on cherche, ce qui est problématique et un facteur de succès de limitation. Aussi précieux soit-il, recherches par mots clés comprennent souvent de nombreux documents non pertinents (faux positifs) ou d'exclure un trop grand nombre de documents pertinents (faux négatifs). La complication est à notre usage de la langue. Nous avons un effet de synonymie, qui est que l'un des deux mots ou plus dans la même langue ont la même signification (comme dans «étudiant» et «élève»), ainsi que l'effet polysémie, qui est que beaucoup de mots individuels ont plus d'un sens. L'impact de la polysémie de la complexité de recherche est la suivante:
La polysémie est un obstacle majeur pour tous les systèmes informatiques qui tentent de faire face à la langue humaine. En anglais, le plus souvent les termes utilisés ont plusieurs significations communes. Par exemple, le mot feu peut signifier: une activité de combustion; mettre fin à l'emploi; de lancer, ou pour exciter (comme dans d'incendie). Pour les 200 plus polysémiques termes en anglais, le verbe typique a plus de douze significations communes, ou les sens. Le nom typique de cet ensemble a plus de huit sens commun. Pour la plupart des 2000-polysémiques termes en anglais, le verbe typique a plus de huit sens commun et le nom typique a plus de cinq [1].
La complexité de langue anglaise un impact sur notre capacité à rechercher et identifier les informations pertinentes à l'efficacité, l'exactitude et de précision. Si l'on considère l'ajout d'autres langues sur l'identification et le défi de recherche, nous avons à relever les différences sémantiques, ainsi que les complexités supplémentaires de traduction entre les langues.
Quelles sont les prochaines étapes de la recherche et l'identification des technologies d'analyse? Il ya des possibilités de recherche naissante concept dans le marché actuel, qui ont été développés pour contourner les limites de la recherche par mot clé booléenne lorsqu'il s'agit de grandes, ESI non structurées. L'idée est de développer la capacité de recherche sur une idée et de récupérer des réponses, qui sont pertinents au concept de l'idée. Avec des effets de synonymie et de polysémie, une idée peut être représentée par de nombreux termes vaguement liées. La recherche dans les domaines de recherche suivants notion promettent d'augmenter la pertinence des recherches et de précision:
1. Désambiguïsation Word (WSD) [2]
WSD technologies aident dériver le sens réel de ces paroles, et leurs concepts sous-jacents, plutôt que par la simple correspondance de chaînes de caractères comme les technologies de recherche par mot clé. La recherche a progressé régulièrement pour atteindre le point où les systèmes de WSD atteindre des niveaux suffisamment élevés de précision sur une variété de types de mots et d'ambiguïtés.
2. Latent Semantic Analysis (LSA) [3]
LSA est une technique de traitement du langage naturel qui utilise la sémantique vectorielle (documents et les requêtes sont représentés comme des vecteurs dans une matrice de l'algèbre linéaire) pour analyser les relations entre un ensemble de documents et les termes qu'ils contiennent et comment les termes sont corrélés. Après analyse, LSA construit un ensemble de concepts liés au document et les termes qui y sont. En d'autres termes, LSA recherche des documents à des thèmes au sein de l'usage de la langue et les extraits les concepts, qui sont communs à ces documents.
3. Co-Présence locale Statistiques [4]
Local de co-occurrence est une technique statistique qui compte le nombre de fois des paires de long terme apparaissent ensemble (co-produire) dans une période donnée, où une période est égale à une fenêtre prédéterminées de termes ou de phrases dans un document ou des documents.
Chacune des techniques ci-dessus par eux-mêmes ne seront probablement pas une solution complète pour le défi de recherche eDiscovery concept. Cependant, ces méthodes combinées et intelligemment intégrées ensemble au sein d'un paradigme de recherche concept global sera le début dans la bonne direction. Comme les augmentations se concentrer sur les technologies de recherche conceptuelle, les produits gagnants seront probablement les meilleures technologies d'analyse.
Source de l'article: http://EzineArticles.com/5106979
0 commentaires:
Enregistrer un commentaire