Text mining. Tehnici de clasificare si clustering al documentelor

Text mining. Tehnici de clasificare si clustering al documentelor
Editura:
Anul publicării: 2012
Categoria: Carti diverse
39,00 lei
Disponibilitate: In stoc furnizor
Timp confirmare stoc: 3 - 4 zile lucratoare

DESCRIERE

Aceasta carte se constituie intr-un efort original de prezentare a unor aspecte ce vizeaza problematica clasificarii si gruparii (clustering) documentelor de tip text. Lucrarea prezinta notiunile de baza referitoare la procesarea automata a documentelor text impreuna cu o serie de algoritmi de clasificare si de clustering, argumentati cu anumite contributii semnificative aduse de catre autori. Monografia, inscrisa in cadrul generos al unor dezvoltari stiintifice majore, abordeaza o tematica realmente actuala, de interes major, fiind deosebit de oportuna in contextul preocuparilor cercetatorilor in stiinta si ingineria calculatoarelor de pe intreg mapamondul. Scopul major al acestei lucrari este acela de a prezenta metode de imbunatatire a performantei unor sisteme de clasificare si de clusterare a documentelor, prin algoritmi euristici computationali. Ea descrie, practic, o aventura intelectuala onesta si fertila prin prisma rezultatelor concrete obtinute de catre autori. Cartea se adreseaza tuturor celor interesati in dezvoltarea de aplicatii bazate pe algoritmi de invatare pentru regasirea automata a informatiilor, iar in mod special studentilor din anii terminali ai specializarilor "Calculatoare”, "Tehnologia informatiei”, "Ingineria stemelor multimedia” etc., masteranzilor si doctoranzilor



Cuprins:

Partea I Introducere

1. Introducere

1. 1. Structura cartii

 

2. Procesarea automata a documentelor de tip text. Generalitati

2. 1. Data mining

2. 1. 1. Preprocesarea datelor

2. 1. 1. 1. Curatirea datelor

2. 1. 1. 1. 1. Completarea valorilor lipsa

2. 1. 1. 1. 2. Netezirea zgomotului

2. 1. 1. 2. Integrarea si transformarea datelor

2. 1. 1. 2. 1. Integrarea datelor

2. 1. 1. 2. 2. Transformarea datelor

2. 1. 1. 3. Selectarea si reducerea datelor

2. 1. 2. Analiza datelor

2. 1. 3. Evaluarea si prezentarea pattern-urilor rezultate

2. 2. Text mining

2. 2. 1. Analiza datelor text si regasirea informatiei

2. 2. 2. Metode de regasire a informatiei

2. 2. 3. Asocierea intre cuvinte cheie si clasificarea documentelor

2. 2. 4. Alte tehnici de indexare pentru regasirea textului

2. 3. WWW mining

2. 3. 1. Mineritul structurii paginilor web

2. 3. 2. Mineritul link-urilor pentru identificarea paginilor web autoritare

2. 3. 3. Mineritul utilizarii web

2. 3. 4. Construirea informatiilor de baza pe mai multe niveluri web

2. 3. 5. Clasificarea automata a documentelor web

2. 4. Clasificare versus Clustering

2. 4. 1. Invatare supervizata si nesupervizata

2. 4. 2. Clasificare si analiza clasificarii

2. 4. 3. Clustering si analiza clusterilor

2. 4. 4. Cerinte cheie pentru algoritmii de clustering

2. 5. Metrici de similaritate a documentelor text

2. 5. 1. Structurarea datelor

2. 5. 1. 1. Matricea de date

2. 5. 1. 2. Matricea de disimilaritate

2. 5. 2. Disimilaritate si similaritate

2. 5. 3. Distante uzuale

2. 5. 4. Tipuri de variabile utilizate in clasificare/clustering

2. 5. 4. 1. Variabile scalate intr-un anumit interval

2. 5. 4. 2. Variabile standardizate

2. 5. 4. 3. Variabile binare (dihotomice)

2. 5. 4. 3. 1. Matricea de disimilaritate pentru variabile binare

2. 5. 4. 4. Variabile nominale

2. 6. Evaluarea algoritmilor de clasificare/clustering

2. 6. 1. Masuri externe de validare a clusteringului si a clasificarii

2. 6. 2. Masuri de validare interna a clusterilor

2. 7. Seturi de date utilizate

2. 7. 1. Setul de date Reuters

2. 7. 1. 1. Alegerea documentelor pentru antrenare - testare

2. 7. 1. 2. Setul A1

2. 7. 1. 3. Setul T1

2. 7. 1. 4. Setul T2

2. 7. 2. Setul de date RSS –Web

 

Partea a II-a. Clustering

 

3. Algoritmi de clustering. Generalitati

3. 1. O posibila taxonomie

3. 1. 1. Algoritmi partitionali (sau metode partitionale)

3. 1. 1. 1. Metoda k-Means

3. 1. 1. 2. Metoda k-Medoids

3. 1. 2. Metode ierarhice

3. 1. 2. 1. Algoritmi aglomerativi ierarhici (HAC)

3. 1. 2. 1. 1. Single link

3. 1. 2. 1. 2. Complete link

3. 1. 3. 1. 3. Average link

3. 1. 2. 1. 4. Centroid link

3. 1. 2. 1. 5. Metoda lui Ward

3. 1. 2. 1. 6. SAHN (Sequential, Agglomerative, Hierarchical and Nonoverlapping)

3. 1. 2. 2. Algoritmul BIRCH

3. 1. 2. 3. Algoritmul CURE

3. 1. 2. 4. Algoritmi divizivi

3. 1. 3. Metode bazate pe ordinea cuvintelor - Suffix Tree Clustering (STC)

3. 1. 3. 1. Pas 1. Constructia arborelui de sufixe

3. 1. 3. 2. Pas 2. Selectarea nodurilor de baza

3. 1. 3. 3. Pas 3. Unirea clusterilor de baza similari

3. 1. 3. 4. Pas 4. Etichetarea clusterilor

3. 1. 4. Metode bazate pe densitati

3. 1. 5. Metode de tip grid-based

3. 1. 6. Metode bazate pe modele

3. 2. Algoritmi ierarhici. HAC – implementarea AGNES

3. 3. Algoritmi partitionali. K-Medoids

 

4. Clusteringul documentelor

4. 1. Modele de reprezentare utilizate

4. 1. 1. Reprezentarea utilizand modelul Vector Space Model – VSM

4. 1. 1. 1. Indexarea documentelor

4. 1. 1. 2. Tipuri de reprezentare a termenilor

4. 1. 2. Reprezentarea utilizand modelul Suffix Tree Document Model – STDM

4. 2. Metodologia de lucru

4. 3. Metrici pentru calculul matricei de similaritate si metode de evaluare

4. 4. Rezultate obtinute pe seturile RSS

4. 4. 1. Rezultatele obtinute de algoritmul HAC - reprezentare VSM

4. 4. 2. Rezultatele obtinute de algoritmul HAC - reprezentare STDM

4. 4. 3. Rezultatele obtinute de algoritmul k-Medoids cu reprezentare VSM

4. 4. 4. Rezultatele obtinute de algoritmul k-Medoids cu reprezentare STDM

4. 4. 5. Comparatii intre algoritmii de clustering si intre modurile de reprezentare

 

Partea a III-a. Clasificare

 

5. Algoritmi de clasificare. Generalitati

5. 1. Introducere

5. 2. Algoritmi stohastici

5. 2. 1. Clasificarea bayesiana

5. 2. 2. Antrenarea clasificatorului Bayes

5. 2. 3. Testarea clasificatorului Bayes

5. 2. 4. Rezultate obtinute cu clasificatorului Bayes

5. 3. Algoritmi de invatare bazati pe regula Backpropagation

5. 3. 1. Modelul neuronului artificial

5. 3. 2. Arhitectura retelelor neuronale

5. 3. 3. Invatarea retelelor neuronale

5. 3. 3. 1. Regula de invatare Boltzmann

5. 3. 3. 2. Regula de invatare Hebb

5. 3. 3. 3. Regula de invatare competitiva

5. 3. 3. 4. Reguli de invatare prin corectie a erorii ("error-correction rules”)

5. 3. 4. Metoda Backpropagation

5. 3. 4. 1. Perceptronul [Vint07]

5. 3. 4. 2. Perceptroni multistrat cu functie de activare neliniara

5. 3. 4. 3. Perceptronul multistrat

5. 3. 5. Algoritmul de invatare Backpropagation

5. 3. 5. 1. Pasul forward

5. 3. 5. 2. Pasul backward

5. 3. 6. Cercetari privind evitarea saturarii iesirii neuronilor

5. 4. Algoritmi evolutionisti. Algoritmi genetici

5. 4. 1. Codificarea cromozomilor si problema de optimizare

5. 4. 2. Metode de alegere a cromozomilor

5. 4. 2. 1. Metoda "Roulette Wheel” (ruleta)

5. 4. 2. 2. Alegerea utilizand metoda lui Gauss

5. 4. 3. Operatorii genetici utilizati

5. 4. 3. 1. Selectia

5. 4. 3. 2. Mutatia

5. 4. 3. 3. Crossover

5. 5. Algoritmi bazati pe nuclee. Support Vector Machine

5. 6. Clasificatori hibrizi. Metaclasificatori

 

6. Clasificarea documentelor

6. 1. Evaluarea clasificatorilor de tip SVM

6. 1. 1. Problema limitarii metaclasificatorului cu clasificatori de tip SVM

6. 1. 2. O prima tatonare a problemei

6. 2. Solutii explorate pentru imbunatatirea metaclasificatorului bazat pe clasificatoare de tip SVM

6. 2. 1. Solutia introducerii unor noi clasificatori SVM

6. 2. 2. Solutia alegerii altei clase

6. 2. 3. Solutia adaugarii unui clasificator de alt tip

6. 2. 3. 1. Adaptarea clasificatorului Bayes pentru utilizarea in metaclasificator

6. 2. 3. 2. Compararea clasificatorului Bayes adaptat (BNA) cu clasificatorii de tip SVM

6. 2. 3. 3. Antrenarea clasificatorilor pe setul A1 si testarea pe setul T1
6. 2. 3. 4. Antrenarea pe setul A1 si testarea pe setul T2
6. 2. 3. 5. Antrenarea si testarea pe setul T2
6. 3. Metode de selectie a clasificatorilor
6. 3. 1. Selectia bazata pe vot majoritar (MV). Rezultate
6. 3. 2. Selectia bazata pe distanta euclidiana (SBED). Rezultate
6. 3. 3. Selectia bazata pe distanta cosinus (SBCOS). Rezultate
6. 4. Arhitecturi neadaptive propuse si dezvoltate
6. 4. 1. Metaclasificator cu ponderi predefinite. Evaluare de tip Eurovision. Rezultate obtinute.
6. 4. 1. 1. Metaclasificator neadaptiv bazat pe suma
6. 4. 1. 2. Metaclasificator neadaptiv bazat pe suma normalizata
6. 4. 1. 3. Metaclasificator neadaptiv bazat pe suma ponderata
6. 4. 1. 4. Cercetari privind alte variante de ponderare a elementelor vectorilor
6. 4. 1. 4. 1. Injumatatirea ponderii

6. 4. 1. 4. 2. Ponderi mici descrescatoare linear
6. 4. 2. Metaclasificator cu ponderi calculate. Design Space Exploration cu algoritmi genetici. Rezultate obtinute.
6. 5. Arhitecturi adaptive propuse si dezvoltate
6. 5. 1. Metaclasificatoare bazate pe similaritate
6. 5. 1. 1. Rezultate obtinute in cazul selectiei bazate pe distanta euclidiana
6. 5. 1. 2. Rezultatele obtinute in cazul selectiei bazate pe distanta cosinus
6. 5. 2. Metaclasificator bazat pe algoritmul Backpropagation
6. 5. 2. 1. Influenta numarului de neuroni de pe stratul ascuns
6. 5. 2. 2. Influenta coeficientului de invatare

 


Anul aparitiei: 2012
Nr. pagini: 232
Vezi și alte cărți: Carte

REVIEW-URI

Scrie un review și spune-ne opinia ta despre acest produs scrie un review

Categorii de carte

Edituri

Transport in Bucuresti

Livrare gratuita in Bucuresti

Carti pentru premii scolare

oferta_premii_scolare.jpg

ANPC

anpc_banner.jpg
Created in 0.331 sec