rozprawa przemyslaw cholajda-70 - Instytut BadaÅ Systemowych PAN

Instytut Badań Systemowych 

Polskiej Akademii Nauk 

ul. Newelska 6 

01-447 Warszawa 

Przemysław Cholajda 

Zastosowanie genetycznego generowania reguł rozmytych 

do wspomagania diagnostyki transformatorów 

Rozprawa doktorska 

Promotor: 

prof. Piotr Szczepaniak

Spis treści 

1. WSTĘP ............................................................................................................................................... 4 

2. ELEMENTY TEORII ZBIORÓW ROZMYTYCH ........................................................................... 9 

2.1. POJĘCIA PODSTAWOWE ....................................................................................... 9 

2.2. KLASY FUNKCJI PRZYNALEśNOŚCI ...................................................................... 10 

2.3. KLASYCZNE OPERACJE NA ZBIORACH ROZMYTYCH ............................................... 13 

3. KLASYCZNY ALGORYTM GENETYCZNY ................................................................................. 15 

3.1. POJĘCIA BIOLOGICZNE ...................................................................................... 15 

3.2. PODSTAWOWE POJĘCIA I PARAMETRY ................................................................. 18 

3.3. TWIERDZENIE O SCHEMATACH ........................................................................... 23 

3.4. TRADYCYJNE METODY OPTYMALIZACJI ................................................................ 27 

4. DIAGNOSTYKA MASZYN ............................................................................................................. 29 

4.1. ROZPOZNAWANIE WZORCÓW .............................................................................. 29 

4.2. PODZIAŁ KLASYCZNY I ROZMYTY ......................................................................... 34 

4.3. GRUPOWANIE ROZMYTE ..................................................................................... 37 

4.4. GENEROWANIE REGUŁ W OPARCIU O ROZMYTĄ ANALIZĘ DANYCH ......................... 42 

5. GENEROWANIE I GENETYCZNA REDUKCJA ROZMYTYCH REGUŁ 

KLASYFIKUJĄCYCH..................................................................................................................... 49 

5.1. GENEROWANIE REGUŁ ROZMYTYCH .................................................................... 49 

5.2. REDUKCJA LICZBY REGUŁ POPRZEZ ZMNIEJSZANIE LICZBY PODZIAŁÓW ................ 55 

5.3. ZMNIEJSZANIE LICZBY REGUŁ ZA POMOCĄ ALGORYTMU GENETYCZNEGO .............. 59 

5.3.1. Postawienie problemu ............................................................................. 59 

5.3.2. Kodowanie chromosomu ......................................................................... 60 

5.3.3. Funkcja przystosowania .......................................................................... 62 

5.3.4. Wybór populacji startowej i warunku zakończenia algorytmu ............... 66 

5.3.5. Operator selekcji, strategia elitarna ....................................................... 69 

5.3.6. Operator krzyŜowania, operator inwersji ............................................... 71 

5.3.7. Operatory mutacji – klasyczny i kodujące wiedzę o zadaniu .................. 74 

5.3.8. Interpretacja wyników ............................................................................. 81 

6. DIAGNOSTYKA TRANSFORMATORÓW .................................................................................... 83 

6.1. PROBLEMY I METODY ......................................................................................... 83 

6.2. DIAGNOSTYKA NA PODSTAWIE REZULTATÓW CHROMATOGRAFII GAZOWEJ (DGA) 84 

6.2.1. Chemiczne podstawy chromatografii gazowej ........................................ 84 

6.2.2. Metoda kodu IEC .................................................................................... 86 

6.2.3. Metoda polska ......................................................................................... 89 

6.2.4. Metoda polska pogłębiona ...................................................................... 92 

6.2.5. Metoda niemiecka ................................................................................... 92 

6.2.6. Metoda francuska .................................................................................... 94 

6.2.7. Metoda kanadyjska.................................................................................. 97 

6.2.8. Zalecenia eksperta .................................................................................. 99 

6.2.9. Analiza porównawcza metod klasycznych ............................................ 101 

6.3. METODY NIESTANDARDOWE ............................................................................. 102 

6.3.1. Zmodyfikowana metoda a-najbliŜszych sąsiadów ................................. 102 

6.3.2. Metoda rozmytego kodu IEC ................................................................. 105 

6.3.3. Dyskretyzacja ........................................................................................ 107 

6.3.4. Drzewo decyzyjne .................................................................................. 110 

6.3.5. Budowanie reguł za pomocą algorytmu genetycznego ......................... 112 

6.3.6. Sieci Pedrycza ....................................................................................... 116 

2

7. GENETYCZNY WYBÓR REGUŁ ROZMYTYCH NA PRZYKŁADZIE WSPOMAGANIA 

DIAGNOSTYKI TRANSFORMATORA ...................................................................................... 119 

7.1. POSTAWIENIE PROBLEMU ................................................................................ 119 

7.2. PRZYGOTOWANIE ZBIORU DANYCH UCZĄCYCH .................................................. 120 

7.3. GENEROWANIE REGUŁ ..................................................................................... 122 

7.4. KONWERSJA DANYCH UCZĄCYCH ...................................................................... 127 

7.5. REGULACJA ROZMIARU PRZESTRZENI DANYCH .................................................. 137 

7.6. PARAMETRYZACJA ALGORYTMU GENETYCZNEGO ............................................... 141 

7.7. PORÓWNANIE TECHNIK GENEROWANIA REGUŁ .................................................. 147 

8. MODUŁ SYSTEMU EKSPERTOWEGO: TRAFO2000 ............................................................. 155 

8.1. PODSTAWY SYSTEMÓW EKSPERTOWYCH ............................................................ 155 

8.2. MODUŁ TRAFO2000 ........................................................................................ 155 

8.2.1. Baza danych pomiarowych ................................................................... 158 

8.2.2. Baza faktów ........................................................................................... 159 

8.2.3. Baza wiedzy stałej ................................................................................. 159 

8.2.4. Baza reguł ............................................................................................. 160 

8.2.5. Interfejs uŜytkownika – Trafo2000 ........................................................ 161 

8.2.6. Interfejs uŜytkownika – Trafo2000_ext ................................................. 172 

8.2.7. Interfejs uŜytkownika – ga_new i Fuzzy3D ........................................... 175 

9. PODSUMOWANIE ....................................................................................................................... 185 

DODATEK A. OPIS OPROGRAMOWANIA ZAŁĄCZONEGO DO PRACY.................................. 187 

DODATEK B. WYKAZ SKRÓTÓW I SYMBOLI .............................................................................. 188 

LITERATURA PODSTAWOWA ............................................................................................................ 189 

LITERATURA UZUPEŁNIAJĄCA ....................................................................................................... 196 

ADRESY INTERNETOWE .................................................................................................................... 201 

3 

Wszelkie nazwy firm i ich produktów oraz znaki towarowe występujące w pracy są 

znakami zastrzeŜonymi odpowiednich właścicieli. Zostały one uŜyte jedynie w celu 

identyfikacji, co nie powinno być traktowane jako naruszenie praw autorskich.

4 

1. Wstęp 

W pracy badana jest metoda rozmytej klasyfikacji prowadząca do automatycznego 

generowania reguł decyzyjnych, których liczba ulega istotnej redukcji (przy 

jednoczesnym zapewnieniu dobrej jakości klasyfikacji) w wyniku zastosowania 

algorytmu genetycznego. 

Metodę zastosowano do praktycznego zadania klasyfikacji wyników pomiarów 

stęŜeń gazów w oleju transformatorowym. Tym samym stworzono nową technikę 

wspomagania diagnostyki transformatorów w oparciu o rzeczywiste dane pomiarowe 

zebrane w przeszłości dla danej klasy transformatorów – technikę odzwierciedlającą w 

pewien sposób uczenie (się) oparte na doświadczeniu [57]. Zaproponowana metoda 

nadaje się takŜe do zastosowania dla innych zadań praktycznych oraz teoretycznych. 

Opierając się na badaniach teoretycznych i przeprowadzonych eksperymentach, tj. 

obliczeniach dla trudnego zadania diagnostycznego o duŜym znaczeniu praktycznym, 

sformułowana została następująca teza: 

Dzięki wykorzystaniu nowych, dopasowanych do zadania mechanizmów genetycznych i 

uogólnieniu metody generowania rozmytych reguł klasyfikacji na przypadek 

wielowymiarowy, moŜliwe jest przeprowadzenie skutecznej klasyfikacji za pomocą 

istotnie zredukowanej liczby reguł rozmytych, otrzymanych w oparciu o 

trudnoseparowalne dane cech ilościowych badanych obiektów. 

W celu potwierdzenia tak postawionej tezy przeanalizowano i rozwiązano wiele 

problemów szczegółowych oraz uzyskano oryginalne wyniki naukowe, które moŜna 

podsumować wymieniając poszczególne dokonania, a są to: 

a) Nieliniowe przekształcenie n-wymiarowej przestrzeni danych celem ich 

„rozrzedzenia” w obszarach trudnych diagnostycznie, co doprowadza do 

modyfikacji funkcji przynaleŜności zbiorów rozmytych. 

b) Adaptacja metody generowania reguł wnioskowania z uŜyciem grupowania 

genetycznego do przypadku przestrzeni n-wymiarowej. 

c) Rozszerzenie na przypadek n-wymiarowy automatycznego generowania reguł 

rozmytych.

d) Hierarchizacja jakości klasyfikacji w przypadku uzyskania kilku 

konkurencyjnych „sztucznych ekspertów”, czyli róŜnych zestawów reguł o 

podobnej efektywności, ale dokonujących nieco innej klasyfikacji w obszarach 

wątpliwych. 

e) Zastosowanie metod z punktów a) – d) do diagnostyki transformatorów w 

oparciu o analizę chromatograficzną gazów rozpuszczonych w oleju. Poza 

wcześniejszymi publikacjami autora niniejszej pracy nieznane są autorowi inne 

podobne prace. 

f) Dokonywanie ocen pewności diagnozy stawianej w oparciu o międzynarodowy 

standard IEC [41]. 

g) Wykonanie modułu systemu ekspertowego [6] wykorzystującego opisywaną w 

punkcie e) metodę oraz klasyczne metody diagnostyki transformatorów w 

oparciu o analizę chromatograficzną gazów rozpuszczonych w oleju. 

Dodatkowo dokonano analizy porównawczej klasycznych, opartych o analizę gazów, 

metod diagnostyki transformatorów. 

Oceniono takŜe kilka metod niestandardowych dla tego zadania. 

5 

Na szczegółowo opisaną i rozwijaną metodę składają się dwa główne etapy: 

– Rozmyte określanie (w formie reguł) przynaleŜności badanych obiektów do 

podobszarów przestrzeni decyzyjnej, które powstają poprzez coraz drobniejszy 

podział tej przestrzeni. Na kaŜdej osi układu współrzędnych zdefiniowane są 

„zachodzące” na siebie wykresy funkcji rozmytej przynaleŜności obiektów do 

sąsiadujących podobszarów (rysunek 5-1). Dzięki temu przynaleŜność do kaŜdego 

podobszaru nie jest ostra i jednocześnie zaleŜy od tego, czy większość obiektów w 

badanym podobszarze jest tej samej klasy, co badany obiekt. 

– Redukcja liczby reguł metodą ewolucyjną. Wskaźnik jakości, zwany tutaj funkcją 

przystosowania, ocenia liczbę reguł (dąŜącą do minimum) i liczbę poprawnie 

sklasyfikowanych obiektów (dąŜącą do maksimum). Dzięki temu algorytm 

pozostawia przydatną część reguł wyŜszego rzędu (tj. ze zgrubnych podziałów), a w 

trudniejszych decyzyjnie obszarach dołącza reguły obowiązujące w małych 

fragmentach przestrzeni decyzyjnej (wyjątki od reguł wyŜszego rzędu).

6 

Zaproponowaną metodę klasyfikacji zweryfikowano praktycznie na kilku zadaniach 

obliczeniowych. Jednak szczególne znaczenie ze względu na przydatność praktyczną 

mają eksperymenty przeprowadzone dla danych pochodzących z pomiarów na 

rzeczywistych obiektach – transformatorach energetycznych. Rozmieszczenie tych 

danych (rys. 7-2) w kartezjańskim układzie współrzędnych czyni z nich szczególnie 

trudny zbiór do skutecznego wyznaczania granic obszarów przynaleŜności. Wprawdzie 

część z nich jest rozłoŜona w obszarach dających się dość dobrze izolować, jednak 

bardzo wiele danych jest zgrupowanych i częściowo wymieszanych w pobliŜu środka 

układu współrzędnych i jednej z jego osi. Dodatkowo część przestrzeni decyzyjnej 

zawiera niewielką liczbę danych (w praktyce pewne przypadki występują sporadycznie 

i dlatego niewiele z nich jest rejestrowanych). Trudność sprawiają teŜ dysproporcje w 

liczbie danych poszczególnych kategorii (tabela 6-4), co jest cechą charakterystyczną 

tego problemu technicznego (w praktyce do diagnozowania oddawane są 

transformatory znacznie juŜ uszkodzone). Tym bardziej wyzywające i wymagające jest 

to zadanie testowe. 

UŜytą metodę zaprezentowano na tle innych (rozdział 4) posiadających walor 

rozmytości. Jak się okazuje wiele znanych metod nie nadaje się w praktyce do analizy 

danych wykazujących tak duŜą nieregularność. Usiłując ocenić (zmaksymalizować) 

funkcję odzwierciedlającą jakość wykonywanej klasyfikacji (maksimum) i liczbę 

uŜytych w tym celu reguł (minimum), czyli sprowadzając zadanie klasyfikacji do 

zagadnienia optymalizacji (rozdział 3.4), nie moŜna wprost uŜyć metod optymalizacji 

dla zadań ciągłych. Dla zadań dyskretnych metody dokładne, takie jak algorytm 

pełnego przeglądu, są zbyt czasochłonne obliczeniowo, a metody przybliŜone oraz 

losowe nie dają gwarancji znalezienia odpowiedniego kompromisu pomiędzy liczbą 

reguł, a jakością klasyfikacji. TakŜe metody niedeterministyczne, takie jak Monte Carlo, 

czy symulowanego wyŜarzania, nie dają takiej gwarancji. 

Klasyfikację moŜna teŜ wykonać bez posługiwania się regułami, poprzez porównanie 

badanego obiektu z juŜ znanymi (do tych metod zaliczamy m.in. metodę k najbliŜszych 

sąsiadów nazywaną teŜ a-najbliŜszych sąsiadów), jednak metody te nie dają 

uŜytkownikowi wiedzy w postaci reguł decyzyjnych (rozdział 3.4). Posługując się z 

kolei algorytmami analizy skupień moŜemy otrzymać zbyt duŜą liczbę reguł, co utrudni 

człowiekowi ich interpretację. 

Samoorganizujące się sieci neuronowe potrafiłyby wprawdzie po wyczerpującym 

treningu wypracować klasyfikację, jednak ze względu na występujące rozdrobnienie i

ozrzucenie obiektów tych samych klas, nadmiernie wzrastałaby liczba neuronów (przy 

załoŜeniu, Ŝe taki mechanizm dodawania neuronów zostałby wbudowany). Ponadto 

brakuje mechanizmu redukcyjnego, uogólniającego, który pozwalałby uŜytkownikowi 

nie tylko klasyfikować, ale takŜe interpretować. Z doniesień literaturowych [35] 

wiadomo teŜ, Ŝe nie zaleca się uŜywać sieci tego typu do zadań klasyfikacji z powodu 

małej wiarygodności wyniku. 

Silne i stale rozwijające się narzędzie jakim są popularne obecnie nieliniowe 

klasyfikatory maksymalnoodległościowe (support vector machines) nie posiadają 

jeszcze satysfakcjonującego sposobu wbudowania rozmytości, co jest niezmiernie 

istotnie dla danych o takim rozkładzie, jak te słuŜące diagnostyce stanu technicznego 

transformatorów. Dla tego narzędzia nie spotyka się mechanizmów redukcji liczby 

obszarów decyzyjnych. 

Z uwag tych wynika jasne przesłanie, Ŝe wiele ciekawych zadań w ramach róŜnych 

metod pozostaje jeszcze do rozwiązania w przyszłości, leŜą one jednak poza zakresem 

jednej rozprawy. 

Niniejsza praca składa się z 9 rozdziałów. W rozdziale pierwszym (Wstęp) 

sformułowano tezę, uzasadniono celowość podjętych badań, przedstawiono wykonane 

badania szczegółowe oraz krótko opisano układ i zawartość pracy. 

W rozdziale drugim, trzecim i czwartym opisano (odpowiednio) podstawowe elementy 

teorii zbiorów rozmytych, algorytmu genetycznego oraz grupowania rozmytego na 

potrzeby klasyfikacji. Rozdziały te są nie tylko wprowadzeniem odpowiednich pojęć, 

ale takŜe stanowią odpowiednie odniesienie do badanej w pracy metody. 

Rozdział piąty jest opisem teoretycznym rozwijanej w pracy metody. Przytoczone teŜ 

zostały w nim wyniki uzyskane dla teoretycznych danych porównawczych. 

Rozdział szósty przedstawia problemy napotykane podczas diagnozowania stanu 

technicznego transformatora i przedstawia sposoby interpretacji wyników analizy 

chromatograficznej gazów rozpuszczonych w oleju transformatora – jednej z 

popularniejszych metod diagnostyki tych urządzeń elektrycznych. W rozdziale tym 

zawarte są takŜe rezultaty klasyfikacji wyników chromatografii gazowej wybranymi 

metodami grupowania: metodą najbliŜszych sąsiadów oraz drzewa decyzyjnego. 

Zaprezentowane są teŜ wyniki posłuŜenia się algorytmem genetycznym celem redukcji 

praw budujących drzewo decyzyjne oraz przedstawiona jest metoda oceniania pewności 

diagnozy stawianej na podstawie metody zwanej kodem IEC [41]. 

7

Rozdział siódmy opisuje sposób rozwiązania praktycznego zadania diagnostyki stanu 

technicznego transformatora za pomocą metody opisanej teoretycznie w rozdziale 

piątym. 

Rozdział ósmy zawiera opis oprogramowania Trafo2000 będącego implementacją 

metod opisanych w rozdziałach od piątego do siódmego. 

Rozdział dziewiąty jest podsumowaniem pracy. 

Na końcu pracy umieszczono wykaz uŜytych skrótów oraz symboli, wykaz cytowanej 

literatury naukowej, wykaz informatycznej literatury uzupełniającej wymaganej do 

skonstruowania oprogramowania Trafo2000 oraz wykaz adresów internetowych 

odsyłających do opracowań elektronicznych. 

8

9 

2. Elementy teorii zbiorów rozmytych 

Zbiory rozmyte umoŜliwiają opisanie zjawisk o charakterze nieprecyzyjnym, 

których wyraŜenie za pomocą języka wymaga uŜycia zwrotów oddających ów 

nieprecyzyjny charakter, takich jak „duŜo”, „średnio”, „mało”, „trochę”, „wysoko”, 

„nisko” itp. Termin „zbiory rozmyte” wprowadzony został przez Zadeha [88] i doczekał 

się wielu opracowań naukowych zarówno teoretycznych ([15], [13], [50], [92]), jak i o 

praktycznych zastosowaniach zbiorów rozmytych ([81], [74], [72], [16], [47], [23], 

[53]). Na potrzeby tej pracy wystarczającym jest posługiwanie się jedynie 

podstawowymi pojęciami z dziedziny zbiorów rozmytych. 

2.1. Pojęcia podstawowe 

Niech dana będzie niepusta przestrzeń X nazywana przestrzenią danych uczących 

(niekiedy zbiorem danych uczących) lub obszarem analizy (czy teŜ obszarem rozwaŜań 

z ang. the universe of discourse) lub uniwersum [59]. 

Zbiorem rozmytym A w pewnej niepustej przestrzeni X, nazywamy zbiór * par 

takich, Ŝe: 

A = { (x, µ A (x)); x ∈ X } (2-1) 

gdzie µ A : X → 〈0, 1〉 ⊂ R ** jest funkcją przynaleŜności zbioru rozmytego. 

Funkcja przynaleŜności dla kaŜdego x ∈ X określa stopień przynaleŜności x do 

zbioru rozmytego A, przy czym rozróŜnić moŜna trzy przypadki: 

a) µ A (x) = 1 oznacza pełną przynaleŜność x do zbioru A 

b) µ A (x) = 0 oznacza brak przynaleŜności x do zbioru A 

c) 0 < µ A (x) < 1 oznacza częściową przynaleŜność x do zbioru A. 

Przypadek b) oznaczamy jako x∉A, a pozostałe przypadki - jako x∈A. W celu lepszego 

określenia przypadków a) i c) wprowadza się pojęcie nośnika supp (z ang. support) 

zbioru rozmytego A (wzór 2-2). 

supp(A) = { x ∈ X; µ A (x)>0 } (2-2) 

ker(A) = nucleus(A) = { x ∈ X; µ A (x)=1 } (2-3) 

* Zbiór jest pojęciem pierwotnym teorii mnogości. 

** R jest zbiorem liczb rzeczywistych – wykaz uŜytych skrótów i symboli znajduje się w dodatku B do 

pracy.

WyróŜnia się ponadto pojęcie jądro (z ang. kernel), czy teŜ nukleus [59] (z ang. 

nucleus) zbioru rozmytego A (wzór 2-3). 

JeŜeli A≠∅ jest zbiorem skończonym, to funkcję przynaleŜności µ A : X → 〈0, 1〉 do 

zbioru A moŜna podać w postaci stablicowanej * dla x∈ supp(A) lub za pomocą wzoru. 

Przykład 2-1 

Niech X = C będzie zbiorem liczb całkowitych określających w o C temperaturę 

powietrza. Nieprecyzyjne określenie „ciepło” względem temperatury powietrza moŜna 

sformalizować w postaci rozmytego zbioru A określając tylko jego nośnik w sposób 

następujący: 

A = { (21, 0,2), (22, 0,4), (23, 0,6), (24, 0,8), (25, 1), 

(26, 0,8), (27, 0,6), (28, 0,4), (29, 0,2) } 

lub za pomocą wzoru: 

A = { (x, µ A (x)); x∈ℵ} gdzie µ A (x) = max{0, 

− 25 

1− x } 

5 

W badaniach nad zbiorami rozmytymi i ich zastosowaniami uŜywa się kilku 

standardowych postaci (klas) funkcji przynaleŜności. 

10 

2.2. Klasy funkcji przynaleŜności 

Klasy funkcji przynaleŜności nazwano od kształtów wykresów tych funkcji. 

RozróŜniamy pięć [72] głównych klas funkcji przynaleŜności µ: R → 〈0, 1〉. 

1) funkcja przynaleŜności klasy s zdefiniowana jest wzorem (2-4). 

⎧ 0 dla x ≤ a 

⎪ 

2 

⎪ 

⎛ x − a ⎞ 

2⎜ 

⎟ dla a < x ≤ b 

µ s ⎪ 

(x)= 

⎝ c − a ⎠ 

⎨ 

2 

i a ≤ b ≤ c i a, 

b, 

c ∈ R 

⎪ ⎛ x − c ⎞ 

1− 

2 

< ≤ 

⎪ 

⎜ ⎟ dla b x c 

⎝ c − a ⎠ 

⎪ 

⎩ 1 dla x > c 

(2-4) 

Rysunek 2-1. Wykres funkcji przynaleŜności klasy s 

* Funkcja stablicowana - termin informatyczny wynikający ze sposobu zapamiętania funkcji w pamięci 

komputera: dla funkcji określonej tylko w skończonej liczbie punktów dziedziny, wartości funkcji w tych 

punktach zapamiętane są w specjalnie zaprogramowanej tablicy. Sposób takiego zapisu uŜyty jest takŜe 

przy określaniu macierzy U (rozdział 4.2) - wartości przynaleŜności obiektów uczących (wzorców) do 

podzbiorów zbioru uczącego.

11 

2) funkcja przynaleŜności klasy π zdefiniowana jest wzorem (2-5). 

⎧ 0 dla x ≤ c − b 

2 

⎪ ⎛ x − ( c − b) 

⎞ 

⎪2⎜ 

⎟ dla c − b < x ≤ c − b / 2 

⎪ ⎝ b ⎠ 

2 

µ π ⎪ ⎛ x − c ⎞ 

(x)= ⎨ 1− 

2⎜ 

⎟ dla c − b / 2 < x ≤ c + b / 2 i b ≥ 0 i b, 

c ∈ R 

⎪ ⎝ b ⎠ 

2 

⎪ ⎛ x − ( c + b) 

⎞ 

⎪2⎜ 

⎟ dla c + b / 2 < x ≤ c + b 

⎪ ⎝ b ⎠ 

⎩ 1 dla x > c + b 

(2-5) 

Rysunek 2-2. Wykres funkcji przynaleŜności klasy π 

3) funkcja przynaleŜności klasy γ (w literaturze [59] podaje się teŜ nazwę klasa Γ) 

zdefiniowana jest wzorem (2-6). 

⎧ 0 dla x ≤ a 

µ γ ⎪ x − a 

(x)= ⎨ dla a < x ≤ b i a ≤ b i a, 

b ∈ R 

⎪b 

− a 

⎩ 1 dla x > b 

(2-6) 

Rysunek 2-3. Wykres funkcji przynaleŜności klasy γ

12 

4) funkcja przynaleŜności klasy t (w literaturze [59] podaje się teŜ nazwę klasa Λ) 

zdefiniowana jest wzorem (2-7). 

⎧ 0 dla x ≤ a 

⎪ x − a 

⎪ 

dla a < x ≤ b 

µ t (x)= 

b − a 

⎨c 

− x 

i a ≤ b ≤ c i a, 

b, 

c ∈ R 

(2-7) 

⎪ dla b < x ≤ c 

⎪ c − b 

⎩ 0 dla x > c 

Rysunek 2-4. Wykres funkcji przynaleŜności klasy t 

5) funkcja przynaleŜności klasy L zdefiniowana jest wzorem (2-8). 

⎧ 1 dla x ≤ a 

µ L ⎪b 

− x 

(x)= ⎨ dla a < x ≤ b i a ≤ b i a, 

b ∈ R 

⎪b 

− a 

⎩ 0 dla x > b 

(2-8) 

Rysunek 2-5. Wykres funkcji przynaleŜności klasy L 

Niektórzy badacze [59] postulują stosowanie dodatkowych klas funkcji przynaleŜności 

(wzory od 2-9 do 2-13), gdyŜ zaproponowane do tej pory zbudowane są w oparciu o 

funkcje liniowe czy kwadratowe. 

6) funkcja przynaleŜności klasy Π zdefiniowana jest wzorem (2-9). 

⎧ 0 dla x ≤ a 

⎪ x − a 

⎪ 

dla a < x ≤ b 

µ Π b − a 

(x)= ⎨ 1 dla b < x ≤ c i a ≤ b ≤ c ≤ d i a, 

b, 

c, 

d ∈ R 

⎪d 

− x 

⎪ 

dla c < x ≤ d 

d − c 

⎪ 

⎩ 0 dla x > d 

(2-9)

7) funkcja przynaleŜności klasy V zdefiniowana jest wzorem (2-10). 

µ V (x) = 1 - µ t (x) i a ≤ b ≤ c i a, b, c ∈ R (2-10) 

13 

8) funkcja przynaleŜności klasy U zdefiniowana jest wzorem (2-11). 

µ U (x) = 1 - µ Π (x) i a ≤ b ≤ c ≤ d i a, b, c, d ∈ R (2-11) 

9) funkcja przynaleŜności klasy z zdefiniowana jest wzorem (2-12). 

µ z (x) = 1 - µ s (x) i a ≤ b i a, b ∈ R (2-12) 

10) funkcja przynaleŜności klasy u zdefiniowana jest wzorem (2-13). 

µ u (x) = 1 - µ π (x) i 0 ≤ b i b, c ∈ R (2-13) 

Oprócz wymienionych tu klas funkcji jako funkcje przynaleŜności proponuje się 

[59] wprowadzenie klas określanych przez wielomiany wyŜszych stopni, funkcje 

wymierne, funkcje wykładnicze, funkcje dzwonowe, czy krzywą Gaussa. Jednak w 

niniejszej pracy zbiory rozmyte stosowane są tylko na potrzeby algorytmu budującego 

rozmyte reguły klasyfikujące jeŜeli-to, który zaliczany jest do algorytmów sterowania 

rozmytego, a te z kolei najczęściej ([59], [22], [87]) uŜywają funkcji przynaleŜności 

klasy t, s, Π. Z tych klas funkcji, numerycznie najłatwiejsza (a przez to najmniej 

czasochłonna) do wyznaczenia jest wartość funkcji klasy t i z tego względu w pracy 

zostaną uŜyte funkcje przynaleŜności klasy t. Funkcje klasy t nazywane są teŜ 

funkcjami przynaleŜności klasy Λ lub trójkątnymi funkcjami przynaleŜności [22]. 

2.3. Klasyczne operacje na zbiorach rozmytych 

W swojej pracy [88] Zadeh zaproponował trzy operacje na zbiorach rozmytych, 

które nazywane są obecnie operacjami klasycznymi (lub mnogościowymi) [59]: iloczyn 

(przecięcie), sumę (agregację) i dopełnienie (negację). 

1) Dopełnieniem zbioru rozmytego A na uniwersum X jest zbiór rozmyty ¬A taki, Ŝe: 

¬A = { (x, µ ¬A (x)); x ∈ X; µ ¬A (x) = 1 - µ A (x) } (2-14) 

2) Sumą zbiorów rozmytych A i B na tym samym uniwersum X jest zbiór rozmyty 

A∪B taki, Ŝe: 

A∪B = { (x, µ A∪B (x)); x ∈ X; µ A∪B (x) = µ A (x) ∨ µ B (x) = max{µ A (x), µ B (x)} } (2-15)

Sumą n zbiorów rozmytych A 1, A 2, ...A n na tym samym uniwersum X nazywamy 

zbiór rozmyty A 1, A 2, ...A n taki, Ŝe: 

A 1 ∪A 2 ∪ ...∪A n = { (x, µ (x)); x ∈ X; 

µ 

A1 

∪ A2 

∪... 

∪ A n 

(x) = max{ 

A1 

A1 

∪ A2 

∪... 

∪ An 

µ (x), µ 

A 

(x), ..., µ 

2 

A 

(x)} } i n∈ℵ 

n 

14 

(2-16) 

3) Iloczynem zbiorów rozmytych A i B na tym samym uniwersum X jest zbiór rozmyty 

A∩B taki, Ŝe: 

A∩B = { (x, µ A∩B (x)); x ∈ X; µ A∩B (x) = µ A (x) ∧ µ B (x) = min{µ A (x), µ B (x)} } (2-17) 

Iloczynem n zbiorów rozmytych A 1, A 2, ...A n na tym samym uniwersum X 

nazywamy zbiór rozmyty A 1, A 2, ...A n taki, Ŝe: 

A 1 ∩A 2 ∩ ...∩A n = { (x, µ (x)); x ∈ X; 

µ 

A1 

∩ A2 

∩... 

∩A n 

(x) = min{ 

A1 

A1 

∩ A2 

∩... 

∩An 

µ (x), µ 

A 

(x), ..., µ 

2 

A 

(x)} } i n∈ℵ 

n 

(2-18) 

Rysunek 2-6. Przykładowe działanie operacji sumy zbiorów rozmytych A i B 

Lista operacji na zbiorach rozmytych jest znacznie dłuŜsza [47], jednak w praktycznej 

części niniejszej pracy uŜyty zostanie jedynie klasyczny operator sumy zbiorów 

rozmytych A i B (rysunek 2-6).

15 

3. Klasyczny algorytm genetyczny 

Algorytmy genetyczne [14], podobnie jak sieci neuronowe ([80], [79], [51]), są 

próbą naśladowania zjawisk zachodzących w Ŝywych organizmach – odpowiednio 

ewolucji i przesyłania sygnałów w systemie nerwowym – na potrzeby wyszukiwania 

lepszych rozwiązań w wielu dziedzinach nauki i techniki. Pojęcie algorytmy genetyczne 

wprowadził Holland [36], który zaproponował symulację ewolucji do rozwiązywania 

trudnych zadań nie na podstawie wiedzy o charakterze problemu, ale tylko na podstawie 

oceny kaŜdego osobnika symulowanego w algorytmie. Wiele pojęć stosowanych w 

algorytmach genetycznych ma swoje odniesienie do zjawisk biologicznych [69]. Na 

potrzeby tej pracy wydaje się więc celowym krótkie przedstawienie zasad pracy 

algorytmu w oparciu o naukę o organizmach Ŝywych - biologię. 

3.1. Pojęcia biologiczne 

Dzięki biologii wiadomym jest [82], Ŝe kaŜdy Ŝywy organizm składa się z 

mniejszych elementów zwanych komórkami, których istnienie wykazali: Schleiden, 

Schwann, Dutrochet i Lamarck. Większość komórek posiada wyodrębniony obszar - 

jądro komórkowe (zwane w skrócie jądrem), którego istnienie udowodnił w 1831 roku 

Robert Brown. We wnętrzu jądra w strukturach zwanych chromosomami zawarty jest 

kwas DNA (dezoksyrybonukleinowy). Na podstawie fragmentów chromosomów 

zwanych genami w komórce zachodzi synteza białek, czyli związków chemicznych 

słuŜących do budowy komórki (białka budulcowe) i do regulacji procesów chemicznych 

zachodzących w komórce (białka enzymatyczne zwane enzymami). PoniewaŜ organizm 

składa się z komórek, to jego czynności Ŝyciowe są sumą czynności Ŝyciowych 

poszczególnych komórek [82]. Z kolei czynności Ŝyciowe kaŜdej komórki są 

determinowane przez enzymy wytwarzane według budowy kwasu DNA. Tym 

sposobem DNA reguluje zachowanie całego organizmu. 

W jądrze komórki znajdują się dwie odpowiadające sobie sekwencje genów i 

zazwyczaj kaŜda z nich definiuje zupełnie odmienny organizm (np.: człowiek powinien 

według jednej sekwencji mieć włosy czarne, a według drugiej - rude). W jądrze zdrowej 

komórki istnieją więc pary odpowiadających sobie genów - po jednym z kaŜdej 

sekwencji. Jednak białka produkowane w oparciu o jeden gen z pary mogą wywierać 

większy wpływ na komórkę niŜ białka produkowane w oparciu o drugi gen z tej samej

pary. Takie geny nazywane są odpowiednio dominującym i recesywnym (i oznaczane 

są przez wielkie i małe litery). 

Przykład 3-1 

Oznaczmy (w uproszczeniu) gen ludzki odpowiadający za rudy kolor włosów poprzez w 

(gen recesywny), a za kolor czarny poprzez W (gen dominujący). Człowiek posiadający 

parę genów WW, Ww lub wW będzie mieć czarne włosy, a parę ww - rude. 

16 

Większość organizmów rozmnaŜa się płciowo za pośrednictwem specjalnych 

komórek zwanych gametami. KaŜda z gamet zawiera tylko jedną z sekwencji genów 

zwykłej komórki. Dopiero po połączeniu się dwóch gamet pochodzących od osobników 

odmiennej płci, powstaje komórka, która rozwinie się w nowy organizm i która posiada 

normalną dla swojego gatunku liczbę genów w chromosomach. 

W ten sposób (poprzez DNA) organizmy potomne otrzymują pewne cechy 

organizmów rodzicielskich. Jednak zazwyczaj na danym terenie przychodzi na świat 

więcej osobników niŜ moŜe się wyŜywić. Stąd do wieku dojrzałego doŜyją tylko te, 

które będą miały pewne predyspozycje do przetrwania (np.: pewien zestaw cech, który 

ułatwia zdobywanie pokarmu). Mówimy, Ŝe osobniki te są lepiej przystosowane od 

innych do środowiska, w którym Ŝyją. Te ułatwiające przeŜycie cechy zakodowane są w 

DNA i zostaną przekazane potomkom poprzez gamety. Zwrócić tu naleŜy uwagę na to, 

Ŝe osobniki dobrze przystosowane będą miały większą szansę na przekazanie swoich 

cech potomstwu, niŜ osobniki gorzej przystosowane, które raczej wyginą nie wydając 

na świat potomstwa – mówimy o zjawisku doboru naturalnego (selekcji). 

Proces tworzenia się gamet nazywa się mejozą (lub inaczej podziałem 

mejotycznym komórki) i nie polega on tylko na przekazaniu gametom po jednej 

sekwencji genów ze zwykłej komórki. Podczas podziału mejotycznego komórki 

(rysunek 3-1) chromosomy zawierające odpowiadające sobie geny z dwóch sekwencji 

(nazywane chromosomami homologicznymi) łączą się w pary (proces ten nazwany jest 

synapsis), a następnie podwajają się. MoŜe teraz nastąpić wymiana pewnych 

fragmentów pomiędzy chromosomami homologicznymi – krzyŜowanie (z ang.: 

crossing-over). Dzięki temu otrzymujemy większe zróŜnicowanie tworzonych gamet 

niŜ w wyniku tylko powielania chromosomów. Kolejnym etapem jest rozejście się 

najpierw chromosomów homologicznych i podział komórki, a następnie rozejście się 

nowopowstałych chromosomów z chromosomami, które juŜ wcześniej istniały i 

ponowny podział istniejących komórek. W ten sposób powstają cztery grupy 

chromosomów zawartych w czterech gametach.

17 

Rysunek 3-1. Przykładowy schemat krzyŜowania podczas podziału mejotycznego jądra 

komórki (zaznaczono elipsą), w której wyróŜnimy dwie pary genów: Tt oraz Aa 

(występującą w chromosomach zaznaczonych prostokątami) 

Jeszcze jednym czynnikiem zmieniającym materiał genetyczny jest mutacja. 

Występuje ona pod wpływem pewnych związków chemicznych (np.: iperytu, kwasu 

azotowego i innych) lub fal elektromagnetycznych (promienie X, gamma, 

promieniowanie kosmiczne, ultrafiolet) i polega na braku pewnego odcinka 

chromosomu lub jego podwojeniu, czy obróceniu, a takŜe na zmianie lub usunięciu 

jednego nukleotydu. Mutacja odgrywa drugorzędną rolę (po opisanym tu krzyŜowaniu i 

doborze naturalnym) w procesie tworzenia nowego materiału genetycznego (np.: 

względem rodziców człowiek posiada w swoim DNA jedną mutację na około 6 

miliardów par nukleotydów). 

Kwas DNA zbudowany jest z zasady azotowej (Adeniny, Guaniny, Cytozyny, 

Tyminy), cukru pięciowęglowego (dezoksyrybozy) i kwasu fosforowego. Związek 

zasady azotowej, dezoksyrybozy i kwasu fosforowego nosi nazwę nukleotydu.

PoniewaŜ w jego skład moŜe wejść jedna z czterech zasad azotowych, rozróŜniamy 

cztery typy nukleotydów oznaczanych przez A, G, C lub T (od pierwszej litery nazwy 

zasady azotowej wchodzącej w skład nukleotydu). 

18 

Rysunek 3-2. Budowa kwasu dezoksyrybonukleinowego 

Trzy kolejne nukleotydy kodują kaŜdy ze znanych dwudziestu aminokwasów, 

które są podstawowym składnikiem białek - ten system kodowania aminokwasów 

udowodnił w 1961 roku Crick. Trójkę nukleotydów kodujących aminokwas nazywa się 

kodonem. 

3.2. Podstawowe pojęcia i parametry 

Algorytm genetyczny jest swoistą symulacją procesów biologicznych w celu 

rozwiązania problemów technicznych czy naukowych. Model świata organizmów 

Ŝywych przyjęty w algorytmie genetycznym opiera się głównie na zjawiskach doboru 

naturalnego (selekcji), krzyŜowania i mutacji, gdyŜ głównie te zjawiska umoŜliwiają 

organizmom Ŝywym (rozmnaŜającym się płciowo) przystosowanie się do warunków 

Ŝycia na Ziemi. 

Aby zakodować chromosom, osobnika i generację osobników w pamięci 

maszyny cyfrowej, celem zaprogramowania klasycznego algorytmu genetycznego, 

przyjmuje się uproszczenia w stosunku do zjawisk zachodzących w przyrodzie:

1) Za jedną cechę organizmu odpowiada dokładnie jeden gen (a nie dwa – dominujący 

i recesywny). 

2) KaŜdy osobnik posiada tylko jeden chromosom o odpowiedniej długości (a nie kilka 

par chromosomów homologicznych). 

3) KaŜda generacja ma taką samą liczbę osobników. 

4) KaŜdy z osobników ma szansę na wydanie potomstwa w zaleŜności od jego 

przystosowania się do otoczenia. 

5) KaŜdy nowy osobnik otrzymuje chromosom od ojca lub matki, chyba Ŝe nastąpi 

między tymi chromosomami krzyŜowanie. Wtedy otrzyma część chromosomu ojca i 

część matki. 

6) KaŜdy osobnik moŜe być zarówno ojcem jak i matką - nie wyróŜnia się płci. 

7) KaŜda para rodzicielska „wydaje na świat” dwa nowe organizmy (stąd liczba 

osobników w generacji musi być parzysta). 

8) KaŜdy kodon moŜna zakodować w odpowiedniej ilości bitów, w kodzie 

dwójkowym. 

9) Podczas tworzenia się nowego chromosomu kaŜdy kodon moŜe ulec mutacji 

polegającej na zmianie jego zawartości, przy czym prawdopodobieństwo takiej 

mutacji jest z góry określone. 

10) Za gen przyjmuje się pojedynczy kodon (a nie jak w przyrodzie całe ciągi 

kodonów). 

19 

Od strony informatycznej zakodowanie klasycznego algorytmu genetycznego polega 

więc na: 

1) Określeniu w pamięci komputera łańcucha bitowego – chromosomu, gdzie kaŜdy z 

bitów interpretowany jest jako gen, a jego pozycja w chromosomie to locus. 

2) Przypisaniu do kaŜdego chromosomu wartości funkcji przystosowania – miary 

przystosowania danego chromosomu do warunków zadania; chromosom i miara 

jago przystosowania stworzą strukturę zwaną osobnikiem. 

3) Określeniu w pamięci grupy osobników – generacji startowej (początkowej). 

4) Zaprogramowania działania operatorów selekcji (symulacji doboru naturalnego), 

krzyŜowania i mutacji działających na poszczególnych osobnikach w celu uzyskania 

kolejnej generacji osobników (poniewaŜ wraz z utworzeniem nowej generacji stara 

obumiera, to terminy populacja i generacja w klasycznym algorytmie genetycznym

moŜna traktować zamiennie) i działających zgodnie ze schematem blokowym 

prezentowanym na rysunku 3-3. 

20 

Rysunek 3-3. Schemat blokowy klasycznego algorytmu genetycznego [72] 

Selekcja (zwana teŜ selekcją ruletkową) chromosomów w klasycznym 

algorytmie genetycznym odbywa się na zasadzie symulacji obrotowej tarczy (ruletki), 

gdzie kaŜdemu z chromosomów ch danej generacji odpowiada sektor o rozmiarze 

(liniowo) proporcjonalnym do jego przystosowania Φ(ch). Całe koło ruletki odpowiada 

sumie wartości funkcji przystosowania wszystkich chromosomów w generacji. W 

wyniku symulacji „zakręcenia kołem ruletki” wylosowany zostaje jeden z 

chromosomów do zostania rodzicem. Prawdopodobieństwo p wylosowania i-tego 

chromosomu ch i do puli rodziców wyraŜone jest wzorem 3-1. 

Φ( 

chi 

) 

p( ch ) = 

gdzie n pop - parzysta liczba osobników w generacji (3-1) 

i 

n pop 

∑ 

j= 

1 

Φ( 

ch ) 

j 

Losowanie osobników do puli rodziców odbywa się aŜ do uzyskania n pop rodziców 

(gdzie n pop jest parzystą liczbą osobników w generacji). Osobniki w puli rodzicielskiej 

łączone są kolejno w pary (tj. pierwszy z drugim, trzeci z czwartym itd.).

Pomiędzy parą rodziców moŜe zajść krzyŜowanie (nazywane teŜ krzyŜowaniem 

prostym lub jednopunktowym) z zadanym z góry prawdopodobieństwem p cross . 

KrzyŜowanie polega na wylosowaniu punktu przecięcia c chromosomów rodziców i 

począwszy od tego punktu wymienieniu między rodzicami fragmentów ich 

chromosomów. Uzyskane chromosomy traktowane są jako chromosomy potomków. 

ZauwaŜmy teŜ, Ŝe w wyniku uproszczeń algorytmu genetycznego względem świata 

organizmów Ŝywych, krzyŜowanie nie jest juŜ odpowiednikiem biologicznego zjawiska 

crossing-over, gdyŜ zachodzi pomiędzy róŜnymi osobnikami, a nie w obrębie jednej 

komórki. 

Przykład 3-2 

Niech symbol g symbolizuje pojedynczy gen, a symbol g i gen na i-tej pozycji (locus) w 

chromosomie o długości d. Wykonanie krzyŜowania dla kaŜdej pary rodziców 

g 1 g 2 ...g c-1 g c g c+1 ...g d-1 g d g’ 1 g’ 2 ...g’ c-1 g’ c g’ c+1 ...g’ d-1 g’ d 

polega na wylosowaniu punktu przecięcia c ∈ {2,3...,d-1,d} (przy czym 

prawdopodobieństwo zdarzenia polegającego na przyjęciu przez c dowolnej z 

moŜliwych wartości {2,3...,d-1,d} jest jednakowe i wynosi 1/(d-1) ), a następnie na 

wymianie genów pomiędzy chromosomami rodziców począwszy od punktu przecięcia: 

g 1 g 2 ...g c-1 g’ c g’ c+1 ...g’ d-1 g’ d g 1 g 2 ...g c-1 g c g’ c+1 ...g’ d-1 g’ d 

Uzyskane chromosomy to potomkowie rodziców. 

21 

Dla ciągu binarnego mutacja polega na zamianie wartości genu z wartości 1 na 0 

lub odwrotnie z zadanym prawdopodobieństwem p mut . Mutacja (podobnie jak w świecie 

organizmów Ŝywych) spełnia rolę drugorzędną w algorytmie genetycznym – 

najistotniejsze są operatory selekcji i krzyŜowania. Z tego powodu wartość mutacji 

podaje się zazwyczaj [72] bardzo niską (np.: mniej niŜ 1%). 

Dla zbudowania chromosomów generacji startowej (nazywanej teŜ początkową 

[72]) naleŜy określić jeszcze jeden parametr klasycznego algorytmu genetycznego – 

prawdopodobieństwo wylosowania jedynki p sel1 uŜytej do budowy chromosomów. 

Dodatkowymi parametrami klasycznego algorytmu genetycznego mogą być 

parametry określające warunek zatrzymania (rysunek 3-3) np.: maksymalna liczba 

moŜliwych do wykonania generacji t max . 

Algorytm genetyczny najczęściej słuŜy do rozwiązania zadania optymalizacji 

[61], przy czym rozwaŜać moŜna tylko zadanie maksymalizacji. JeŜeli zadania 

optymalizacji polega na minimalizacji funkcji g, to jest ono równowaŜne zadaniu 

maksymalizacji funkcji f takiej, Ŝe f = -g. Ponadto przyjmuje się, Ŝe maksymalizowana 

funkcja f jest dodatnia w swojej dziedzinie. JeŜeli tak nie jest, a funkcja jest funkcją 

ograniczoną z dołu, to moŜna do wartości funkcji dodawać wartość tego ograniczenia. 

Maksymalizowana funkcja f nie musi odpowiadać funkcji przystosowania Φ (często

proponuje się [72] zastosowanie w funkcji przystosowania funkcji kary). Ma być 

jedynie zachowany warunek, Ŝe maksymalizacja funkcji przystosowania Φ będzie 

pociągać za sobą maksymalizację funkcji f (wzór 3-2). 

∧ 

j∈{1,2,..., 

n pop} 

max Φ( 

ch 

j 

) 

= 

max f ( ch 

j 

) 

22 

(3-2) 

Stąd pojęcie „najlepszy” chromosom (rysunek 3-3) oznacza chromosom o największej 

wartości funkcji przystosowania. Tak więc wystarczy sprowadzić rozwiązywany 

problem do zadania optymalizacji, aby mogło być ono rozwiązywane za pomocą 


Określenie parametrów pracy (rysunek 3-3) klasycznego algorytmu 

genetycznego polega na zdefiniowaniu następujących wartości: 

- n pop – parzysta liczba osobników w generacji, 

- p cross – prawdopodobieństwo zajścia krzyŜowania jednopunktowego, 

- p mut – prawdopodobieństwo zajścia mutacji, 

- p sel1 – prawdopodobieństwo wylosowania jedynki w generacji startowej 

oraz na określeniu warunków zatrzymania algorytmu, a takŜe na zdefiniowaniu funkcji 

przystosowania Φ. 

Holland [36] zaproponował jeszcze jeden operator pozwalający na 

otrzymywanie potomków róŜnych od organizmów rodzicielskich: operator inwersji 

zachodzącej z prawdopodobieństwem p inv . Operator ten działa na jednym chromosomie 

i pomiędzy dwoma losowo wybranymi pozycjami chromosomu wykonuje zamianę 

kolejności genów. 

Podczas realizacji algorytmu genetycznego są uŜywane liczby losowe ([91], 

[55], [84]). Wykorzystuje się je do wyboru osobników mających zostać rodzicami, do 

wylosowania punktu krzyŜowania oraz do realizacji mutacji. PoniewaŜ 

oprogramowanie komputera nie jest w stanie samodzielnie wygenerować liczb 

losowych, to uŜywa się pewnych algorytmów skończonych, które pozwalają na 

generowanie liczb spełniających z góry załoŜone testy (załączony do pracy program 

glp.exe). Generowane liczby nie są liczbami losowymi, gdyŜ wartość kaŜdej kolejnej 

moŜna przewidzieć. Takie algorytmy nazywane są generatorami liczb pseudolosowych. 

Opisane metody składające się na klasyczny algorytm genetyczny zostały rozbudowane 

m.in. o nowe metody kodowania chromosomu, selekcji, zapisu zadania optymalizacji,

tworząc grupę metod zaliczanych nie tyle do algorytmów genetycznych ile do ich 

rozszerzenia – metod programowania ewolucyjnego [61]. 

23 

3.3. Twierdzenie o schematach 

Mimo tego, Ŝe w przyrodzie obserwujemy cały czas postępujący proces 

przystosowania się organizmów Ŝywych do otoczenia - ewolucję i mimo tego, Ŝe sami 

jej ulegamy, to nie stanowi jeszcze wystarczającego dowodu, Ŝe bazujący na zjawiskach 

zachodzących w przyrodzie algorytm genetyczny jest odpowiedni do rozwiązywania 

problemów naukowych czy technicznych. Rozwiązanie tych problemów sprowadza się 

w wielu przypadkach do przeszukiwania przestrzeni moŜliwych rozwiązań celem 

znalezienia rozwiązania lepszego niŜ znane dotychczas. Tak więc algorytm genetyczny 

realizuje zadanie optymalizacji, chociaŜ nie w ścisłym tego słowa znaczeniu (z łac. 

optimus – najlepszy), gdyŜ optymalizacja dotyczy poszukiwania najlepszego 

rozwiązania. Celem wyjaśnienia dlaczego algorytm genetyczny usiłuje znaleźć lepsze 

rozwiązanie, naleŜy przeanalizować zasady jego pracy ujęte w tzw. twierdzeniu o 

schematach. 

Dla wyjaśnienia pojęcia schematu rozszerza się alfabet opisujący binarny 

chromosom o symbol *, który oznacza 0 lub 1. 

Schematem nazywamy [61] reprezentację łańcuchów binarnych, które są z nim 

zgodne na wszystkich pozycjach innych niŜ symbol *. Mówimy teŜ, Ŝe chromosom 

naleŜy do danego schematu (jest reprezentantem schematu), jeŜeli [72] dla kaŜdej 

pozycji (locus) j ∈ {1,2,...,l chrom }, gdzie l chrom jest długością chromosomu, symbol 

występujący na j-tej pozycji (locus) chromosomu odpowiada symbolowi na j-tej pozycji 

schematu, przy czym 0 i 1 w chromosomie odpowiada symbolowi * w schemacie. 

Przykład 3-3 

RozwaŜmy następujące zadanie [30]: 

„Wyznaczyć maksymalną wartość funkcji 

f : 0,31 ⊂ ℵ∪{0} 

→ R danej wzorem 

f(x)=x 2 .” 

W celu rozwiązania tego zadania za pomocą algorytmu genetycznego naleŜy 

zakodować jako osobnika wartość x w kodzie dwójkowym (np.: wartość 2 kodujemy jako 

chromosom „00010” o wartości przystosowania 2 2 = 4). Stwórzmy przykładową 

populację startową złoŜoną z czterech osobników [42]: 

L.p. Chromosom Przystosowanie 

1 01101 169 

2 11000 576 

3 01000 64 

4 10011 361

Przyglądając się budowie chromosomów moŜna dostrzec pewien związek pomiędzy 

budową i przystosowaniem. OtóŜ chromosomy zawierające jedynkę na swoim początku 

mają wyŜsze przystosowanie niŜ pozostałe (chromosomy 2 i 4). Oznacza to, iŜ jedynka na 

tej pozycji to jakaś dobra cecha osobnika, która ułatwia mu przeŜycie. Taką dobrą cechę 

moŜemy wyróŜnić za pomocą schematu: 1****. 

Schematy posiadają swoje właściwości - rząd i rozpiętość. Rzędem schematu H 

nazywamy liczbę ustalonych pozycji w schemacie i oznaczamy o(H) np.: o(10***)=2. 

Rozpiętością schematu H nazywamy odległość między skrajnymi pozycjami ustalonymi 

i oznaczamy δ(H) np.: δ(1**0*)=3, δ(1****)=0. ZauwaŜmy, Ŝe podczas reprodukcji 

liczba reprezentantów dobrych schematów (tj. kodujących dobre cechy osobnika, które 

to ułatwiają mu przeŜycie – przykład 3-3) wzrasta oraz, Ŝe podczas krzyŜowania 

schematy o duŜej rozpiętości ulegają zniszczeniu. 

ZałóŜmy, Ŝe w t generacji znajduje się m=m(H,t) reprezentantów schematu H. 

Owi reprezentanci podczas procesu rozmnaŜania ulegają powieleniu na swoich 

potomków (jeszcze bez uwzględnienia krzyŜowania) z prawdopodobieństwem 

określonym wzorem 3-1 (dotyczy klasycznego algorytmu genetycznego). W związku z 

tym w następnej t+1 generacji moŜemy oczekiwać * następującej liczby reprezentantów 

schematu H (wzór 3-3): 

Φ( 

H ) 

m( H, 

t + 1) = m( 

H, 

t) 

⋅ n ⋅ 

(3-3) 

pop 

n pop 

∑ 

j= 

1 

Φ( 

ch ) 

gdzie Φ(H) jest średnim przystosowaniem reprezentantów schematu H w generacji t. 

JeŜeli oznaczymy średnie przystosowanie osobnika w generacji przez (3-4), to moŜemy 

zapisać wzór (3-3) jako (3-5). 

Φ = 

n pop 

∑ 

j= 

1 

Φ( 

ch ) 

n 

pop 

j 

j 

24 

(3-4) 

Φ( 

H ) 

m ( H, 

t + 1) = m( 

H , t) 

⋅ 

(3-5) 

Φ 

Gdyby załoŜyć, Ŝe średnie przystosowanie reprezentantów schematu H przewyŜsza 

średnie przystosowanie generacji o wielkość 

otrzymujemy wzór (3-6), a z niego zaleŜność (3-7): 

c Φ i c jest wielkością stałą, to 

Φ + cΦ 

m ( H, 

t + 1) = m( 

H, 

t) 

⋅ = m( 

H , t) 

⋅ (1 + c) 

(3-6) 

Φ 

* Lewa strona równania (3-3) powinna być opisana jako: [ m( H, t +1) 

] 

E gdzie E jest wartością 

oczekiwaną. Jednak ze względu na to, Ŝe algorytmy genetyczne operują zazwyczaj na duŜych 

populacjach moŜliwe jest pominięcie we wzorze wartości oczekiwanej.

25 

m ( H, 

t) 

+ ) 

t 

= m( 

H,0) 

⋅ (1 c 

(3-7) 

Otrzymany wzór (3-7) wykazuje, Ŝe w procesie reprodukcji (który działa jak dobór 

naturalny) schematy lepsze od przeciętnej są wybierane w liczbie rosnącej wykładniczo. 

We wzorze (3-5) naleŜy jeszcze uwzględnić moŜliwość zniszczenia danego 

schematu w wyniku rozerwania chromosomu, co zachodzi podczas krzyŜowania. Punkt 

podziału chromosomu moŜe zostać wylosowany na dowolnej pozycji spośród 

moŜliwych (tj. od pozycji 2 do końca chromosomu - pozycja l chrom ), stąd 

prawdopodobieństwo rozerwania danego schematu wynosi: p δ ( H ) ( l −1) 

. 

roz 

= 

chrom 

JeŜeli uwzględnimy jeszcze prawdopodobieństwo zajścia krzyŜowania p cross , to 

prawdopodobieństwo p s zachowania schematu (bez jego rozerwania) podczas 

krzyŜowania moŜna wyrazić wzorem (3-8). 

p 

s 

≥ 1− 

p 

cross 

δ 

l 

( H ) 

chrom 

−1 

(3-8) 

PoniewaŜ reprodukcja i krzyŜowanie zachodzą niezaleŜnie od siebie, stąd wzór 

(3-5) zapiszemy jako (3-9). 

( , t + 1) ≥ m( H , t) 

m H 

( H ) ⎛ δ ( H ) 

Φ 

Φ 

⎜1− 

p 

⎝ 

cross lchrom 

⎞ 

⎟ 

−1⎠ 

(3-9) 

Ze wzoru (3-9) wynika, Ŝe liczba reprezentantów schematów lepiej 

przystosowanych od średniego przystosowania w generacji i o małej rozpiętości będzie 

rosnąć w następnych pokoleniach wykładniczo. 

Aby schemat H nie uległ zniszczeniu podczas mutacji, muszą się zachować 

wszystkie jego pozycje ustalone (tu: pozycje, gdzie występuje 0 lub 1). PoniewaŜ 

mutacja na kaŜdej pozycji ustalonej jest niezaleŜna od innych mutacji stąd schemat H 

o( H ) 

przetrwa mutację z prawdopodobieństwem ( 1− p mut ) , gdzie pmut jest 

prawdopodobieństwem mutacji. Dla p mut

26 

Przykład 3-4 

Zasadę pracy algorytmu genetycznego opisanego wzorem (3-10) przedstawia program 

xx.exe (mojego autorstwa), który znajduje maksymalną wartość funkcji 

f:〈0,2 30 〉⊂ℵ∪{0}→R danej wzorem f(x)=x 2 . Oczywiście jest to zadanie trywialne i nie 

wymagające stosowania tak wyrafinowanych metod jak algorytm genetyczny, jednak 

zostało tu ono przytoczone celem prostej ilustracji przystosowania schematów. 

1 

Średnie przystosowanie osobnika w generacji 

Przystosowanie 

0,8 

0,6 

0,4 

0,2 

0 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 

Generacja 

Pierwszy przebieg programu 

Drugi przebieg programu 

Rysunek 3-4. Powielanie dobrych schematów algorytmu genetycznego 

Przystosowanie wynoszące 1 na wykresie z rysunków 3-4 i 3-5 osobnik osiągnie wtedy, 

gdy wartość jego przystosowania osiągnie wartość największą z moŜliwych (2 30 ) 2 ≈ 

1,1529215⋅10 18 . Jak widać z rysunku 3-4 średnie przystosowanie generacji początkowo 

wzrasta, co jest wynikiem zwiększania się liczby reprezentantów dobrych schematów w 

kolejnych populacjach. 

Przystosowanie 

1 

0,95 

0,9 

0,85 

0,8 

0,75 

0,7 

0,65 

0,6 

10 

70 

Średnie przystosowanie osobnika w generacji. 

130 

190 

250 

310 

370 

430 

Pierwszy przebieg programu 

490 

550 

Generacja 

610 


730 

790 

850 

910 


Drugi przebieg programu 

Rysunek 3-5. Dalsze etapy pracy algorytmu genetycznego 

Jednak gdy wszystkie osobniki danej generacji są dość dobrze przystosowane, to stają się 

one podobne do siebie. NaleŜy wtedy oczekiwać jakiejś generacji o słabiej 

przystosowanych osobnikach, gdyŜ silniej się wtedy zaznacza działanie mutacji (rysunek 

3-5). 

Program xx.exe znalazł podczas pierwszego przebiegu (pierwszego 

uruchomienia) w 780 generacji osobnika o przystosowaniu na wykresie 0.999991% 

(rysunek 3-5), czyli o wartości przystosowania 1.152911⋅10 18 . Chromosom tego osobnika 

wyglądał następująco: 111111111111111110110100000001, co przedstawia sobą wartość 

1073736961 (najlepszy moŜliwy osobnik do osiągnięcia to ten, którego chromosom 

składa się z samych jedynek, co naleŜy rozumieć jako wartość 1073741823). Wynik taki 

(wobec dziedziny składającej się 1073741824 punktów) naleŜy uznać za zadowalający. 

NaleŜy zauwaŜyć, Ŝe najlepszy chromosom jest reprezentantem schematów, które kodują 

jedynki w początkowej jego części – są to schematy kodujące osobniki bardzo dobrze 

przystosowane.

27 

3.4. Tradycyjne metody optymalizacji 

PoniewaŜ zagadnień optymalizacji uŜywa się w wielu dziedzinach, to 

zastosowania algorytmu genetycznego są dość szerokie. Wykorzystuje się je przy 

tworzeniu muzyki ([i.2], [i.3]), przy symulacji zachowań Ŝywych organizmów ([i.7]), 

przy procesie uczenia sieci neuronowych ([i.4]). Prostota i duŜe moŜliwości algorytmu 

sprawiają, Ŝe gotowe programy uŜywające algorytmu genetycznego do znajdowania 

maksimum funkcji dostępne są w sieci Internet ([i.5], [i.6]) oraz Ŝe powstają ośrodki i 

kluby zajmujące się badaniami algorytmów genetycznych ([19]). Jednak oprócz 

algorytmu genetycznego do rozwiązywania problemu optymalizacji stosuje się równieŜ 

inne metody [1] deterministyczne: 

- dla zadań ciągłych: 

 

 

dla liniowej funkcji celu i ograniczeń: metody liniowego sympleksu 

dla zadań z wypukłą funkcją celu: 

• metody bezgradientowe: poszukiwań prostych - kierunek poszukiwań jest 

zawsze równoległy do osi układu współrzędnych; kierunków 

sprzęŜonych - kierunek jest wyznaczany na podstawie historii 

poszukiwań 

• metody gradientowe: metoda największego spadku - kierunkiem 

poszukiwań jest minus gradient funkcji w punkcie; metoda 

gradientów sprzęŜonych 

• metody newtonowskie i pseudonewtonowskie: metoda Newtona - 

kierunkiem poszukiwań jest iloczyn macierzy pochodnych 

cząstkowych i gradientu funkcji; metoda pesudonewtonowska - 

kierunkiem poszukiwań jest iloczyn aproksymowanej macierzy 

pochodnych cząstkowych i gradientu funkcji 

- dla zadania optymalizacji globalnej (gdy funkcja celu ma w obszarze 

dopuszczalnym więcej niŜ jedno maksimum/minimum lokalne): 

 

 

metody wielostartowe (wielokrotne uruchomienie algorytmu optymalizacji 

lokalnej począwszy od róŜnych punktów startowych) 

metody populacyjne (dla grupy punktów startowych po wykonaniu 

- dla zadań dyskretnych: 

 

 

optymalizacji lokalnej usuwa się punkty zbliŜające się do siebie 

zostawiając jeden) 

metody dokładne: algorytm pełnego przeglądu 

metody przybliŜone: metoda k-opt - gwarantuje, Ŝe w otoczeniu rozwiązania o 

promieniu k nie moŜna znaleźć innego maksimum/minimum 

lokalnego

metody losowe: metoda losowa - polega na losowym próbkowaniu przestrzeni 

rozwiązań 

oraz metody niedeterministyczne, które polegają na wykorzystywaniu losowości w 

procesie poszukiwań nowych rozwiązań (i które nadają się do zastosowań ciągłych jak i 

dyskretnych): 

- metoda Monte Carlo - polega na losowaniu z rozkładem jednostajnym punktów w 

przestrzeni rozwiązań z zapamiętaniem najlepszego 

- metoda błądzenia przypadkowego - polega na wyznaczaniu punktów będących 

wartością oczekiwaną rozkładu prawdopodobieństwa uŜywanego do generowania 

kolejnego punktu; podobnie jak w metodzie Monte Carlo zapamiętuje się najlepszy 

wynik 

- metoda tabu - metoda błądzenia przypadkowego bez moŜliwości powrotu do 

rozwiązań poprzednio uzyskanych 

- metoda symulowanego wyŜarzania - metoda błądzenia przypadkowego, w którym 

nowo wygenerowany punkt staje się kolejnym punktem roboczym, gdy poprawia 

wartość funkcji celu, a w przeciwnym wypadku z prawdopodobieństwem p akcept 

wynoszącym p akcept = exp(-|∆f|/T), gdzie |∆f| jest modułem róŜnicy funkcji celu w 

starym i nowym punkcie, a T>0 jest regulowanym (stopniowo obniŜanym) 

parametrem zwanym temperaturą. 

Algorytm genetyczny jest swoistym połączeniem szybkości metod deterministycznych i 

ogólności metod niedeterministycznych dzięki poszukiwaniu optymalnych rozwiązań w 

obszarach, w których mogą one wystąpić. 

28

29 

4. Diagnostyka maszyn 

Wzrost złoŜoności maszyn i procesów technologicznych spowodował pojawienie 

się [18] nowej gałęzi nauki – diagnostyki technicznej, w której wyróŜniamy dwa 

główne kierunki: diagnostykę maszyn i diagnostykę procesów przemysłowych. 

Diagnostyka maszyn zajmuje się oceną stanu urządzeń poprzez badanie ich 

właściwości i badanie procesów towarzyszących ich funkcjonowaniu (np.: zjawiska 

termiczne, czy wibroakustyczne). Na maszyny działają czynniki zewnętrzne i 

wewnętrzne, które najczęściej powodują stopniowe pogorszenie właściwości 

eksploatacyjnych. Zmiany ten najczęściej zaleŜą od warunków eksploatacji, a są one 

zakłócane poprzez przeglądy, czy remonty. 

Diagnostyka procesów przemysłowych zajmuje się rozpoznawaniem zmian 

stanów procesów przemysłowych, gdzie pod pojęciem proces przemysłowy rozumie się 

[18] ciąg działań realizowanych w ustalonym czasie przez określoną grupę maszyn przy 

określonych zasobach. 

NaleŜy teŜ zaznaczyć, Ŝe rozpoznanie stanu maszyny lub procesu (obiektu badań) 

na podstawie aktualnie dostępnych informacji rozpatruje się jako: 

- diagnozowanie – celem określenia aktualnego stanu 

- genezowanie – celem określenia wcześniejszych stanów 

- prognozowanie – celem określenia przyszłych stanów. 

Diagnozowanie moŜna traktować jako dwuetapowy proces rozpoznawania wzorców 

[18], w którym realizuje się: 

- fazę ekstrakcji sygnałów diagnostycznych 

- fazę klasyfikacji stanu technicznego diagnozowanego obiektu na podstawie 

uzyskanych sygnałów diagnostycznych. 

4.1. Rozpoznawanie wzorców 

Celem rozpoznawania wzorców jest przypisanie obiektu, na podstawie 

zaobserwowanych danych (sygnałów diagnostycznych) do odpowiedniej klasy. W 

warunkach rzeczywistych, wobec braku informacji nt. reguł przynaleŜności obiektów 

do poszczególnych klas, system rozpoznający opiera się na ciągu uczącym – zbiorze 

obiektów, dla których znana jest ich prawidłowa klasyfikacja. MoŜliwe jest więc 

rozpoznawanie automatyczne, które polega na uczeniu się na podstawie przykładów, tak

aby uzyskać zdolność uogólniania – proces klasyfikacji [18], a następnie na orzekaniu o 

wszystkich obiektach podczas pracy systemu – proces wnioskowania. 

Pod pojęciem obiekt [46] rozumie się dowolny przedmiot badań wyodrębniony 

myślowo z otoczenia, tj. przedmiot, osobę, istotę, pojęcie, czy zdarzenie. Grupy 

(skupienia) są zbiorami obiektów bardziej podobnych do siebie (wewnątrz grupy) niŜ 

do pozostałych [9]. Kategorie obiektów (klasy) moŜna wyodrębnić na podstawie 

doświadczenia i intuicji badacza (lub człowieka eksperta) albo na podstawie metod 

matematycznych takich jak analiza skupień i przyporządkowanie grupom obiektów 

odpowiednich klas (etykiet). 

Przed rozpoczęciem klasyfikacji waŜnym zagadnieniem jest określenie istotnych 

cech (atrybutów) obiektów - które dobrze opisują zmienność obiektów i które moŜna 

zmierzyć, czy teŜ określić ich wartość – cech diagnostycznych. Istnieją trzy rodzaje 

cech: ilościowe (rzeczywiste), wyliczeniowe (porządkowe) i logiczne. 

W zaleŜności od rodzaju cech określa się sposób porównania obiektów poprzez 

róŜnicę d lub podobieństwo p. Dla cech ilościowych do najczęściej uŜywanych [46] 

sposobów wyznaczania róŜnicy d zalicza się geometryczne sposoby wyznaczania 

odległości pomiędzy dwoma obiektami x=(x 1 , x 2 , ..., x n ) i y=(y 1 , y 2 , ..., y n ) (o n cechach, 

gdzie n∈ℵ i ℵ jest zbiorem liczb naturalnych): 

a) odległość miejska 

30 

b) odległość euklidesowa 

n 

∑ 

i i 

d( x, 

y) 

= x − y 

(4-1) 

i= 

1 

c) kwadrat odległości euklidesowej 

n 

i i 

∑( x − y ) 

d( x, 

y) 

= 

(4-2) 

i= 

1 

n 

i i 

∑( x − y ) 

i= 

1 

2 

2 

d( x, 

y) 

= 

(4-3) 

d) odległość Czebyszewa - największa odległość pomiędzy znormalizowanymi cechami 

(normalizację przeprowadza się, aby moŜna było porównywać cechy). 

d 

i i 

( x, 

y) 

= max 

i 

x − y 

(4-4)

MoŜliwe są takŜe inne sposoby wyznaczania odległości d (nawet dla pozostałych 

rodzajów cech), o ile spełniają one warunki dane wzorami 4-5(a-d). 

31 

a) d(x,y) ≥ 0 

n 

x, 

y∈∧R 

∈∧ 

b) d(x,y) = 0 dla x = y 

n 

x, 

y R 

c) d(x,y) = d(y,x) 

n 

x, 

y∈∧R 

(4-5) 

d) d(x,z) ≤ d(x,y) + d(y,z) 

n 

x, 

y∧, 

z∈R 

Przy wartości d = 0 badane obiekty uznaje się za identyczne, a dla coraz większych 

wartości odległości uznaje się obiekty za coraz mniej podobne do siebie. 

Wśród sposobów wyznaczania podobieństwa najczęściej stosuje się: 

a) współczynnik korelacji liniowej Pearsona 

b) odległość kątową 

p 

∑ 

i= 

1 

n 

∑ 

i 

− x)( 

y 

i= 

1 

( x, 

y) 

= 

(4-6) 

n 

n 

i 2 i 2 

p 

( x 

( x 

− x) 

∑ 

∑ 

i= 

1 

i 

− y) 

( y 

n n 

i 2 i 

∑( x ) ∑( y ) 

i= 

1 

n 

x 

i 

y 

i 

i= 

1 

− y) 

i= 

1 

( x, 

y) 

= 

(4-7) 

2 

MoŜliwe są inne sposoby wyznaczania wartości podobieństwa p, o ile spełniają warunki 

opisane wzorami 4-8(a-d). 

a) p(x,y) ≥ 0 

n 

x, 

y∈∧R 

∈∧ 

b) p(x,y) < 1 gdy x ≠ y 

n 

x, 

y R 

∈∧ 

c) p(x,y) = 1 gdy x = y 

n 

x, 

y R 

∈∧ 

d) p(x,y) = p(y, 

x) 

n 

x, 

y R 

(4-8) 

Im większa wartość podobieństwa p, tym obiekty są bardziej podobne do siebie. Gdy 

p=1, to obiekty są identyczne [28].

Celem wyznaczenia podobieństwa p lub róŜnicy d wykonuje się niekiedy normalizację 

cech, gdy róŜna jest przestrzeń zmienności tychŜe cech, celem wyrównania zakresu 

zmienności. W zbiorze D obiektów do najczęściej [46] zaliczanych sposobów 

normalizacji i-tej cechy (gdzie i∈{1,2, ...,n}) zalicza się: 

a) zamianę zakresu zmienności do przedziału 〈0,1〉 

32 

max{ x 

i 

1 

x 

i 

, x 

i 

2 

− min{ x 

,..., x 

i 

|| D|| 

i 

1 

, x 

i 

2 

,..., x 

} − min{ x 

i 

|| D|| 

i 

1 

, x 

} 

i 

2 

,..., x 

i 

|| D|| 

} 

(4-9) 

b) standaryzację 

i i 

x − x 

VX 

gdzie VX i – odchylenie standardowe zmiennej losowej X i , DX i - wariancja 

i 

(4-10) 

|| D|| 

i 

i 1 

2 

i 1 

VX = DX = 

x = ∑ x 

|| D || 

|| D || 

|| D|| 

i i 

∑( x − x ) 

j 

j= 

1 

l= 

1 

i 

l 

Metody rozwiązania zadań klasyfikacji polegają na realizacji [57] dwóch 

etapów: 

- analiza danych celem syntezy reguł wnioskowania (uczenie się), 

- podejmowania decyzji na podstawie uzyskanych reguł (wnioskowanie). 

JeŜeli w zadaniu znane są klasy i reguły je opisujące, to etap pierwszy nie zachodzi. Jest 

to tzw. zadanie klasyfikacji prostej [46]. 

Do pierwszego z etapów rozwiązania zadania klasyfikacji moŜna zastosować 

jedną z dwóch strategii uczenia: 

- z nauczycielem (gdy nie dysponujemy opisem klas, a jedynie poprawnie 

sklasyfikowaną serią danych przykładowych), 

- bez nauczyciela (gdy nie są znane przykłady poprawnej klasyfikacji). 

W przypadku braku jasno określonych klas porównuje się (wyznaczając róŜnicę d 

lub podobieństwo p) badany obiekt do obiektów z serii danych przykładowych. Istnieją 

dwie popularne metody porównania: 

- metoda najbliŜszego sąsiada (zwana takŜe metodą NN z angielskiego nearest 

neighbour – najbliŜszy sąsiad) 

- metoda k- najbliŜszych sąsiadów (zwana teŜ a- najbliŜszych sąsiadów, czy a-NN). 

Pierwsza z metod polega na przypisaniu badanego obiektu do klasy, do której naleŜy 

najbardziej podobny do niego obiekt z serii danych przykładowych. Druga z metod

polega na przeprowadzeniu porównania badanego obiektu z najbardziej podobnymi a 

obiektami z serii danych przykładowych i przypisaniu obiektu do klasy reprezentowanej 

najliczniej w grupie porównywanych obiektów (przy czym a nie moŜe być większy niŜ 

najmniejsza liczność obiektów klasy w serii porównawczej). Dzięki temu druga z metod 

jest mniej wraŜliwa na błędne sklasyfikowanie obiektu z danych przykładowych. 

33 

W przypadku analizy skupień celem jest taki podział serii obiektów na pewną liczbę 

grup, Ŝeby obiekty naleŜące do jednej grupy były podobne do siebie, a naleŜące do 

róŜnych grup róŜniły się od siebie. Zadanie systemu klasyfikującego polega takŜe na 

powiązaniu uzyskanych grup z kategoriami. Wśród algorytmów analizy skupień 

wyodrębnić moŜemy co najmniej trzy metody: 

- graficzne (np.: diagramy Czekanowskiego); 

- hierarchiczne (gdzie wyniki moŜna przedstawić w postaci dendrogramu); 

- k-optymalizacyjne (gdzie seria obiektów dzielona jest na k zbiorów). 

Dla metod hierarchicznych rozróŜnić moŜna jeszcze dwa sposoby realizacji 

algorytmów: 

- aglomeracyjne (polegające na łączeniu najbliŜszych grup, gdzie początkowo grupą 

jest jeden obiekt) 

- podziałowe (polegające na dzieleniu grup, aŜ kaŜdy obiekt stanie się jedną grupą, 

gdzie początkowo wszystkie obiekty są jedną grupą). 

Metody k-optymalizacyjne, do których zalicza się metoda k-średnich (nazywana teŜ 

metodą k-środków [12] z angielskiego c-means), polegają na ustaleniu liczby k grup 

przez badającego i przydzielaniu obiektów do najbliŜszych im grup, a następnie na 

przemieszczaniu obiektów między grupami, tak aby zminimalizować odległość 

obiektów od środków grup. 

Problem grupowania jest dość łatwy do rozwiązania, gdy grupy obiektów są od 

siebie oddzielone. Jednak dane rzeczywiste często składają się z grup rozmieszczonych 

bardzo blisko siebie, czy wręcz na siebie zachodzących. W takich wypadkach 

jednoznaczne przypisanie obiektów do poszczególnych grup moŜe utrudniać właściwą 

interpretację wyniku grupowania. Wady tej pozbawione są w pewnym stopniu 

algorytmy grupowania bazujące na zbiorach rozmytych, gdyŜ dostarczają informacji o 

stopniu przynaleŜności obiektu do grupy, co umoŜliwia m.in. zlokalizowanie obiektów 

leŜących na pograniczu grup.

34 

4.2. Podział klasyczny i rozmyty 

Niech dany będzie zbiór danych uczących D={x 1 , x 2 , ..., x ||D|| }⊂R n , gdzie 

x 

i 

= [ x , x ,..., x ]∈ R 

1 

i 

2 

i 

n 

i 

n 

( dla i∈{1,2,...,||D||} ) jest obiektem uczącym (wzorcem) o n 

cechach. Zbiór D moŜemy zapisać w postaci macierzy danych uczących Z (wzór 4-11): 

1 

⎡ x1 

⎢ 2 

= ⎢x1 

Z 

⎢ ... 

⎢ 

n 

⎢⎣ 

x1 

x 

x 

x 

1 

2 

2 

2 

... 

n 

2 

... 

... 

... 

... 

1 

x ⎤ 

|| D|| 

2 ⎥ 

x|| 

D|| 

⎥ 

... ⎥ 

n 

⎥ 

x|| 

D|| 

⎥⎦ 

(4-11) 

Grupowanie jest podziałem zbioru danych uczących D={x 1 , x 2 , ..., x ||D|| } na k 

grup, gdzie wartość k jest z góry określona. Grupa jest więc pewnym podzbiorem 

skończonego zbioru danych uczących i w zaleŜności od zastosowanych zbiorów, 

klasycznych czy rozmytych, rozróŜniamy odpowiednie rodzaje podziałów. 

Podział klasyczny (zwany teŜ twardym z angielskiego hard partition) zbioru 

danych uczących D, to rodzina podzbiorów A i (gdzie i∈{1,2,...,k} i k ∈ℵ \ {1 }) zawarta 

w zborze potęgowym Pow(D), co zapisujemy (wzór 4-12): 

{ i ∈ {1,2,..., k}; 

k ∈ℵ \ {1 } 

⊂ Pow( D) 

A i 

: (4-12) 

gdzie zbiory A i spełniają warunki [9] określone wzorami 4-13(a-c). 

a) U k 

A i 

= D 

i=1 

b) A ∩ A = ∅ gdzie 1 ≤ i ≠ j ≤ k 

i 

j 

(4-13) 

c) ∅ ⊂ A i 

⊂ D gdzie 1 ≤ i ≤ k 

Wzory 4-13 moŜna teŜ zapisać stosując funkcję przynaleŜności dla zbiorów 

µ : 

klasycznych : D → { 0,1} 

∧ 

a) ( x) = 1 

x∈D 

∨ 

i∈{1,2,..., 

k} 

µ 

A i 

∧ 

b) ( x) ∧ ( x) = 0 

x∈D 

∧ 

1≤i 

≠ j≤k 

µ 

µ 

A i A j 

(4-14) 

∧ 

c) µ ( x) = 1 oraz µ ( x) = 0 

i∈{1,2,..., 

k} 

∨ 

x∈D 

A i 

∧ 

i∈{1,2,..., 

k} 

∨ 

x∈D 

A i

Podział moŜna dość łatwo zapisać w postaci macierzy U [ µ ( )] 

A x j 

i 

35 

= o 

wymiarach k × ||D||, na którą składają się wartości funkcji przynaleŜności elementu 

uczącego x j (gdzie j∈{1,2,...,||D||}) do grupy A i (gdzie i∈{1,2,...,k}). 

a) ∧ ∧ µ ( x ) ∈{ 0,1} 

i∈{1,2,..., 

k} 

j∈{1,2,....|| 

D||} 

k 

b) ∧ ∑ µ 

A 

( x 

j 

) 

i 

j∈{1,2,....|| 

D||} 

i= 

1 

A 

i 

= 1 

|| D|| 

c) ∧ 0 < ∑µ 

A 

( x 

j 

) 

i 

i∈{1,2,.... 

k} 

j = 1 

j 

< || D || 

(4-15) 

Macierz U prezentuje podział klasyczny, gdy spełnione są warunki 4-15(a-c), 

które określają, Ŝe kaŜdy element uczący x naleŜy do jednego zbioru A i , z których kaŜdy 

jest zbiorem niepustym i zawartym w D. ZauwaŜmy teŜ, Ŝe aby te warunki były 

spełnione, to k ≤ ||D|| (oczywiście dla k = ||D|| zadanie jest trywialne). 

Przykład 4-1 

Niech będzie określony zbiór danych uczących D taki, Ŝe: 

D={x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 8 }. 

Przyjmujemy, Ŝe wykonano podział zbioru D na 3 podzbiory A 1 ={x 6 }, A 2 ={x 7 , x 8 } oraz 

A 3 ={x 1 , x 2 , x 3 , x 4 , x 5 }. Zgodnie z przyjętą notacją macierz U zapiszemy jako: 

⎡0 

0 0 0 0 1 0 0⎤ 

U = 

⎢ 

⎥ 

⎢ 

0 0 0 0 0 0 1 1 

⎥ 

⎢⎣ 

1 1 1 1 1 0 0 0⎥⎦ 

Kolejne, i-te wiersze macierzy odpowiadają wartościom funkcji przystosowania dla 

kolejnych zbiorów A i . 

Zbiór wszystkich moŜliwych do uzyskania macierzy U tworzy przestrzeń 

podziału klasycznego zbioru danych uczących D. 

Definicja 4-1 

Niech będzie określony skończony zbiór danych uczących D={x 1 , x 2 , ..., x ||D|| } i 

liczba całkowita k taka, Ŝe 2 ≤ k ≤ ||D||. Przestrzenią podziału klasycznego (twardego) 

zbioru D nazywamy taki zbiór Ph k macierzy U, Ŝe: 

Ph 

k 

⎧ 

= ⎨U 

∈ R 

⎩ 

k× 

D 

∧ 

i∈{1,2,.... 

k} 

∧ 

: µ 

Ai 

i 

j∈ ∈ {1,2,...,k} 

{1,2,....||D||} 

∧ 

j∈{1,2,....|| 

D||} 

0 < 

|| D|| 

∑ 

j= 

1 

k 

∑ 

i= 

1 

µ 

A 

i 

( x ) ∈{ 0,1} 

j 

( x ) 

( x ) 

; 

µ = 1; 

(4-16) 

A 

j 

i 

j 

⎫ 

< || D || ⎬ 

⎭

36 

Stosując podział zbioru danych uczących D na podzbiory rozmyte A i o funkcji 

przynaleŜności µ : D → 0, 1 moŜna powyŜszą definicję uogólnić. 

Definicja 4-2 

Niech będzie określony skończony zbiór danych uczących D={x 1 , x 2 ,..., x ||D|| } i 

liczba całkowita k taka, Ŝe 2 ≤ k ≤ ||D||. Przestrzenią podziału rozmytego z 

ograniczeniami zbioru D nazywamy taki zbiór Pf k macierzy U, Ŝe: 

Pf 

k 

⎧ 

= ⎨U 

∈ R 

⎩ 

k× 

D 

: 

∧ 

i∈{1,2,.... 

k} 

∧ 

i 

∈ ∈ {1,2,..., k} 

j {1,2,....|| D||} 

∧ 

j∈{1,2,....|| 

D||} 

0 < 

|| D|| 

∑ 

j= 

1 

µ 

k 

A 

∑ 

i= 

1 

µ 

A 

i 

i 

( x ) 

µ 

A 

( x ) 

j 

j 

i 

∈ 

( x ) 

j 

0,1 ; 

= 1; 

⎫ 

< || D || ⎬ 

⎭ 

(4-17) 

Przykład 4-2 


D={x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 8 }. 

Przyjmujemy, Ŝe wykonano podział zbioru D na 3 podzbiory rozmyte A 1 ={(x 5 , 0,2), (x 6 , 

0,9), (x 7 , 0,2)}, A 2 ={(x 5 , 0,2), (x 6 , 0,1), (x 7 , 0,8), (x 8 , 1)} oraz A 3 ={(x 1 , 1), (x 2 , 1), (x 3 , 1), 

(x 4 , 1), (x 5 , 0,6)}. Zgodnie z przyjętą notacją macierz U zapiszemy jako: 

⎡0 

0 0 0 0,2 0,9 0,2 0⎤ 

U = 

⎢ 

⎥ 

⎢ 

0 0 0 0 0,2 0,1 0,8 1 

⎥ 

⎢⎣ 

1 1 1 1 0,6 0 0 0⎥⎦ 



k 

Warunek ∧ ∑ A 

( x 

j 

) 

i 

j∈{1,2,....|| 

D||} 

i= 

1 

µ = 1 narzuca silne ograniczenie na wartości funkcji 

przystosowania charakterystyczne dla poszczególnych zbiorów A i . Do praktycznych 

zastosowań wystarcza, Ŝe kaŜdy z elementów uczących naleŜy częściowo do 

przynajmniej jednego zbioru rozmytego A i . 

Definicja 4-3 

Niech będzie określony skończony zbiór danych uczących D={x 1 , x 2 ,..., x ||D|| } i 

liczba całkowita k taka, Ŝe 2 ≤ k ≤ ||D||. Przestrzenią podziału rozmytego bez 

ograniczeń zbioru D nazywamy taki zbiór Pp k macierzy U, Ŝe:

37 

Pp 

k 

⎧ 

= ⎨U 

∈ R 

⎩ 

k× 

D 

: 

∧ 

j∈{1,2,....|| 

D||} 

∧ 

i∈{1,2,.... 

k} 

∧ 

i∈{1,2,..., 

k} 

j∈{1,2,....|| 

D||} 

i∈{1,2,..., 

k} 

0 < 

∨ 

|| D|| 

∑ 

j= 

1 

µ 

µ 

Ai 

Ai 

( x ) 

µ 

Ai 

( x ) 

j 

j 

∈ 

( x ) 

0,1 ; 

j 

> 0; 

⎫ 

< || D || ⎬ 

⎭ 

(4-18) 

Przykład 4-3 


D={x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 8 }. 

Przyjmujemy, Ŝe wykonano podział zbioru D na 3 podzbiory rozmyte A 1 ={(x 5 , 0,2), (x 6 , 

0,9), (x 7 , 0,2)}, A 2 ={(x 5 , 0,2), (x 6 , 0,1), (x 7 , 0,8), (x 8 , 1)} oraz A 3 ={(x 1 , 1), (x 2 , 1), (x 3 , 1), 

(x 4 , 1), (x 5 , 0,2)}. Zgodnie z przyjętą notacją macierz U zapiszemy jako: 

⎡0 

0 0 0 0,2 0,9 0,2 0⎤ 

U = 

⎢ 

⎥ 

⎢ 

0 0 0 0 0,2 0,1 0,8 1 

⎥ 

⎢⎣ 

1 1 1 1 0,2 0 0 0⎥⎦ 



ZauwaŜyć moŜna, Ŝe element uczący x 5 w niewielkim stopniu naleŜy do 

wyodrębnionych zbiorów rozmytych – opisuje on sytuację nietypową lub jest on 

wynikiem błędów pomiarowych. W zaistniałej sytuacji naleŜy zastanowić się nad 

wprowadzeniem dla tego elementu nowego zbioru rozmytego lub nad usunięciem 

elementu ze zbioru uczącego. 

k 

Elementy x j zbioru uczącego D, dla których ∑ A 

( x j 

) 

i 

i= 

1 

µ < 1 moŜna traktować jako 

elementy w mniejszym stopniu naleŜące do zbiorów A i . Te elementy, dla których 

k 

∑ 

i= 

1 

( ) 

µ > 1 moŜna traktować jako elementy w większym stopniu naleŜące do 

A 

x 

i j 

zbiorów A i . 

Podział rozmyty bez ograniczeń nazywany jest teŜ [52] podziałem 

probabilistycznym, a podział rozmyty z ograniczeniami – podziałem rozmytym. 

4.3. Grupowanie rozmyte 

Większość [73] algorytmów grupowania rozmytego ([24], [45]) opiera się na 

minimalizacji funkcji celu F(D;U,V)→R, gdzie D={x 1 ,x 2 ,...,x ||D|| }⊂R n jest zbiorem 

danych uczących, U = [ 

A 

( x 

j 

)] ∈ Pf 

i k 

µ (dla i∈{1,2,...,k}, j∈{1,2,...,||D||}, 

k× 

D 

k∈{2,3,...,||D||} - to liczba wyodrębnionych zbiorów rozmytych A i ) oraz V=[v 1 ,v 2 ,...,v k ] 

(dla v i ∈R n ) jest wektorem środków grup A i . Funkcja F opisana jest wzorem 4-19.

k D 

∑∑( 

A 

( x 

j 

) 

i 

m 

F( D; 

U, 

V ) = µ x − v dla m∈〈1,∞) (4-19) 

i= 1 j= 

1 

Waga m słuŜy do określania istotności rozmycia w funkcji celu F. 

Wartość 

j 

v i 

2 

B 

j 

i 

x − (wzór 4-19) jest kwadratem odległości pomiędzy obiektem uczącym 

x j i środkiem grupy v i dla macierzy B określającej normę, którą stosujemy do 

⎡1 

⎢ 

wyznaczania odległości (np.: gdy B I ⎢ 

0 

= = 

⎢... 

⎢ 

⎣0 

2 

B 

0 ... 

1 ... 

... ... 

0 ... 

0⎤ 

0 

⎥ 

⎥ 

... ⎥ 

⎥ 

1⎦ 

n× 

n 

38 

i n to wymiar przestrzeni, 

w której znajdują się obiekty uczące x j , to mamy do czynienia z odległością 

euklidesową). 

d 

2 

ijB 

= 

x 

j 

− v 

2 

i 

B 

= 

T 

( x − v ) ⋅ B ⋅ ( x − v ) 

j 

i 

j 

i 

(4-20) 

Celem minimalizacji funkcji celu F stosuje się róŜne metody takie jak: 

symulowanego wyŜarzania [17], algorytmy genetyczne [4], [73], czy minimalizacja 

liczby współrzędnych [10], [34], czy metody klasyczne przytoczone w rozdziale 3.4. 

Jednak najpopularniejszą ([9], [5], [83]) metodą jest algorytm rozmytych k-średnich (z 

angielskiego FCM – fuzzy c-means). Algorytm ten wywodzi się ze sposobu znalezienia 

ekstremum funkcji F w oparciu o warunek 4-15(b) za pomocą metody mnoŜników * 

Lagrange’a, z której otrzymujemy, Ŝe funkcja F posiada minimum dla warunków 

danych wzorem 4-21(a-b). 

k 

⎛ 

2 / 

a) ( ) ( ) ( m−1 

) ⎞ 

⎟ 

⎠ 

∧ 

i∈{1,2,..., 

k} 

j∈{1,2,...,|| 

D||} 

µ 

A 

x 

j 

= 1 ⎜∑ 

dijB 

/ d 

i 

ljB 

i d ijB >0 i m>1 

⎝ l= 

1 

(4-21) 

b) 

j = 1 

∧ vi 

= 

i∈{1,2,..., 

k} 

|| 

|| D|| 

∑( µ 

A 

( x 

j 

) 

i 

|| D 

∑( µ 

A 

( x 

j 

) 

i 

j = 1 

m 

x 

m 

j 

Wartość v i dana wzorem 4-21(b), to środek grupy A i i stąd pochodzi nazwa algorytmu. 

* Do funkcji F dodajemy sumę iloczynów współczynnika nieoznaczonego λ i warunku 4-15(b). Pochodne 

cząstkowe tak uzyskanej funkcji wynoszą zero [9]. Rozwiązania układu równań przedstawiają wzory 

4-21.

39 

Algorytm FCM [9]: 

Krok 1: Ustal zbiór danych uczących D; określ liczbę k grup A i taką, Ŝe 

k∈{2,3,...,||D||-1} (aby otrzymać zadanie nie będące trywialnym); ustal 

wartość wagi m∈〈1,∞); ustal warunek zakończenia algorytmu ε > 0 ; ustal 

macierz B określającą normy do wyznaczania odległości (np.: B=I); ustaw na 

zero licznik realizacji pętli licznik=0; ustal losowo wartości w macierzy 

U (licznik=0) ∈Pf k . 

Krok 2: Zwiększ wartość licznik o jeden 

Krok 3: Wyznacz wartości średnich: 

v 

( licznik ) j= 

1 

i 

= 

|| 

|| D|| 

( licznik −1) 

∑( µ A ( x 

j 

i 

) 

|| D 

( licznik −1) 

∑( µ A ( x 

j 

i 

) 

j= 

1 

m 

x 

m 

j 

gdzie i∈{1,2,...,k} 

Krok 4: Wyznacz kwadraty odległości: 

d 

2 

ijB 

= 

T 

( x − v ) ⋅ B ⋅ ( x − v ) 

j 

i 

j 

i 

gdzie i∈{1,2,...,k}, j∈{1,2,...,||D||} 

Krok 5: Wyznacz macierz U (licznik) o wartościach: 

µ 

A i 

( x ) 

j 

k 

⎧ ⎛ 

⎪1 

⎜ 

= 

∑ 

⎨ ⎝ l= 

1 

⎪ 

⎩0 

Krok 6: 

k 

Warunek ∧ ∑ A 

( x 

j 

) 

i 

j∈{1,2,....|| 

D||} 

2 / 

( ) ( m−1 

d / d 

) 

ijB 

ljB 

⎞ 

⎟ 

⎠ 

dla 

dla 

gdzie i∈{1,2,...,k}, j∈{1,2,...,||D||} 

i= 

1 

wartość przystosowania ( ) 

d 

d 

ijB 

ijB 

> 0 

= 0 

µ = 1 moŜe nie być spełniony, gdy wyznaczana 

µ musiała w sposób sztuczny przyjąć wartość 

x Ai 

j 

0. Wtedy dla obiektu uczącego x j wartości przystosowania wyznaczone 

k 

sztucznie ustaw tak, Ŝeby był spełniony warunek: ∑ A 

( x j 

) 

i 

i= 

1 

µ = 1. 

Krok 7: JeŜeli ||U (licznik) - U (licznik-1) || ≥ ε (najczęściej przyjmuje się, iŜ norma 

określająca błąd ||U (licznik) - U (licznik-1) || wynosi max ik (µ (licznik) ik -µ (licznik-1) ik ) ), to 

przejdź do kroku 2, a w przeciwnym wypadku zakończ algorytm.

40 

Macierz B o wymiarach n×n (gdzie n to wymiar przestrzeni, w której znajdują 

się obiekty uczące x j ) określająca normę, którą stosujemy do wyznaczania odległości 

często [9] określana jest teŜ w postaci normy diagonalnej (wzór 4-22). 

B 

diag 

⎡1/ 

DX 

⎢ 

⎢ 0 

= 

⎢ ... 

⎢ 

⎣ 0 

1 

0 

1/ DX 

... 

0 

2 

... 

... 

... 

... 

0 

0 

... 

1/ DX 

gdzie DX i jest wariancją zmiennej losowej X i (o rozkładzie dyskretnym, która 

jest opisana na i-tym wymiarze przestrzeni R n ) daną wzorem 4-23. 

|| D|| 

i 2 1 

i i 

( VX ) = ∑( x 

j 

− x ) 

j= 

1 

⎥ 

⎥ 

⎥ 

⎥ 

⎦ 

n 

⎤ 

n× 

n 

, 

(4-22) 

|| D|| 

i 

2 

i 1 i 

DX = 

gdzie x = ∑ x (4-23) 

l 

|| D || 

|| D || 

l= 

1 

Istnieje teŜ jeszcze inny sposób dopasowania odległości do właściwości zbioru D – 

odległość wyznaczona poprzez normę Mahalanobisa. Macierz odległości B mah w tym 

sposobie jest odwrotną macierzą do macierzy kowariancji B cov określanej poprzez 

zaleŜność 4-25. Kowariancja cech x i , x j (opisanych na i-tym oraz j-tym wymiarze 

przestrzeni R n ) zbioru D={x 1 ,x 2 ,...,x ||D|| }⊂R n dana jest wzorem 4-24. 

|| D|| 

|| D|| 

i j 1 

i 1 i j 1 j 

Cx x = 

gdzie x = ∑ xl 

, x = ∑ x (4-24) 

l 

|| D || 

|| D || 

|| D || 

|| D|| 

i i j j 

∑( x − x )( x − x ) 

l 

l 

l= 

1 

l= 

1 

l= 

1 

⎡1 

0 ... 0⎤ 

⎢ 

⎥ 

I [ 

ij 

] ⎢ 

0 1 ... 0 

B ⋅ = = = 

⎥ 

cov 

Bmah 

δ gdzie 

n× 

n 

⎢... 

... ... ... ⎥ 

⎢ 

⎥ 

⎣0 

0 ... 1⎦ 

n× 

n 

(4-25) 

∧ 

i, 

j∈{1,2,..., 

n} 

⎧1 

gdy i = j 

δ 

ij 

= ⎨ 

i 

⎩0 

gdy i ≠ j 

B 

cov 

1 

⎡Cx 

x 

⎢ 2 

= ⎢Cx 

x 

⎢ ... 

⎢ 

n 

⎣Cx 

x 

Zastosowanie macierzy odległości wpływa na jakość rozmytej klasteryzacji dzięki 

zmieniającym się miarom odmienności elementów uczących. Norma euklidesowa 

tworzy klastry rozmyte o kształcie hipersferycznym, tzn. obszar o stałej wartości 

przystosowania jest hipersferą. Norma diagonalna i Mahalobisa tworzą klastry rozmyte 

o kształcie hiperelipsoidalnym, ale dla normy diagonalnej osie hiperelipsoid są zawsze 

równoległe do osi układu współrzędnych. Dzięki tym właściwościom norma 

Mahalobisa najlepiej oddaje właściwości grupy elementów uczących. 

1 

1 

1 

Cx 

Cx 

Cx 

1 

2 

... 

n 

x 

x 

x 

2 

2 

2 

... 

... 

... 

... 

Cx 

Cx 

Cx 

1 

2 

... 

n 

x 

x 

x 

n 

n 

n 

⎤ 

⎥ 

⎥ 

⎥ 

⎥ 

⎦

Przykład 4-4 

Rozpatrzmy prosty przykład określania odległości dla zbioru danych uczących 

D={d 1 ,d 2 ,d 3 ,d 4 ,}⊂R 2 o współrzędnych d 1 =(1,0), d 2 =(2,3), d 3 =(5,4), d 4 =(4,1). Zgodnie 

ze wzorem 4-23 środek punktów określających w przestrzeni R 2 dane uczące określony 

jest jako: 

d = ( x, y) = ((1 

+ 2 + 5 + 4) / 4,(0 + 3 + 4 + 1) / 4) = ( 3,2) 

Wartości kowariancji zgodnie ze wzorem 4-23 wynoszą: 

C xx =DX=((-2) 2 +(-1) 2 +2 2 +1 2 )/4=10/4 

C yy =DY=((-2) 2 +1 2 +2 2 +(-1) 2 )/4=10/4 

C xy =C yx =((-2)⋅(-2)+(-1)⋅1+2⋅2+1⋅(-1))/4=6/4. 

Stąd mamy: 

⎡1/ 

DX 0 ⎤ ⎡0,4 

0 ⎤ 

B diag 

= ⎢ 

⎥ = ⎢ ⎥ 

, 

⎣ 0 1/ DY ⎦ ⎣ 0 0,4⎦ 

⎡C 

⎤ ⎡ ⎤ 

= ⎢ ⎥ = 

10 / 6 / 

xx 

Cxy 

4 4 ⎡ 5 / 8 − 3/ 8⎤ 

B 

cov 

⎢ ⎥ 

, B = 

⎣C 

yx 

C 

⎢ 

⎥ . 

mah 

yy ⎦ ⎣ 6 / 4 10 / 4⎦ 

⎣− 

3/ 8 5 / 8 ⎦ 

RóŜnice pomiędzy odległościami dobrze przedstawiają poniŜsze rysunki, na których 

zaznaczono okręgi o promieniu 1 i 2 o środku w punkcie d dla odległości naliczanej 

kolejno (od lewej) według macierzy I, B diag , B mah . 

41 

Rozwinięciem algorytmu FCM jest algorytm Gustafsona-Kessela [32] (który dla 

kaŜdego z wyodrębnionych zbiorów rozmytych tworzy odrębną macierz odległości), 

czy teŜ algorytm wyznaczania rozmytego maksymalnego prawdopodobieństwa (z ang. 

fuzzy maximum likelihood estimation algorithm) [27]. Podobnym algorytmem do FCM 

jest PCM, czy HCM [73]. Odrębną grupę algorytmów stanowią te zaproponowane w 

pracach m.in. Bezdeka: k-wyborów [9], k-elipsoid [8], czy rozmyty model regresji [33]. 

Na podstawie przytoczonego algorytmu FCM moŜna zaobserwować, Ŝe metody 

grupowania rozmytego mają zazwyczaj charakter iteracyjny, a ich celem jest 

doprowadzenie do wyznaczenia stopnia przynaleŜności kaŜdego badanego obiektu do 

kaŜdej z grup, których liczba jest narzucona z góry (znana lub załoŜona). Są to metody 

czasochłonne obliczeniowo i wymagające wyznaczania wielu współczynników. 

Dla potrzeb rozwiązywanego w niniejszej pracy zadania efektywność 

obliczeniowa ma duŜe znaczenie, gdyŜ celem jest zbudowanie takiego algorytmu, który 

będzie generował reguły logiczne uzyskując z nich jednocześnie maksymalnie 

skondensowaną i praktycznie uŜyteczną wiedzę na podstawie przeprowadzanej analizy

danych. Ponadto ze względu na charakter zadania grupowanie powinno mieć charakter 

częściowo nadzorowany (z nauczycielem), poniewaŜ pomimo znanego przydziału 

obiektów do klas (ciąg uczący) dopuszcza się pewne błędy w grupowaniu, jeŜeli dają 

one znaczące zmniejszenie liczby reguł klasyfikacyjnych. Wszystkie te wymagania 

spełnia opisana w rozdziale piątym metoda, która charakteryzuje się następującymi 

cechami: 

- wykorzystuje rozmytość w określaniu przynaleŜności obiektów do grup; 

- ma charakter częściowo nadzorowany, poprzez kontrolowanie i uwzględnianie 

globalnej liczby prawidłowo klasyfikowanych obiektów do grup; 

- maksymalizując liczbę poprawnych przypisań obiektów przeprowadza 

ekstrakcję wiedzy w postaci minimalizowanej liczby reguł; 

- zagęszcza liczbę reguł w obszarach trudnych diagnostycznie, a rozrzedza o 

obszarach, gdzie diagnoza jest bardziej jednoznaczna. 

42 

4.4. Generowanie reguł w oparciu o rozmytą analizę danych 

Przydatną techniką podczas analizy danych jest uzyskanie reguł jeŜeli-to w 

postaci drzewa hierarchicznego lub w postaci struktury sieci neuronowej Pedrycza [78]. 

RównieŜ moŜliwość ekstrakcji pewnych obszarów klasyfikacji danych z sieci Kohonena 

([80], [79], [51], [73]) wydaje się być przydatną techniką analizy danych. Jednak 

metody te pozbawione są cech pozwalających na uzyskanie satysfakcjonujących 

wyników (np. w postaci niewielkiej liczby reguł jeŜeli-to) w przypadkach praktycznych 

zagadnień zbiorów danych trudnoseparowalnych (tj. gdy dane róŜnych klas sąsiadują ze 

sobą i nie jest prostym wyodrębnienie ich grup). Z tego powodu proponuje się [73] 

systemy neuronowo-rozmyte ([60], [77]), w tym do rozwiązywania zadań klasyfikacji. 

Do jednych z łatwiejszych do ekstrakcji wiedzy w postaci rozmytych reguł 

jeŜeli-to ze struktury sieci naleŜy trójwarstwowa sieć Pedrycza z warstwą rozmytych 

neuronów na wejściu, warstwą neuronów ukrytych typu logicznego AND i z jednym 

wyjściem w postaci neuronu logicznego OR. 

Sztuczny neuron [51] w ogólności naleŜy rozpatrywać jako przetwornik m 

sygnałów x i (gdzie i∈{1,2,.., m}⊂ℵ) , które to podawane na wejście przemnaŜane są 

przez odpowiednie współczynniki wag w i (gdzie w i ∈〈0,1〉⊂R, i∈{1,2,.., m}⊂ℵ), a 

wyniki mnoŜenia są sumowane tworząc tzw. potencjał neuronu. Ów potencjał jest

najczęściej [51] argumentem funkcji f liniowej, progowej lub sigmoidalnej, której 

wartość jest sygnałem wyjściowym neuronu y (4-26). 

m 

∑ 

43 

y = f ( x i 

w i 

) 

(4-26) 

i= 

1 

Neuron logiczny OR czy AND generuje sygnał wyjściowy uŜywając 

przekształceń opisanych wzorami odpowiednio 4-27 i 4-28. 

m 

i=1 

( x AND w ) 

y = OR 

(4-27) 

m 

i=1 

i 

( x OR w ) 

i 

i 

y = AND 

(4-28) 

Neurony jednego typu układa się w warstwy tak, Ŝe wyjścia neuronów jednej 

warstwy są wejściami neuronów kolejnej. W zaleŜności od uŜytych neuronów rozróŜnia 

się dwie podstawowe architektury sieci Perdycza: SOM (z ang. sum of minterms) oraz 

POM (z ang. product of maxterms). W pierwszej z tych architektur zbudowana reguła 

jeŜeli-to jest alternatywą koniunkcji, a w drugim przypadku - koniunkcją alternatyw. 

Zgodnie z twierdzeniem Shannona kaŜdą regułę logiczną moŜna przedstawić jako SOM 

lub POM. Do zaprezentowania reguły jeŜeli-to w postaci alternatywy koniunkcji w 

warstwie ukrytej umieszcza się neurony logiczne AND, a w warstwie wyjściowej OR. 

Warstwa 

wejściowa 

x 

x 

1 

2 

Warstwa ukryta h 

neuronów 

… AND 1 

x 

m 

x 1 

x 2 

… 

… 

AND h 

i 

Warstwa wyjściowa 

x m 

Rysunek 4-1. Schemat sieci neuronowej Pedrycza o architekturze SOM 

Dodatkowo w sieci Pedrycza w warstwie wejściowej umieszcza się wejścia 

zanegowane x , Ŝeby uzyskane reguły mogły operować na alternatywie, koniunkcji i 

negacji (rysunek 4-1). 

Rozmytą modyfikacją tejŜe sieci jest wprowadzenie na jej wejście nie wartości 

boolowskich, ale rozmytych tworząc sieci Mamdaniego, czy systemy neuronoworozmyte 

typu logicznego [73]. 

Uczenie sieci Pedrycza jest zmodyfikowanym algorytmem wstecznej propagacji. 

Algorytm ten w ogólności nakazuje wykonanie zmiany wagi neuronu 

OR 

∆ w w oparciu o

44 

wzór 4-29, gdzie 

α ∈ 0, 1 ⊂ R jest tzw. współczynnikiem nauczania, a E jest funkcją 

błędu. Najczęściej do ustalenia błędu uŜywana jest wartość błędu średniokwadratowego 

opisanego wzorem 4-30 dla wyjścia sieci o l neuronach i generalizowana do wzoru 4-31 

w przypadku sieci neuronowej o pojedynczym wyjściu, gdzie y to wartość uzyskanego 

sygnału wyjściowego z sieci, a d to oczekiwana tam wartość dla sieci o jednym wyjściu 

(odpowiednio y k oraz d k ze wzoru 4-30, to wartość uzyskana i oczekiwana na k-tym 

wyjściu z sieci). 

∂E 

∆w 

= α (4-29) 

∂w 

1 

∑ 

l 

2 

− 

2 

E = ( ) 

(4-30) 

k = 1 

1 

2 

y k 

d k 

2 

E = ( y − d ) 

(4-31) 

Oznaczmy przez: 

I – liczbę sygnałów wejściowych 

x – wektor wejść (o 2I współrzędnych: od 1 do I oznaczają wejścia proste, a od I+1 do 

2I – wejścia negowane) 

H – liczbę neuronów w warstwie ukrytej 

w – macierz wag ukrytych (gdzie w hi oznacza i-tą wagę h-tego neuronu ukrytego) 

z – wektor wyjść warstwy ukrytej 

v – wektor wag neuronu wyjściowego 

y – wyjście sieci 

Wobec powyŜszych oznaczeń i wzoru 4-31 moŜemy zapisać wzory 4-32 i 4-33. 

∂E 

∂E 

∂y 

∂y 

= ⋅ = ( y − d ) 

∂v 

∂y 

∂v 

∂v 

h 

h 

h 

(4-32) 

∂E 

∂w 

hi 

∂E 

∂y 

= ⋅ 

∂y 

∂w 

hi 

= 

( y − d ) 

∂y 

∂w 

hi 

(4-33) 

dla h∈{1, 2, ..., H}⊂ℵ, i∈{1, 2, ..., 2I}⊂ℵ. 

Definicja: 

t – norma oznacza funkcję t : 0,1 × 0,1 → 0, 1 , taką Ŝe: 

1. dla dowolnej wartości argumentu jest ona niemalejąca, 

tzn. dla x ≤ y i w ≤ z zachodzi x t w ≤ y t z , 

2. jest przemienna, tzn. x y y x 

t = t , 

x t y t z = x t y t z , 

3. łączna, tzn. ( ) ( ) 

4. i spełnia warunki: 

x t 0 = 0 , 

x t 1 = x , 

gdzie: x , y, 

z, 

w∈ 

0, 1 . Funkcja ta reprezentuje koniunkcję rozmytą swoich 

argumentów. Dla wartości {0,1} jest to klasyczna koniunkcja.

45 

Definicja: 

s – norma oznacza funkcję s : 0,1 × 0,1 → 0, 1 , taką Ŝe: 

1. dla dowolnej wartości argumentu jest ona niemalejąca, 

tzn. dla x ≤ y i w ≤ z zachodzi xs w ≤ y s z , 

2. jest przemienna, tzn. x s y = y s x , 

3. łączna, tzn. ( x y) s z xs( y s z) 

s = , 

4. i spełnia warunki: 

x s 0 = x , 

x s 1 = 1, 

gdzie: x , y, 

z, 

w∈ 

0, 1 . Funkcja ta reprezentuje alternatywę rozmytą swoich 

argumentów. Dla wartości {0,1} jest to klasyczna alternatywa. 

W neuronach typu OR moŜe być uŜyta [67] jako s-norma funkcja maximum, a 

operator AND zrealizowany moŜe zostać [67] poprzez funkcję minimum (jako t- 

norma), co prowadzi do wzorów 4-34 i 4-35. 

( v t z ) s( v t z ) s... 

s( v t z ) = S ( v t z ) 

h 

h 

H 

y = (4-34) 

1 

1 

2 

2 

h= 

1 

h 

h 

z 

h 

( w s x ) t( w s x ) t... 

t( w s x ) = T( w s x ) 

h1 

1 

h2 

2 

h2I 

2I 

2I 

= dla h∈{1, 2, ..., H}⊂ℵ. (4-35) 

i= 

1 

hi 

i 

PoniewaŜ funkcje nieciągłe nie są róŜniczkowalne w punktach nieciągłości, to 

zakłada się [67] ich róŜniczkowalność w sposób opisany wzorami 4-36 i 4-37. 

∂s( a, 

b) 

∂ max( a, 

b) 

⎧0 

dla a > b 

= 

= ⎨ 

(4-36) 

∂b 

∂b 

⎩1 

dla a ≤ b 

∂t ( a, 

b) 

∂ min( a, 

b) 

⎧1 

dla a ≥ b 

= = ⎨ 

(4-37) 

∂b 

∂b 

⎩0 

dla a < b 

Ze wzoru 4-34 uzyskujemy wzór na pochodną sygnały wyjściowego po h-tej 

wadze neuronu wyjściowego (wzór 4-38). 

∂y 

∂v 

h 

∂ 

= 

∂v 

h 

H 

⎡ 

S 

⎢⎣ 

k = 

⎤ 

⎥⎦ 

∂ 

∂v 

⎡ 

( v t z ) = ⎢ S ( v t z ) s( v t z ) ⎥ 

⎥ 

1 

k 

k 

h 

⎢⎣ 

H 

k = 1 

k ≠h 

k 

k 

h 

h 

⎤ 

⎦ 

(4-38) 

Oznaczmy: 

H 

A = S 

k = 1 

k ≠h 

h 

( v t z ) 

k 

k 

( v t z ) ( z t v ) 

B( v ) = = 

h 

h 

h 

h 

Wobec tych oznaczeń i wzoru na pochodną funkcji złoŜonej moŜna zapisać wzór 4-38 w 

postaci: 

∂ y ∂ 

∂s( 

A, 

B( 

vh)) 

∂B( 

vh 

= ( As 

B( 

vh) 

) = 

⋅ 

) 

∂v 

∂v 

∂v 

∂v 

h 

h 

Wobec wzorów 4-36 i 4-37 zapisujemy: 

h 

h

46 

∂ y ∂ max( A, 

B( 

vh 

)) ∂ min( zh 

, vh 

= 

⋅ 

) 

∂v 

∂v 

∂v 

h 

czyli: 

∂y 

∂v 

h 

⎧0 

= ⎨ 

⎩1 

co zapisać moŜna: 

∂y 

∂v 

h 

⎧0 

= ⎨ 

⎩1 

h 

dla A > B( 

vh 

) ⎫ ⎧1 

⎬ ⋅ ⎨ 

dla A ≤ B( 

vh 

) ⎭ ⎩0 

dla A = max( A, 

B( 

v )) 

dla B( 

v 

h 

) = max( A, 

B( 

v 

h 

h 

, 

dla zh 

≥ vh 

⎫ 

⎬ 

dla zh 

< vh 

⎭ 

h 

⎫ ⎧1 

⎬ ⋅ ⎨ 

)) ⎭ ⎩0 

dla v 

h 

dla z 

my, Ŝe wobec przyjętych oznaczeń i wzoru 4-38 zachodzi: 

max( A, 

B( 

vh )) = As 

B( 

vh 

) = y 

oraz 

( v t z ) = ( z t v ) min( z , v ) 

B ( vh 

) 

h h h h 

= 

h h 

= . 

MoŜemy więc zapisać, Ŝe: 

∂y 

⎧ 1 dla B( 

vh 

) = max( A, 

B( 

vh 

)) ∧ vh 

= min( z 

= ⎨ 

∂vh 

⎩0 

w przeciwnym przypadku 

czyli: 

∂y 

∂v 

h 

⎧1 

= ⎨ 

⎩0 

dla y = v 

h 

dla y ≠ v 

h 

h 

= min( zh 

, vh 

) ⎫ 

⎬ 

= min( zh 

, vh 

) ⎭ 

, v ) 

h 

h 

ZauwaŜ 

Wzór 4-38 wobec wzorów 4-36 i 4-37 zapisać moŜemy w postaci wzoru 4-39. 

∂y 

∂v 

h 

⎧1 

= ⎨ 

⎩0 

dla y = v 

h 

dla y ≠ v 

Ze wzoru 4-39 i 4-32 uzyskujemy wzór 4-40. 

∂E 

∂v 

h 

⎧y 

− d 

= ⎨ 

⎩0 

dla y = v 

dla y ≠ v 

h 

h 

h 

(4-39) 

dla h∈{1, 2, ..., H}⊂ℵ. (4-40) 

Wzór 4-40 jest wzorem na modyfikację wagi w neuronie wyjściowym. 

PoniewaŜ sieć Pedrycza dąŜy do uzyskiwania na wyjściach wartości logicznych 0 lub 1, 

to uzyskanie wartości wagi v h ∈〈0, 1〉⊂R wskazuje na konieczność jej modyfikacji. 

UŜyte jako normy funkcje minimum i maximum nie generują nowych wartości, a 

jedynie przyjmują te z uzyskanych argumentów, którymi są wartości wag i wartości 

wejść. Z tego powodu (i na podstawie wzoru 4-40) podczas uczenia się sieci wagi 

neuronu wyjściowego dąŜą do przyjęcia wartości logicznych 0 lub 1. 

W analogiczny sposób jak ze wzoru 4-32 uzyskano wzór 4-40, wykonujemy 

wyznaczenie (wzór 4-33) wzoru na modyfikację wagi w neuronie warstwy ukrytej 

zaczynając od wyznaczenia pochodnej sygnały wyjściowego po wadze neuronu 

warstwy ukrytej (wzór 4-41). 

∂y 

∂w 

hi 

= 

H 

∑ 

k = 1 

⎛ ∂y 

⎜ 

⎝ ∂zk 

∂z 

⋅ 

∂w 

k 

hi 

⎞ 

⎟ dla h∈{1, 2, ..., H}⊂ℵ, i∈{1, 2, ..., 2I}⊂ℵ. (4-41) 

⎠

PoniewaŜ jedynie wyjście h-tego neuronu ukrytego z h zaleŜy od wartości wagi w hi co 

daje niezerową pochodną, to wzór 4-41 moŜemy zapisać w postaci 4-42. 

∂y 

∂w 

hi 

∂y 

= 

∂z 

h 

∂z 

⋅ 

∂w 

h 

hi 

dla h∈{1, 2, ..., H}⊂ℵ, i∈{1, 2, ..., 2I}⊂ℵ. (4-42) 

Analogicznie do przekształcenia wzoru 4-38 w 4-39 moŜemy zapisać wzór 4-43 i 4-44 

jako rozwinięcie wzoru 4-42. 

∂y 

∂z 

h 

47 

⎧1 dla y = zh 

= 

(4-43) 

⎨ 

⎩0 

dla y ≠ zh 

∂z 

∂w 

h 

hi 

= 

∂ 

∂w 

hi 

2I 

⎡ 

T 

⎢⎣ 

j= 

⎡ 

∂ 

2I 

( w s x ) 

⎤ 

= ⎢ T ( w s x ) t( w s x ) ⎥ 

⎥ 

1 

hj 

j 

⎥⎦ 

∂w 

hi 

⎢⎣ 

j= 

1 

j≠i 

hj 

j 

hi 

i 

⎤ 

⎦ 

(4-44) 

Oznaczmy: 

A = 

I 

T 2 

j= 

1 

j≠i 

hi 

( w s x ) 

hj 

j 

( w s x ) ( x s w ) 

B ( w ) = = 

hi 

i 

i 

hi 

Wobec tych oznaczeń i wzoru na pochodną funkcji złoŜonej moŜna zapisać wzór 4-44 

w postaci: 

∂ zh 

∂ 

∂ t( A, 

B( 

whi 

)) ∂B( 

whi 

) 

= ( AtB( 

whi 

)) 

= 

⋅ 

∂w 

∂w 

∂w 

∂w 

hi 

hi 

Wobec wzorów 4-36 i 4-37 zapisujemy: 

∂ zh 

∂ min( A, 

B( 

whi 

)) ∂ max( xi 

, whi 

) 

= 

⋅ 

∂whi 

∂whi 

∂whi 

czyli: 

∂z 

∂w 

h 

hi 

⎧1 

= ⎨ 

⎩0 

dla A ≥ B( 

w 

hi 

dla A < B( 

w 

hi 

) ⎫ ⎧0 

⎬ ⋅ ⎨ 

) ⎭ ⎩1 

co zapisać moŜna: 

∂z 

⎧1 

dla B( 

whi 

) = min( A, 

B( 

w 

h 

= ⎨ 

∂whi 

⎩0 

dla A = min( A, 

B( 

whi 

)) 

ZauwaŜmy, Ŝe: 

min( A , B( 

w )) = At B( 

w ) = z 

oraz 

hi 

hi 

h 

hi 

dla x > w 

dla x ≤ w 

hi 

i 

i 

)) ⎫ ⎧0 

⎬ ⋅ ⎨ 

⎭ ⎩1 

( w s x ) = ( x s w ) max( x , w ) 

B ( whi 

) = 

hi i i hi 

= 

i hi 

MoŜemy więc zapisać: 

hi 

hi 

hi 

⎫ 

⎬ 

⎭ 

dla x 

i 

dla w 

hi 

= max( xi 

, whi 

) ⎫ 

⎬ 

= max( xi 

, whi 

) ⎭ 

∂z 

h 

∂w 

hi 

⎧ 1 dla B( 

whi 

) = z 

h 

∧ whi 

= B( 

w 

= ⎨ 

⎩0 

w przeciwnym przypadku 

hi 

) ⎧1 

= ⎨ 

⎩0 

dla z 

dla z 

h 

h 

= w 

≠ w 

hi 

hi 

Wzór 4-44 zapiszmy w postaci wzoru 4-45. 

∂z 

∂w 

h 

hi 

⎧1 

= ⎨ 

⎩0 

dla z 

h 

dla z 

h 

= w 

hi 

≠ w 

hi 

dla h∈{1, 2, ..., H}⊂ℵ, i∈{1, 2, ..., 2I}⊂ℵ. (4-45)

48 

Wobec wzoru 4-45 i 4-43, wzór 4-42 moŜemy zapisać w postaci 4-46. 

∂y 

∂w 

hi 

⎧1 

= ⎨ 

⎩0 

dla y = z 

h 

dla y ≠ z 

h 

⎫ ⎧1 

⎬ ⋅ ⎨ 

⎭ ⎩0 

dla z 

h 

dla z 

h 

= w 

hi 

≠ w 

hi 

⎫ ⎧1 

⎬ = ⎨ 

⎭ ⎩0 

dla h∈{1, 2, ..., H}⊂ℵ, i∈{1, 2, ..., 2I}⊂ℵ. 

dla y = w 

hi 

dla y ≠ w 

hi 

(4-46) 

Wobec wzoru 4-46 wzór 4-33 będący wzorem określającym sposób modyfikacji 

wag w ukrytej warstwie neuronów uzyskujemy wzór 4-47. 

∂E 

∂w 

hi 

⎧ y − d 

= ⎨ 

⎩0 

dla y = w 

dla y ≠ w 

hi 

hi 

dla h∈{1, 2, ..., H}⊂ℵ, i∈{1, 2, ..., 2I}⊂ℵ. (4-47) 

Z wyprowadzonych wzorów 4-40 i 4-47, opisujących sposób modyfikacji wag 

neuronów w warstwie wyjściowej oraz warstwie ukrytej, moŜna wnioskować, Ŝe wagi 

te dąŜyć będą podczas uczenia sieci do wartości logicznych 0 lub 1. UmoŜliwi to 

prześledzenie w strukturze wag sieci przebiegu sygnału wejściowego, aŜ do uzyskania 

sygnału wyjściowego i zapisanie reguły jeŜeli-to („jeŜeli wejście, to wyjście”). Tym 

sposobem architektura sieci neuronowej Pedrycza koduje reguły jeŜeli-to, które mogą 

posłuŜyć do np. klasyfikacji. 

Pewnym problemem związanym z uzyskiwaniem reguł jeŜeli-to przedstawioną 

metodą jest fakt, Ŝe opisana sieć neuronowa traktuje dane wejściowe jako dane typu 

wyliczeniowego, przez co traci zdolność do generalizacji. Generalizacja ta miałaby 

polegać na łączeniu „sąsiednich” wejść ze sobą (tj. takich wejść, które opisują sąsiednie 

obszary przestrzeni liczb rzeczywistych). Dopiero dzięki temu moŜna uzyskiwać 

niewiele ogólnych reguł (tj. opisujących duŜe obszary analizowanej przestrzeni), a 

wobec braku tego mechanizmu uzyskuje się duŜo reguł szczegółowych. Wiedza zawarta 

w regułach jest najcenniejsza dla człowieka, jeŜeli reguł tych jest niewiele, przez co są 

łatwe do przeanalizowania. W przypadku reguł licznych program realizujący ich uŜycie 

będzie działać poprawnie, ale zrozumienie zasad jego działania przez człowieka będzie 

trudne. Tak więc, czy to uŜywając sieci Pedrycza, czy jej rozmytej implementacji (z 

rozmytymi neuronami na wejściu – gdzie „rozmytość” uzyskuje się poprzez 

kwantowanie wartości funkcji przynaleŜności z zadaną dokładnością) naleŜy uzyskać 

uprzednio odpowiednio zgeneralizowany zestaw danych uczących (czy to dzięki intuicji 

badacza, czy metodami algorytmicznymi np.: połowienia przedziałów). W przypadku 

trudnoseparowalnych danych uczących moŜna uzyskać bardzo liczny zbiór danych 

wejściowych, co będzie skutkowało znaczącym brakiem generalizacji uzyskanych reguł 

jeŜeli-to.

49 

5. Generowanie i genetyczna redukcja rozmytych reguł klasyfikujących 

Zaproponowany algorytm generowania reguł klasyfikujących (bazujący na [42]) 

polega na podziale całej przestrzeni danych uczących na mniejsze obszary (klastry) i na 

przyporządkowaniu kaŜdemu z nich rozmytej reguły jeŜeli-to. Jednak stosując taką 

metodę moŜna otrzymać wielką liczbę reguł, co często czyni metodę nieefektywną, 

natomiast zawsze uniemoŜliwia (lub znacznie utrudnia) interpretację wyników przez 

człowieka i pozyskiwanie przez niego wiedzy. Próba zastosowania wielkiej liczby reguł 

klasyfikujących w systemie ekspertowym [63] spowoduje powolne jego działanie i brak 

moŜliwości przejrzystego uzasadnienia wykonanej klasyfikacji. W celu zmniejszenia 

liczby reguł niezbędnych do wykonania klasyfikacji zastosowany został algorytm 

genetyczny. 

5.1. Generowanie reguł rozmytych 

Niech dany będzie niepusty zbiór danych uczących D zawarty w n-wymiarowej 

przestrzeni liczb rzeczywistych D⊂R n (i n∈ℵ) o mocy ||D||. PoniewaŜ w symulacjach 

komputerowych nie moŜna wyrazić zbiorów nieskończonych, to moc zbioru D jest teŜ 

jego licznością. Z tego samego powodu kaŜdy z rzeczywistych wymiarów X m (gdzie 

m∈{1,2,...,n}), na którym rozpięty został zbiór D, jest odcinkiem (5-1). 

m 

1 2 

n 1 1 

2 2 

n n 

D ⊂ X × X × ... × X = xmin 

, xmax 

× xmin 

, xmax 

× ... × xmin 

, x 

∧ max 

(5-1) 

m 

m 

m 

m 

xmin 

= min{ x ; i ∈{1,2,...,|| 

D ||}} xmax 

= max{ x ; i ∈{1,2,...,|| 

D ||}} 

∈{1,2,..., 

n} 

i 

i 

n∈ℵ 

Przyjmijmy ponadto, Ŝe dla kaŜdego z wymiarów X m nie zachodzi przypadek, iŜ 

m 

odcinek jest zbiorem jednoelementowym { x 0 

} (gdy 

x 

m m 

0 

xmin 

= 

= x ), poniewaŜ 

wymiar taki nie niesie ze sobą istotnych informacji umoŜliwiających klasyfikację (5-2). 

m 

1 2 

n 1 1 

2 2 

n n 

D ⊂ X × X × ... × X = xmin 

, xmax 

× xmin 

, xmax 

× ... × xmin 

, x 

∧ max 

(5-2) 

m 

m 

m 

m 

xmin 

= min{ x ; i ∈{1,2,...,|| 

D ||}} < xmax 

= max{ x ; i ∈{1,2,...,|| 

D ||}} 

∈{1,2,..., 

n} 

i 

i 

n∈ℵ 

Stosowany w obliczeniach komputerowych system zapisu liczb zmiennoprzecinkowych 

powoduje, Ŝe największa precyzja obliczeń jest w okolicy zera [71]. Z tego powodu 

przekonwertujmy zbiór D na zbiór D’ tak, aby zawierał się on w przestrzeni 〈0,1〉 n i 

m 

max

50 

odwzorowanie konwertujące 

k : D 

→ D' 

niech będzie odwzorowaniem wzajemnie 

o. 

w. 

j. 

jednoznacznym. Przykładowo taka konwersja moŜliwa jest za pomocą wzoru (5-3). 

{[ x' 

1 

1 

, x' 

2 

1 

,... x' 

n 

1 

∧ 

m∈{1,2,..., 

n} 

n∈ℵ 

],...,[ x' 

1 

|| D|| 

, x' 

o∈{1,2,...,|| 

D||} 

2 

|| D|| 

∧ 

,... x' 

n 

|| D|| 

x' 

m 

o 

= 

x 

x 

m 

o 

m 

max 

− x 

− x 

n 

m 

min 

m 

min 

]} = D' 

⊂ 0,1 × 0,1 × ... × 0,1 = 

1444 

24443 

Przyjmijmy ponadto, Ŝe cała przestrzeń 〈0,1〉 n jest obszarem dopuszczalnym. 

razy 

0,1 

n 

(5-3) 

Przestrzeń 〈0,1〉 n dzielona jest na K n podobszarów rozmytych 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

, gdzie kaŜdy z n zbiorów rozmytych 

1 2 

n 

K 

A 

i m 

(i m∈{1,2,...,n}) 

wyznaczonych dla podziału K określony jest przez trójkątną funkcję przynaleŜności 

µ : 0,1 → 0,1 danej wzorem (5-4). 

K 

i m 

∧ 

∧ 

m∈{ 1,2,..., n} 

K∈{2,..., 

Kmax} 

n∈ℵ 

i ∈{1,2,..., 

K} 

m 

gdzie 

a 

K 

i 

m 

m K 

⎪ 

⎧ x − a ⎪ 

⎫ 

K m 

im 

µ ( x ) = max⎨1 

− ,0 

K ⎬ 

(5-4) 

im 

b ⎪⎩ 

⎪⎭ 

im 

−1 

= 

K −1 

b 

K 

1 

= 

K −1 

Rysunek 5-1. Podział odcinka jednostkowego 〈0,1〉 przez K=5 trójkątnych 

K 

funkcji przynaleŜności µ : 0,1 0, 1 (opisanych wzorem 5-4) na 

podobszary rozmyte 

K 

A 

i 1,2,... 

K 

rozmytego na przykładzie 

i=1,2,..., 

K 

→ 

= 

. Zaznaczono zasadę tworzenia podobszaru 

A . 

K = 5 

i= 

4 

Do kaŜdego podobszaru 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

przypisana jest reguła rozmyta 

1 2 

n 

jeŜeli-to 

K 

R 

i i2... 

im 

... i 

słuŜąca do klasyfikacji danych, która brzmi: 

1 n

51 

"JeŜeli n-wymiarowy obiekt x=(x 1 ,x 2 ,...,x m ,...,x n ) naleŜy do podobszaru 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

(gdzie indeksy i 

1 2 

n 

1 ,i 2 ,..,i m ,...,i n ∈{1,2,...,K} i K 

jest liczbą podziałów), to jest on klasy 

K 

C 

i i2 ... im 

... i 

z pewnością 

1 n 

1 K 2 K m K n K 

( ) ⋅ µ ( x ) ⋅... ⋅ µ ( x ) ⋅ ⋅ µ ( x ) ⋅CF 

µ ". 

K 

i 

x 

i 

i 

i 

i i ... i ... i 

... 

1 2 

m 

n 

1 2 

m 

n 

Klasa 

K 

C 

i i2 ... im 

... i 

przypisana do reguły 

1 n 

K 

R 

i i2... 

im 

... i 

jest klasą ze zbioru wszystkich klas CT, 

1 n 

co zapisujemy 

K 

C 

i i2 ... im 

... i 

∈ CT (dla T∈{1, 2, ...,M}⊂ℵ i M jest liczbą klas) i 

1 n 

K 

CF 

i i2... 

im 

... i 

∈R + ∪{0}. 

1 n 

W celu wyznaczenia reguły 

K 

R 

i i2... 

im 

... i 

reguły i wyznaczyć wartość zaufania 

naleŜy określić klasę 

1 n 

K 

CF 

i i2... 

im 

... i 

(algorytm 5-1). 

1 n 

K 

C 

i i2 ... im 

... i 

przypisaną do tej 

1 n 

Algorytm 5-1: Tworzenie reguły 

Krok 1: 

R K 

i1 

i2... 

im 

... i 

n 

Dla kaŜdej klasy CT 0 (gdzie T 0 ∈{1, ..., M} i M jest liczbą klas) naleŜy 

wyznaczyć β CT0 

jako sumę zgodności wszystkich elementów uczących 

1 2 m 

x u =( x , x ,..., x ,..., x 

u 

u 

u 

n 

u 

) i u∈{1,2,...,||D’||} ze zbioru D’⊂〈0,1〉 n będących 

klasy CT 0 względem funkcji przynaleŜności 

wyznaczających regułę 

∧ 

T0∈{1,2,..., 

M } 

β 

CT0 

= 

K 

R 

i i2... 

im 

... i 

|| D'|| 

K 

∑ µ 

i1 

u= 

1 

1 2 m n 

x = [ x , x ,... x ,... x ] ∈D' 

u 

u 

u 

u 

Klasa( 

xu 

) = CT0 

n 

1 

(wzór 5-5). 

u 

i2 

µ µ ,..., µ 

m 

,..., µ 

, 

1 2 

K 

i 

K 

i 

1 K 2 K m K n 

( x ) ⋅ µ ( x ) ⋅... 

⋅ µ ( x ) ⋅... 

⋅ µ ( x ) 

Krok 2: NaleŜy znaleźć klasę CT 1 o maksymalnej wartości β CT1 

(5-6). 

Krok 3: 

u 

u 

im 

u 

in 

u 

K 

i 

K 

i 

n 

(5-5) 

β CT1 

= max {β C1 , ..., β CM } (5-6) 

JeŜeli β CT1 

=0 lub występują dwie lub więcej klas, dla których wyznaczone 

wartości β CT0 

przyjmują maksymalną wartość, to wtedy klasa 

K 

R 

i i2... 

im 

... i 

C K 

i1 

i2 ... i ... i 

K 

przypisana do reguły nie jest definiowana i zaufanie 

1 n 

i1 

i2... 

im 

in 

do takiej reguły wynosi 0. Reguła taka nazywana jest regułą nieistotną. W 

K 

pozostałych przypadkach klasą C 

i i2 ... im 

... i 

jest klasa CT 

1 n 

1 . 

K 

JeŜeli zaufanie CF 

i i im 

... i 

nie zostało określone jako 0 w kroku 2, to 

1 2... n 

wyznacza się je wzorem (5-7). 

CF 

K 

i1i 

2 ... im 

... in 

β 

CT 

− β 

1 

, gdzie β = 

β 

= M 

∑ 

T = 1 

CT 

M 

∑β 

CT 

T = 1 

T≠T1 

M −1 

m 

CF ... 

n 

(5-7)

52 

Realizację algorytmu 5-1 naleŜy rozpocząć od podziału K=2. Po wygenerowaniu 

zbioru S K reguł rozmytych jeŜeli-to dla zadanego K, naleŜy zwiększyć wartość K o jeden 

i powtórzyć cały algorytm. Powtarzanie algorytmu naleŜy zakończyć, jeŜeli dla 

bieŜącego K (nazywanego teraz K max ) wszystkie reguły 

K 

R 

i i2... 

im 

... in 

poprawnie sklasyfikować wszystkie elementy ze zbioru uczącego D’. 

1 

ze zbioru S K potrafią 

NaleŜy zauwaŜyć, Ŝe wzór (5-7) określający zaufanie 

spełnia dwa wymogi zgodne z intuicją: 

K 

CF 

i i2... 

im 

... in 

1 

do klasyfikacji 

a) JeŜeli β CT1 

>0 i dla kaŜdej wartości T 0 ≠ T 1 β CT0 

=0, to oznacza Ŝe wszystkie 

elementy ze zbioru uczącego D mogące dać wynik ze wzoru (5-5) większy od 

K 

zera naleŜą do jednej klasy CT 1 . Wtedy zaufanie CF 

i i im 

... i 

=1, czyli 

1 2... n 

klasyfikacja jest pewna. 

b) JeŜeli dla kaŜdego T 0 wartości β CT0 

niewiele się od siebie róŜnią, to 

K 

CF 

i i2... 

im 

... in 

1 

≈0, czyli klasyfikacja nie jest pewna. 

Algorytm 5-2 umoŜliwia [42] klasyfikację dowolnego obiektu 

x=(x 1 ,x 2 ,...,x m ,...,x n ) na podstawie zbioru reguł S K wygenerowanych dla zadanego K. 

Algorytm 5-2: Klasyfikacja n-wymiarowego obiektu x=(x 1 ,x 2 ,...,x m ,...,x n ) za pomocą 

reguł ze zbioru S K 

Krok 1: 

Krok 2: 

NaleŜy wyznaczyć α CT0 

dla kaŜdej klasy CT 0 (gdzie T 0 ∈{1,2,...,M} i M jest 

ilością klas) wg zaleŜności (5-8). 

{ 

K ( 

1 ) 

K ( 

2 ) 

K ( 

m ) 

K ( 

n ) 

K 

∧ ∧ α 

CT 

= max µ 

i 

x ⋅ µ 

K 

i 

x ⋅... 

⋅ µ 

i 

x ⋅... 

⋅ µ 

m 

i 

x ⋅ CF 

0 

1 

2 

n 

i1i 

... im 

... in 

} (5-8) 

T { 1,2,..., M } 

2 

0∈ 

Ci 

i CT 

2 ... im ... = 

1 in 0 

i1 

, i2 

,..., im 

,... in∈{1,2,..., 

K} 

K 

K 

Ri 

i i m ... i n 

S 

1 2 ... ∈ 

NaleŜy wyznaczyć klasę CT 1 taką, Ŝe: 

α CT1 

= max {∝ C1 , ..., ∝ CM } (5-9) 

Wynikiem tego algorytmu jest klasa CT 1 . JeŜeli dwie lub więcej klas 

przyjmuje maksymalne wartości α CT0 

we wzorze (5-9) lub wszystkie 

wartości 

klasyfikowany. 

α CT0 

są zerem, to element x=(x 1 ,x 2 ,...,x m ,...,x n ) nie jest

53 

Rysunek 5-2. Utrata wpływu na klasyfikację reguły 

rzecz reguły 

K = 2 

i= 

1 

K = 2 

R o zaufaniu CF 0, 5 na 

K = 2 

i= 

2 

K = 2 

R o zaufaniu CF 1. 

i= 

1 

= 

i= 

2 

= 

NaleŜy tu zwrócić uwagę, Ŝe we wzorze (5-8) uŜyto do wyznaczania wielkości 

α CT0 

zaufania do klasyfikacji 

K 

CF 

i i2... 

im 

... in 

1 

z reguły 

K 

R 

i i2... 

im 

... in 

1 

. PoniewaŜ wartość owego 

zaufania naleŜy do przedziału 〈0,1〉, to iloczyn zaufania 

K 

CF 

i i2... 

im 

... in 

1 

i wartości 

K 1 K 2 

µ ( x ) ⋅ µ ( x ) ⋅... 

⋅ 

K m 

µ ( x ) ⋅... 

⋅ 

K n 

µ ( x ) moŜe ulec zmniejszeniu w stosunku do 

m 

i1 

i2 

i 

in 

K 1 K 2 

wartości µ ( x ) ⋅ µ ( x ) ⋅... 

⋅ 

K m 

µ ( x ) ⋅... 

⋅ 

K n 

µ ( x ) . Dzięki temu wpływ reguły 

m 

i1 

i2 

i 

in 

R K 

i1 

i2... 

im 

... in 

z obszaru 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

moŜe ulec zmniejszeniu na korzyść reguł 

1 2 

n 

przypisanych do obszarów sąsiadujących z 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

(czyli obszarów 

1 2 

n 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

j j 

j 

j 

gdzie kaŜdy z indeksów j 

1 2 

n 

m (i m∈{1,2,...,n} i n – liczba 

wymiarów) moŜe przyjmować wartości ze zbioru {i m -1, i m , i m +1}) – rysunek 5-2. 

Przykład 5-1 

Niech będzie określony [42] zbiór danych uczących D=D’ zawarty w przestrzeni 

〈0,1〉×〈0,1〉. Niech składa się on z danych dwóch klas: C1 i C2. 

C1 

0.31, 0.92 

0.32, 0.82 

0.20, 0.69 

0.19, 0.55 

0.06, 0.43 

0.29, 0.41 

0.18, 0.31 

0.03, 0.17 

0.02, 0.09 

0.17, 0.07 

C2 

0.50, 0.99 

0.55, 0.83 

0.31, 0.69 

0.43, 0.57 

0.42, 0.32 

0.69, 0.31 

0.29, 0.18 

0.18, 0.17 

0.87, 0.12 

0.30, 0.09 

Tabela 5-1. Zbiór D Rysunek 5-3. Zbiór D w przestrzeni 〈0,1〉×〈0,1〉

54 

Wykonajmy algorytm 5-1 dla K=2. Dla przestrzeni dwuwymiarowej realizację algorytmu 

5-1 wykonuje program kulki.exe (mojego autorstwa). 

Rysunek 5-4. Zbiór reguł S 2 i ich wpływ na klasyfikację - objaśnienia w tekście 

Na rysunku 5-4 w oknie „Prawa” kolorem jasnozielonym zaznaczone są reguły z 

przypisaną klasą C1, a kolorem błękitnym – z przypisaną klasą C2. Jak pokazuje jednak 

okno „Linia podziału” [26] z rysunku 5-4 wpływ poszczególnych reguł na klasyfikację 

rozmytą jest nieco inny niŜ obszary rozmyte uzyskane w algorytmie 5-1. W oknie „Linia 

podziału” z rysunku 5-4 kolorem niebieskim zaznaczono obszar, w którym obiekty 

zostałyby zaklasyfikowane do C1 przez reguły z S 2 , a kolorem czerwonym – do C2. 

Przyczyną róŜnic są róŜne wartości zaufania przypisane do poszczególnych reguł, a mające 

wpływ na pewność wykonywanej klasyfikacji (wzór 5-8), co przedstawia rysunek 5-5. 

Rysunek 5-5. Wpływ zaufania na pewność wykonywanej klasyfikacji α CT1 

zbioru reguł S 2 (i, j odpowiadają osiom x, y z rysunku 5-3). 

(wzór 5-8) dla 

Rysunek 5-6. Zbiory S 3 , S 4 , S 5 , S 6 (znaczenie kolorów jak na rysunku 5-4, kolor czarny 

oznacza regułę nieistotną)

55 

Rysunek 5-7. Klasyfikacja przez reguły ze 

zbioru S K=6 (znaczenie kolorów jak na 

rysunku 5-4, kolor czarny oznacza brak 

klasyfikacji) 

Rysunek 5-8. Klasyfikacja przez wszystkie 

reguły (wzór 5-8 rozwinięty do zbioru reguł 

S 2 ∪ S 3 ∪ S 4 ∪ S 5 ∪ S 6 ) 

Realizując algorytm 5-1 otrzymujemy kolejne zbiory reguł S 3 , S 4 , S 5 , S 6 aŜ do uzyskania 

ostatecznego podziału K max =6. Porównując rysunki 5-7 i 5-8 przedstawiające klasyfikację 

regułami ze zbioru S 6 i S 2 ∪ S 3 ∪ S 4 ∪ S 5 ∪ S 6 warto zauwaŜyć, Ŝe wzięcie pod uwagę przy 

klasyfikacji reguł z pierwszych podziałów (wzór 5-14) zmniejsza szansę na pojawienie się 

obszarów, w których klasyfikacja nie moŜe być wykonana (czarne obszary na rysunku 5-7). 

5.2. Redukcja liczby reguł poprzez zmniejszanie liczby podziałów 

Podczas realizacji algorytmu 5-1 w ostatnim wykonanym podziale K max 

uzyskujemy zbiór 

Kmax 

S rozmytych reguł jeŜeli-to zdolnych poprawnie klasyfikować 

(algorytm 5-2) wszystkie dane uczące ze zbioru D’. 

∧ S K = 

K∈ { 2,..., Kmax} 

Jednak liczność uzyskanego zbioru 

( K ) n 

(5-10) 

Kmax 

S (wzór 5-10) moŜe przewyŜszać 

liczność zbioru ||D||=||D’|| (z powodu zastosowania podziału na podobszary rozmyte), 

co czyni metodę nieefektywną. MoŜemy zredukować liczbę uzyskanych reguł, jeŜeli 

zastąpimy je regułami uzyskanymi z poprzednich podziałów. W celu sformalizowania 

tej redukcji wprowadźmy jeszcze pojęcia zbiorów S i A (wzory 5-11, 5-12, 5-13). 

S 

2 3 

K 

Kmax 

K 

= S ∪ S ∪... 

∪ S ∪... 

∪ S = S 

(5-11) 

U 

K∈{2,..., 

K max} 

S 

( K ) n 

+ ... ( K ) n 

2 n + 3 

n + ... + + 

= (5-12) 

max 

A ⊆ S M ≤ A ≤ S 

(5-13) 

Zbiór S jest zbiorem wszystkich wygenerowanych reguł rozmytych, a zbiór A 

jest zbiorem reguł wybranych do klasyfikacji. Klasyfikacja nowego obiektu 

x=(x 1 ,x 2 ,...,x m ,...,x n ) wg reguł naleŜących do zbioru A odbywa się analogicznie do 

algorytmu 5-2 tylko wzór (5-8) dotyczy reguł ze zbioru A (wzór 5-14).

K 1 K 2 K m K n K 

∧ ∧ α { µ ( ) ⋅ µ ( x ) ⋅... 

⋅ µ ( x ) ⋅... 

⋅ µ ( x ) ⋅CF 

} 

CT 

= max 

i 

x 

i 

i 

i 

i i i i 

T M 

K 

m 

n 

... m ... 

{ 1,2,..., } 

0 

1 

2 

1 2 n 

0∈ 

Ci 

i i i CT 

2 

i , i ,..., i i K 

m n 

m ,... n {1,2,..., } 

... ... = 

1 

0 

1 2 ∈ 

K 

K 

Ri 

i i m ... i n 

A S S 

1 2 ... ∈ ⊆ = U 

K 

56 

(5-14) 

W celu zmniejszenia liczności uzyskanego zbioru S naleŜy zakończyć wcześniej 

algorytm generowania reguł 5-1. W tym celu proponuje się [2] dokonywanie kolejnych 

podziałów K tylko w obszarach decyzyjnie trudnych – tj. w obszarach, gdzie 

wygenerowana reguła nie realizuje poprawnej w 100% klasyfikacji. Inne prace 

proponują stosowanie metody spadku gradientu ([56], [39], [64]), zastosowanie 

samogenerujących się reguł sterowanych siecią neuronową ([37], [38], [90]) lub 

algorytmem genetycznym ([65]). 

Przykład 5-2 

Niech w obszarze X=〈0,1〉 obszarem trudnym decyzyjnie będą okolice 

punktu 0, a obszarem łatwym decyzyjnie okolice punktu 1. W celu 

zmniejszenia liczby realizacji algorytmu 5-1 moŜna zastosować 

przykładowo funkcję daną wzorem 5-15. 

N 

g ( x) 

= −1⋅ 

x −1 

+ 1, gdzie N ∈ 1,∞ 

) ⊂ R 

(5-15) 

Rysunek 5-9. Wykres funkcji g (wzór 5-15) - indeks dla funkcji g i 

parametru N wprowadzono w celu zaznaczenia, Ŝe funkcja jest opisana w X 

KaŜda z tych metod jest dość wydajna i umoŜliwia uzyskanie niewielkiej ilości reguł. 

Jednak są to metody skomplikowane obliczeniowo, a przez to trudne do objaśnienia 

podczas wdroŜeń systemów informatycznych [11] praktycznie ich uŜywających. Prostą 

metodą i nieskomplikowaną obliczeniowo jest transformacja przestrzeni danych 

uczących 〈0,1〉 n w przestrzeń 〈0,1〉 n tak, aby obszary decyzyjnie trudne zostały 

powiększone, a obszary decyzyjnie łatwe zostały pomniejszone. W tym celu naleŜy 

ustalić odpowiednią funkcję transformującą 

n 

h : 0,1 → 0, 1 (będącą 

o. 

w. 

j. 

n 

odwzorowaniem wzajemnie jednoznacznym) dobraną do warunków konkretnego

zadania. W celu uproszczenia (przykład 5-2) doboru funkcji transformującej zastosujmy 

n razy (na kaŜdym z n-wymiarów przestrzeni 〈0,1〉 n ) funkcję g : 0,1 → 0, 1 . 

o. w. 

j. 

Po konwersji punktów uczących za pomocą wybranej funkcji g uzyskujemy 

zbiór danych uczących D”. W zbiorze tym wykonujemy generowanie reguł uczących 

zgodnie z algorytmem 5-1 przy czym trójkątne funkcje przynaleŜności (5-4) ze wzoru 

5-5 określone są juŜ na wartościach funkcji g w punkcie, co daje efekt zastosowania 

specjalnie zmodyfikowanych funkcji trójkątnych w zbiorze D’ (wzór 5-16). 

∧ 

∧ 

m∈{ 1,2,..., n} 

K∈{2,..., 

Kmax} 

n∈ℵ 

i ∈{1,2,..., 

K} 

Przykład 5-3 

m 

gdzie 

a 

K 

i 

m 

1 

= 

K −1 

m 

( x ) 

57 

K 

⎪ 

⎧ g − a ⎪ 

⎫ 

K m 

m 

im 

µ " ( x ) = max⎨1 

− 

,0 

K ⎬ (5-16) 

im 

b ⎪⎩ 

⎪⎭ 

im 

−1 

= 

K −1 

b 

K 

Do wykonania konwersji zbioru D’ w D” zastosujmy funkcję g daną 

wzorem 5-15 dla wartości parametru N=3. Wykonanie podziału zbioru D” 

funkcjami trójkątnymi zgodnie z algorytmem 5-1 sprowadza się do 

wykonania takiego samego podziału na zbiorze D’ ale za pomocą funkcji 

danej wzorem 5-16. 

Rysunek 5-10. Wykresy funkcji przynaleŜności danych wzorem 5-16 

dla funkcji g danej wzorem 5-15 i wartości parametru N=3 

(dla porównania z rysunkiem 5-1 zaznaczono funkcję wyznaczającą 

K = 5 

obszar A ) dla podziałów K=2, K=3, K=4 i K=5. 

i= 

4

58 

Konwersja zbioru D’ w D” umoŜliwia cofnięcie konwersji zbioru D w D’ i 

zastosowanie innej niŜ zaproponowana we wzorze 5-3 konwersji np.: za pomocą funkcji 

arcus tangens lub tangens hiperboliczny. MoŜliwe jest teŜ dostrojenie kształtu funkcji 

przynaleŜności (5-16) poprzez zastosowanie sieci neuronowych [43], jednak celem 

dobrania funkcji g jest zmniejszenie liczby podziałów wykonywanych podczas 

realizacji algorytmu 5-1, a nie minimalizacja tej liczby. 

Oprócz konwersji zbioru D’ w D” prostym sposobem na zmniejszenie liczby 

podziałów K max niezbędnych do wykonania w algorytmie 5-1, aby otrzymać zbiór reguł 

K 

S max 

poprawnie klasyfikujących wszystkie dane uczące w zbiorze D”, jest sztuczne 

powiększenie analizowanego zbioru D. Zaproponowany sposób konwersji zbioru D w 

D’ (wzorem 5-3) posiada pewną wadę: niektóre dane uczące leŜą na granicy zbioru D’, 

a są to dane o współrzędnych w m-tym wymiarze: 

m 

x max 

, 

m 

x min 

(wzór 5-3). Takie dane 

klasyfikowane są w m-tym wymiarze przez jedną rozmytą regułę jeŜeli-to (reguła o 

odpowiednio indeksie 1 lub K dla kaŜdego podziału K), a niemal wszystkie pozostałe 

dane przez dwie reguły (rysunek 5-1 lub 5-10). MoŜe to być przyczyną słabszej nieco 

klasyfikacji na brzegach zbioru D’ i dlatego proponuję zmianę wzorów 5-2 i 5-3 

konwertujących zbiór D na D’ na odpowiednio 5-17 i 5-18. 

∧ 

m∈{1,2,..., 

n} 

n∈ℵ 

x' 

D ⊂ X 

m 

min 

1 

× X 

= min{ x 

m 

i 

2 

× ... × X 

n 

= 

x' 

, x' 

; i ∈{1,2,...,|| 

D ||} − ∆x 

∧ 

m∈{1,2,..., 

n} 

n∈ℵ 

1 

min 

∆x 

1 

max 

m 

min 

m 

min 

, ∆x 

× x' 

< 

m 

max 

2 

min 

x' 

∈ R 

, x' 

m 

max 

+ 

2 

max 

= max{ x 

∪ 

{ 0} 

× ... × 

m 

i 

x' 

n 

min 

, x' 

n 

max 

; i ∈{1,2,...,|| 

D ||} + ∆x 

m 

max 

(5-17) 

{[ x' 

1 

1 

, x' 

2 

1 

,... x' 

n 

1 

∧ 

m∈{1,2,..., 

n} 

n∈ℵ 

],...,[ x' 

1 

|| D|| 

, x' 

o∈{1,2,...,|| 

D||} 

2 

|| D|| 

∧ 

,... x' 

n 

|| D|| 

x' 

m 

o 

x 

= 

x' 

m 

o 

m 

max 

− x' 

−x 

n 

m 

min 

m 

' 

min 

]} = D' 

⊂ 0,1 × 0,1 × ... × 0,1 = 

1444 

24443 

razy 

0,1 

n 

(5-18) 

Obie zaproponowane metody 

- konwersja zbioru D’ w D” 

- sztuczne powiększenie analizowanego zbioru D 

mogą (co zostało potwierdzone obliczeniowo w rozdziale 7.4) zmniejszyć liczbę K max 

realizacji algorytmu 5-1, ale nie słuŜą one do minimalizacji tej wartości. Właściwe

zmniejszenie liczby reguł niezbędnych do wykonania poprawnej klasyfikacji zrealizuje 

algorytm genetyczny. 

59 

5.3. Zmniejszanie liczby reguł za pomocą algorytmu genetycznego 

Jak zostało przedstawione w rozdziale 3 algorytm genetyczny usiłuje rozwiązać 

zadnie optymalizacji poprzez ukierunkowane losowo przeszukiwanie przestrzeni 

moŜliwych rozwiązań. Algorytm genetyczny nie gwarantuje wyszukania najlepszego 

(optymalnego) rozwiązania, ale zwraca najlepszy znaleziony wynik - co często w 

zastosowaniach praktycznych jest zadowalające. JeŜeli zadanie zmniejszania liczby 

reguł (generowanych algorytmem 5-1) przy wykonywaniu przez nie moŜliwie dobrej 

klasyfikacji zostanie sprowadzone do zadania optymalizacji, to moŜe zostać ono 

rozwiązane za pomocą algorytmu genetycznego w zadowalający sposób. 

5.3.1. Postawienie problemu 

Niech zbiór A (wzór 5-13) będzie zbiorem wybranych reguł rozmytych jeŜeli-to 

(wykonanych algorytmem 5-1) zawartych w zbiorze wszystkich reguł S (wzór 5-11) 

uzyskanych ze wszystkich K max kroków algorytmu 5-1. Niech k(A)∈〈0,||D||〉⊂ℵ∪{0} 

będzie liczbą prawidłowo klasyfikowanych danych uczących przez rozmyte reguły 

jeŜeli-to ze zbioru A. 

Do rozwiązania jest zadanie optymalizacji dwukryterialnej [7]: zminimalizować 

liczbę reguł uŜywanych do klasyfikacji przy jednoczesnym zmaksymalizowaniu liczby 

poprawnie klasyfikowanych danych uczących. W świetle wykonanych oznaczeń 

zadanie to moŜna zapisać jako: zminimalizować liczność zbioru A i zmaksymalizować 

wartość k(A). Te dwa cele naleŜy sprowadzić do maksymalizacji funkcji f:(A)→R danej 

przykładowym [42] wzorem (5-19). 

f ( A) 

= a ⋅ k( 

A) 

− b ⋅ A gdzie a,b∈R + (5-19) 

NaleŜy teŜ zaznaczyć, Ŝe w większości zadań istotniejsze jest zachowanie 

poprawnej klasyfikacji niŜ zmniejszenie liczby reguł. Stąd pomiędzy liczbami a i b we 

wzorze 5-19 zachodzi zaleŜność 5-20. 

0 

(5-20)

Po określeniu zadania optymalizacji jako maksymalizacji funkcji f:(A)→R danej 

wzorem (5-19) moŜna rozwiązywać to zadanie za pomocą algorytmu genetycznego. 

60 

5.3.2. Kodowanie chromosomu 

Algorytm genetyczny rozwiązuje zadanie optymalizacji, ale najpierw musi ono 

zostać zakodowane w chromosomach na potrzeby przetworzenia przez algorytm 

genetyczny. Zbiory A oraz S zakodujmy w chromosomie w następujący sposób: 

a) niech długość chromosomu będzie taka jak liczność zbioru S (wzory: 5-10 - 5-12) 

b) niech kaŜdej regule 

r 

K 

R 

i i2... 

im 

... i 

pozycji r w chromosomie (wzór 5-21) 

ze zbioru S odpowiada dokładnie jeden gen na 

1 n 

n−2 

n−m 

n−n 

( i1 

−1) + K ( i2 

−1) + ... + K ( im 

−1) + ... + K ( in 

−1) 

+ 1 

n−1 

n−2 

n−m 

n n 

( i −1) + K ( i −1) + ... + K ( i −1) + ... + K ( i −1) 

n−1 

⎧ K 

dla K = 2 

⎪K 

−1 

⎨ n 

⎪∑ h + K 

1 

2 

m 

n 

+ 1 dla K > 2 

⎩h= 

2 

= − 

gdzie: 

n∈ℵ - liczba wymiarów 

m∈{1,2,...,n} - numer indeksu i określonego na m-tym wymiarze 

K max - liczba uruchomień algorytmu 5-1 

K∈{1,2,..., K max } - K-te uruchomienie algorytmu 5-1 

i m ∈{1,2,..., K} - indeks określony na m-tym wymiarze 

c) niech wartość genu, który poprzez swoją lokalizację określa regułę, wynosi: 

0 - gdy reguła jest nieistotna 

1 - gdy reguła naleŜy do zbioru A 

2 - gdy reguła nie naleŜy do zbioru A. 

(5-21) 

Dla tak przyjętej formy kodowania chromosomu zauwaŜmy, Ŝe miało sens 

zmniejszanie liczby wykonanych przebiegów algorytmu 5-1, gdyŜ uzyskujemy w ten 

sposób krótsze chromosomy w algorytmie genetycznym. ZauwaŜmy teŜ, Ŝe przyjęty 

sposób kodowania zawiera w sobie rozwiązanie przynajmniej jednego z kryteriów 

optymalizacji: maksymalizacji liczby poprawnie klasyfikowanych elementów. 

Wszystkie elementy uczące są klasyfikowane przez reguły uzyskane z ostatniego 

podziału K max wykonanego przez algorytm 5-1. Wystarczy więc uzyskać chromosom 

kodujący zestawem jedynek tylko i wyłącznie wszystkie reguły ze zbioru 

Kmax 

S . 

Minimalizacja liczby uŜytych reguł do klasyfikacji polegać będzie na zastępowaniu tych 

jedynek jedynkami uzyskanymi z wcześniejszych przebiegów algorytmu 5-1. 

ZauwaŜmy teŜ, Ŝe wraz ze wzrostem wartości K określającej numer podziału w 

algorytmie 5-1 maleją obszary, do których przypisane są reguły 

K 

R 

i i2... 

im 

... i 

. W związku z 

1 n

tym lepszymi wydają się reguły uzyskane z pierwszych przebiegów algorytmu 5-1, 

gdyŜ umoŜliwiają wykonanie klasyfikacji na większym obszarze. 

61 

= { 

K 

R 

i i2... 

im 

... i 

ch = { 

: 

1 n 

K 

R 

i i2... 

im 

... i 

K 

R 

i i2... 

im 

... in 

: 

1 n 

K 

R 

i i2... 

im 

... i 

1 

∈ S K=2 }∪...∪{ 

K K 

S = }= 

∈S= S K=2 max 

∪...∪ 

1 n 

K 

K 

K Kmax 

R 

i1 i im 

... i 

: R 

n i1i 

im 

... i 

∈ 

n 

= chS K=2 K Kmax 

∪...∪ chS = = U max K 

chS 

K = 2 

2... 

K 

2... 

S = } = 

(5-22) 

ZauwaŜmy teŜ, Ŝe wzór 5-21 umieszcza reguły ze zbiorów S K (uzyskiwanych z 

kolejnych podziałów K podczas realizacji algorytmu 5-1) po sobie, powodując tym 

samym, Ŝe moŜna w chromosomie ch wyróŜnić kolejno odcinki chS K kodujące sobą 

grupy reguł naleŜących do zbiorów S K (rysunek 5-11 i wzór 5-22). 

Rysunek 5-11. Przykładowy chromosom – zaznaczono kolorem niebieskim 

umowny podział na grupy reguł chS K (o zaznaczonej długości) 

Jak widać z rysunku 5-11 zaproponowana forma kodowania problemu 

optymalizacji powoduje powstawanie chromosomów, których długość zaleŜy od liczby 

K max realizacji algorytmu 5-1 i od liczby wymiarów n. PoniewaŜ nie mamy wpływu w 

danym zadaniu na liczbę wymiarów n, to szczególnego znaczenia nabierają 

proponowane metody zmniejszenia liczby K max realizacji algorytmu 5-1. Skrócenie 

długości chromosomu znacząco wpłynie na czas wykonywania się algorytmu 

genetycznego. Ów czas realizacji algorytmu genetycznego moŜe być powodem, 

ograniczenia praktycznego zastosowania proponowanej metody do rozwiązywania 

zadań klasyfikacji określonych na niewielkiej liczbie wymiarów. 

ZauwaŜmy teŜ, Ŝe prostota proponowanej metody kodowania pociąga za sobą 

zapisanie w chromosomie wielu reguł nieistotnych, które nigdy nie będą naleŜały do 

zbioru A. Celem skrócenia długości chromosomu moŜliwe jest ich usunięcie z 

chromosomu (poprzez zastosowanie specjalnej tablicy przypisującej lokacji r genu daną 

regułę 

K 

R 

i i2... 

im 

... i 

), ale zmieni to znacząco pracę operatora krzyŜowania, gdyŜ trudniej 

1 n 

byłoby wyizolować schematy kodujące pojedyncze reguły (twierdzenie o schematach – 

wzór 3-10). Z tej przyczyny naleŜałoby posługiwać się często zachodzącym 

krzyŜowaniem wielopunktowym (przykład 5-4).

Przykład 5-4 

Niech dane będą dwa chromosomy a) i b) kodujące w swoich genach reguły nieistotne i 

dwa, które tego nie robią – c) i d). Niech zaznaczone w nich geny poprzez jedynki 

oznaczają istotne reguły, które realizują poprawną klasyfikację. Niech chromosom o 

większej liczbie jedynek realizuje lepiej klasyfikację (lepszy chromosom) niŜ chromosom o 

małej ich liczbie (gorszy chromosom). 

a) 22222210000000000222 

b) 22222220000000000122 

c) 2222221222 

d) 2222222122 

Aby z chromosomów a)-d) uzyskać jeszcze lepsze e) i f) na drodze krzyŜowania, naleŜy 

krzyŜowanie wykonać pomiędzy zaznaczonymi jedynkami w genach. 

e) 22222210000000000122 

f) 2222221122 

Prawdopodobieństwo uzyskania chromosomu e) z chromosomów a) i b) wynosi 11/19, a 

uzyskania chromosomu f) z c) i d) wynosi 1/9. Z tego powodu dla drugiego systemu 

kodowania naleŜałoby uŜywać często wykonywanego krzyŜowania wielopunktowego. 

62 

5.3.3. Funkcja przystosowania 

Po określeniu sposobu kodowania zadania w algorytmie genetycznym 

(sprowadzonego do zakodowania w chromosomie zbioru A), naleŜy jeszcze określić 

funkcję przystosowania Φ:(ch)→R (wzór 3-2), tak aby jej maksymalizacja 

rozwiązywała równieŜ zadanie maksymalizacji funkcji f (wzór 5-19). Najprostszym 

rozwiązaniem tego problemu jest przyjęcie za funkcję przystosowania funkcji f:(A)→R 

danej wzorem 5-23. 

Φ ( ch) 

= f ( A) 

= a ⋅ k( 

A) 

− b ⋅ A gdzie a,b∈R + i a≥b>0. (5-23) 

Jednak takie rozwiązanie moŜe zadziałać tylko dla krótkich chromosomów, gdy 

przeszukiwana przestrzeń moŜliwych rozwiązań jest mała. Przy duŜych przestrzeniach 

pomocne moŜe okazać się zastosowanie funkcji kary, która promowałaby reguły z 

pierwszych podziałów K (wykonywanych podczas realizacji algorytmu 5-1), a karała 

reguły z ostatnich. Powodem zastosowania takiej funkcji są niewielkie róŜnice w 

wielkości obszaru, do którego przypisana jest reguła 

K 

R 

i i2... 

im 

... i 

, uzyskana dla duŜej 

1 n 

wartości K i w kolejnym podziale K+1. Z tego powodu moŜe się okazać, Ŝe dla duŜych 

wartości K reguły uzyskane pod koniec realizacji algorytmu klasyfikują poprawnie 

tylko jeden obiekt uczący, czyli reguły z podziału K, czy K+1 nie zmieniają wartości 

funkcji przystosowania danej wzorem 5-23.

Jedną z prostszych do wyznaczenia funkcji kary jest funkcja wagi reguł 

naleŜącego do zbioru A. Niech reguły ze zbioru A uzyskane dla podziału K (z przebiegu 

algorytmu 5-1), czyli naleŜące do zbioru S K , będą „waŜone” przez wartość K (5-24). 

K 

∑ 

K 

w ( A) 

K ⋅ S ∩ A 

(5-24) 

= max K = 2 

Mając do dyspozycji funkcję kary w:(A)→R zdefiniowaną wzorem 5-24, która 

promuje reguły uzyskane dla pierwszych podziałów K (podczas realizacji algorytmu 5- 

1) moŜemy wymienić funkcję przystosowania wzór 5-23 na bardziej odpowiednią 

opisaną wzorem 5-25. 

Φ ( ch) 

= a ⋅ k( 

A) 

− b ⋅ A − c ⋅ w( 

A) 

gdzie a,b,c∈R + i a≥b>>c>0. (5-25) 

ZaleŜność b>>c we wzorze 5-25 wynika z faktu, Ŝe bardziej jednak zaleŜy nam 

na minimalizacji liczby reguł uŜytych do klasyfikacji niŜ na ich rozmieszczeniu w 

chromosomie w zbiorach (odcinkach chromosomu) chS K . 

Określona wzorem 5-25 funkcja przystosowania nie spełnia jeszcze jednego 

wymogu, aby zastosować ją w algorytmie genetycznym: powinna przyjmować wartości 

nieujemne. Z tego powodu wykonajmy prostą modyfikację tej funkcji: ograniczamy ją z 

dołu (wzór 5-26). 

{ 0; a ⋅ k( 

A) 

− b ⋅ A − c ⋅ w( 

)} 

Φ ( ch) 

= max 

A gdzie a,b,c∈R + i a≥b>>c>0. (5-26) 

Funkcja przystosowania dana wzorem 5-26 moŜe juŜ zostać uŜyta. Jednak 

wartości przez nią generowane mogą sprawiać trudność podczas ich interpretacji, gdyŜ 

trudno będzie ocenić w jakim stopniu uzyskana wartość rozwiązuje problem 

maksymalizacji. ZauwaŜmy jednak, Ŝe wartości funkcji danej wzorem 5-26 są 

ograniczone z góry: 

- maksymalną wartością k(A), czyli liczby poprawnie klasyfikowanych obiektów 

uczących, jest liczba wszystkich obiektów uczących, czyli ||D||=||D’||=||D”|| 

- minimalną wartością ||A||, czyli liczby reguł uŜytych do klasyfikacji, jest liczba 

klas M 

- minimalną wartością w(A), czyli wagi połoŜenia w chromosomie reguł ze zbioru 

A, jest wartość wynikająca z umieszczenia tych reguł w początkowych odcinkach 

chromosomu; poniewaŜ wyznaczanie wartości minimalnej moŜe być czasochłonne 

obliczeniowo (naleŜy uwzględniać istnienie reguł nieistotnych), moŜna taką 

wartość traktować jako ograniczoną z dołu przez wartość 2M (czyli minimalna 

liczba reguł M umieszczona w pierwszym odcinku chromosomu chS 2 ). 

63

Zamiast funkcji przystosowania Φ:(ch)→R danej wzorem 5-26 wygodniej 

będzie (pod kątem analizy rozwiązywania zadania maksymalizacji przez algorytm 

genetyczny) ją znormalizować i stosować funkcję Φ:(ch)→〈0,1〉⊂R daną wzorem 5-27. 

⎪⎧ 

a ⋅ k( 

A) 

− b ⋅ A − c ⋅ w( 

A) 

⎪⎫ 

Φ( ch) 

= max⎨0; 

⎬ gdzie a,b,c∈R + i a≥b>>c>0. (5-27) 

⎪⎩ a ⋅ D − b ⋅ M − c ⋅ 2M 

⎪⎭ 

PoniewaŜ we wzorze 5-27 zachodzi zaleŜność b>>c>0, to wartość c2M ze wzoru nie ma 

większego wpływu na wartość funkcji przystosowania i moŜe być pominięta, przez co 

otrzymujemy numerycznie łatwą do wyznaczania funkcję przystosowania 

Φ:(ch)→〈0,1)⊂R daną wzorem 5-28. 

⎪⎧ 

a ⋅ k( 

A) 

− b ⋅ A − c ⋅ w( 

A) 

⎪⎫ 

Φ( ch) 

= max⎨0; 


⎪⎩ a ⋅ D − b ⋅ M ⎪⎭ 

Gdy wartość funkcji przystosowania zbliŜa się do wartości jeden, to zbliŜa się 

teŜ do rozwiązania problemu optymalizacji. 

64 

Posługując się symboliką uŜytą we wzorze 5-27 moŜna zaproponować jeszcze 

inny wzór 5-29 określający funkcję przystosowania, gdzie większą rolę odgrywają 

współczynniki a, b i c. 

⎪⎧ 

Φ( 

ch) 

= max⎨0; 

⎪⎩ 

k( 

A) 

b 

− 

D a 

⋅ 

A 

A − M 

max 

− M 

− 

c w( 

A) 

− 2M 

⎪⎫ 

⋅ 

⎬ 

a w( 

A) 

max 

− 2M 

⎪⎭ 

(5-29) 

gdzie: a,b,c∈R + , a≥b>>c>0, 

||A|| max – największa wartość ||A||, 

w(A) max – największa wartość w(A). 

Funkcje przystosowania poddaje się niekiedy skalowaniu [72], co ma 

zapobiegać przedwczesnej zbieŜności algorytmu (na początku realizacji algorytmu 

genetycznego, gdy najlepszy osobnik zbytnio wyróŜnia się na tle pozostałych wartością 

funkcji przystosowania) oraz uzyskiwaniu podobnej liczby potomków przez osobników 

o średnim przystosowaniu i najlepszym (w końcowej fazie algorytmu genetycznego, 

gdy wartość średniego przystosowania generacji zbliŜona jest do wartości 

maksymalnej). RozróŜnia się trzy główne metody skalowania [72]: 

a) Skalowanie liniowe funkcji przystosowania Φ polega na przekształceniu jej do 

funkcji Φ’ poprzez przekształcenie liniowe (5-30). 

Φ’(ch) =max{0; a’⋅Φ(ch) + b’} gdzie a’,b’∈R - ∪R + (5-30)

) Obcinanie typu sigma funkcji przystosowania Φ polega na przekształceniu jej do 

funkcji Φ’ poprzez przekształcenie dane wzorem 5-31. 

Φ’(ch) =max{0; Φ(ch) + Φ śr (ch) – c’⋅σ 

gdzie c’∈ℵ, 

Φ śr (ch) - średnie przystosowanie w generacji, 

σ - odchylenie standardowe wartości funkcji przystosowania w 

generacji. 

c) Skalowanie potęgą funkcji przystosowania Φ polega na przekształceniu jej do 

65 

(5-31) 

funkcji Φ’ poprzez przekształcenie dane wzorem 5-32. Parametr m w tym 

wzorze nie odbiega znacząco o wartości jeden [72] np.: m=1,005. 

Φ’(ch) = Φ(ch) m gdzie m∈R - ∪R + (5-32) 

Bazując na wzorze 5-32 wykonajmy jeszcze dodatkową parametryzację funkcji 

przystosowania danych wzorami 5-28 i 5-29, otrzymując funkcję przystosowania 

skalowaną potęgą (wzór 5-33) i o podobnym wpływie potęgowania (5-34). 

⎪⎧ 

a ⋅ k( 

A) 

− b ⋅ A − c ⋅ w( 

A) 

⎪⎫ 

Φ( ch) 

= max⎨0; 


⎪⎩ a ⋅ D − b ⋅ M ⎪⎭ 

m 

⎧ 

⎪ 

Φ( 

ch) 

= max⎨0; 

⎪⎩ 

⎛ ⎞ 

⎜ 

k( 

A) 

⎟ 

⎝ D ⎠ 

m 

− 

b 

a 

⎛ 

⋅⎜ 

⎝ 

m 

A − M ⎞ 

⎟ 

A − M 

max ⎠ 

− 

c ⎛ w( 

A) 

− 2M 

⎞ 

⋅ 

⎜ 

⎟ 

a ⎝ w( 

A) 

max 

− 2M 

⎠ 

m 

⎫ 

⎪ 

⎬ 

⎪⎭ 

(5-34) 

gdzie: a,b,c∈R + , a≥b>>c>0, 

||A|| max – największa wartość ||A||, 

w(A) max – największa wartość w(A). 

Ze względu na obliczeniową łatwość wyznaczania funkcji przystosowania danej 

wzorem 5-33 niŜ funkcji danej wzorem 5-34 ta pierwsza będzie miała znaczące 

zastosowanie, a druga została zaproponowana jedynie w celach porównawczych. 

Przeprowadzona próby obliczeniowe wykazały, Ŝe posługując się pierwszą z funkcji 

moŜna uzyskać lepsze wyniki (przyczyną mogła być utrata parcia genetycznego w 

wyniku wpływu wartości takich jak ||A|| max czy w(A) max ) i badania nad doborem 

parametrów do drugiej funkcji zostały zaniechane. 

PoniewaŜ w funkcji przystosowania 5-33 obok parametru m występują jeszcze a, 

b i c, to naleŜy jeszcze znaleźć zaleŜności pomiędzy nimi. Parametr c opisujący wpływ 

funkcji kary, która nie ma wpływu na wykonywaną przez algorytm optymalizację. Ma 

ona jedynie wytworzyć pewne parcie genetyczne w celu uzyskania reguł 

klasyfikujących uzyskanych z pierwszych realizacji algorytmu 5-1. Z tego powodu jego

znaczenie nie moŜe być kluczowe i proponowane jest c=0,1 (chociaŜ konkretna wartość 

zaleŜy od zadania). Parametry a i b określają na ile zaleŜy nam na poprawnej 

klasyfikacji, a ile na zmniejszeniu liczby reguł wykonujących klasyfikację. ZaleŜność 

taką moŜna wyrazić parametrem a, jeŜeli b ustalimy np.: b=1. Przyjęcie zbyt duŜej 

wartości parametru a spowoduje słabą realizację minimalizacji liczby reguł słuŜących 

do klasyfikacji. Przyjęcie zbyt małej wartości parametru a spowoduje wprawdzie 

minimalizację liczby reguł, ale z niewielkim uwzględnieniem wykonywanej przez nie 

poprawnej klasyfikacji. Wartość parametru a najlepiej dobrać eksperymentalnie dla 

danego zadania, ale proponuję tutaj pewne umowne jej oszacowanie. W celu 

poprawnego sklasyfikowania ||D|| obiektów uczących naleŜało zdefiniować ||S|| 

moŜliwych do wyboru reguł (do zbioru A). Tak więc w celu klasyfikacji jednego 

obiektu uczącego potrzeba zdefiniować ||S|| / ||D|| reguł moŜliwych do wyboru (do 

zbioru A). Niech więc parametr a będzie wartością nieco większą od ||S|| / ||D||, tak aby 

klasyfikacja o jeden obiekt uczący więcej przewyŜszała korzyści płynące ze 

zmniejszenia liczby reguł o ||S|| / ||D||. Ponadto naleŜy zauwaŜyć, Ŝe liczba moŜliwych 

do wyboru do zbioru A reguł nie wynosi dokładnie ||S||, gdyŜ podczas realizacji 

algorytmu genetycznego moŜna otrzymać równieŜ reguły nieistotne. Tak więc przyjęcie 

poprzedniego oszacowania moŜe doprowadzić do przyjęcia wartości zbyt duŜej, co 

spowoduje spadek istotności redukcji liczby reguł naleŜących do zbioru A. 

Właściwszym oszacowaniem jest 5-35. 

|| S || − || S 

szt 

|| 

a ≈ gdzie ||S szt || - liczność zbioru S szt reguł nieistotnych (5-35) 

|| D || 

Dla duŜego zbioru S wartość parametru a moŜna jeszcze podnieść, gdyŜ zacznie się 

zaznaczać wpływ funkcji kary sterowany parametrem c. MoŜna teŜ w takim przypadku 

obniŜyć wartość parametru c. 

66 

5.3.4. Wybór populacji startowej i warunku zakończenia algorytmu 

Dysponując sposobem kodowania i określenia przystosowania danego osobnika 

moŜna wykonać juŜ populację startową. W tym celu naleŜy określić p sel1 

prawdopodobieństwo wylosowania 1 na danej pozycji (locus) r (wzór 5-21) w 

chromosomie, a następnie dokonać losowania na wszystkich pozycjach chromosomu 

wartości 1 lub 2 z prawdopodobieństwem wylosowania jedynki wynoszącym p sel1 i z 

prawdopodobieństwem wylosowania dwójki wynoszącym 1-p sel1 . Na otrzymany ciąg 

jedynek i dwójek o długości ||S|| naleŜy nałoŜyć stały układ zer, które to zera swoją

pozycją r kodują reguły nieistotne w zbiorze S. W ten sposób wykonany chromosom 

naleŜy ocenić posługując się funkcją przystosowania (wzór 5-33), aby otrzymać 

strukturę zwaną teraz osobnikiem. W celu zbudowania populacji startowej naleŜy 

określić (parzystą!) liczbę n pop osobników w populacji i zbudować n pop struktur 

zwanych osobnikami. 

ZauwaŜmy, Ŝe wartość p sel1 prawdopodobieństwa wylosowania jedynki ma 

znaczny wpływ na przebieg algorytmu genetycznego. PoniewaŜ postawione przed 

algorytmem genetycznym zadanie optymalizacji dwukryterialnej wymusza rozwiązanie 

w postaci małej liczby reguł klasyfikujących duŜą liczbę elementów uczących, to do 

takiego stanu algorytm genetyczny moŜe dojść dwoma drogami: 

a) moŜna zredukować duŜą liczbę początkowo wylosowanych reguł tak, aby 

podczas redukcji zachować, a nawet nieco poprawić wynik w postaci liczby 

poprawnie klasyfikowanych elementów (obiektów) uczących; 

b) moŜna zwiększać małą liczbę początkowo wylosowanych reguł tak, aby podczas 

tego zwiększania odnajdywać reguły istotne dla poprawności klasyfikacji 

kolejnych elementów zbioru uczącego. 

Pomiędzy tymi dwoma technikami umowną wartością graniczną wydaje się być liczba 

reguł odpowiadająca (w przybliŜeniu) liczbie elementów uczących. JeŜeli w wyniku 

losowania jedynek w chromosomach generacji startowej otrzymamy reguł mniej niŜ 

obiektów uczących, to zachodzi przypadek b), a w przeciwnym wypadku przypadek a). 

Z obu analizowanych przypadków obliczeniowo bardziej czasochłonnym jest przypadek 

a), poniewaŜ wymaga przeanalizowania duŜego zbioru A celem wyznaczenia wartości 

funkcji przystosowania (a dokładnie wartości k(A) – liczby poprawnie klasyfikowanych 

elementów regułami ze zbioru A). Tak wyskalowany algorytm potrafi doprowadzić do 

bardzo dobrego wyniku, ale po bardzo długim czasie obliczeń, który dla długich 

chromosomów moŜe być nie do zaakceptowania. Szybciej realizowane obliczenia w 

przypadku b) nie dają z kolei gwarancji dobrania takiego układu reguł (ze względu na 

duŜą długość chromosomu, a co za tym idzie na ogromny rozmiar przestrzeni 

moŜliwych rozwiązań – zwanej teŜ przestrzenią poszukiwań), aby wykonywać w 100% 

(lub prawie w 100%) poprawną klasyfikację. Metodą łączącą wady i zalety obu 

analizowanych przypadków a) i b) jest takie wylosowanie liczby reguł w generacji 

startowej, aby otrzymać liczbę wylosowanych reguł ze zbioru A (liczbę jedynek w 

chromosomie) równą w przybliŜeniu liczbie klasyfikowanych obiektów uczących ||D||. 

67

Daje to prawdopodobieństwo wylosowania jedynki w generacji startowej p sel1 określone 

wzorem 5-36. 

p 

sel1 

|| D || 

≈ gdzie ||S szt || - liczność zbioru S szt reguł nieistotnych (5-36) 

|| S || − || S || 

szt 

W przypadku wartości p sel1 wyznaczonej wzorem 5-36 dopuszczalne są znaczne 

odstępstwa o nawet ±50% tej umownej wartości, jednak nie zalecam bardziej 

znaczących odchyleń, aby nie powodować niepotrzebnego wydłuŜenia czasu pracy 


Zanim rozpocznie się tworzenie kolejnych generacji algorytmu genetycznego 

naleŜy jeszcze określić warunek jego zakończenia. MoŜe to być przyjęcie odpowiednio 

wysokiej wartości funkcji przystosowania np.: 0,95. Jednak uruchamiając algorytm nie 

mamy gwarancji, Ŝe uzyskamy chromosom o odpowiednio wysokiej wartości funkcji 

przystosowania. Z tego powodu lepsze jest ustalenie maksymalnej liczby moŜliwych do 

wykonania generacji t max i zakończenie algorytmu po osiągnięciu generacji t max . 

Liczba n pop osobników w generacji wpływa na liczbę koniecznych do wykonania 

generacji, aby osiągnąć dobry wynik algorytmu genetycznego. Istnieją dwa sposoby 

regulowania wartości n pop i t max . MoŜemy stworzyć duŜą populację (o duŜej liczbie 

osobników) i oczekiwać dobrego wyniku w ciągu niewielkiej liczby pokoleń, albo 

moŜemy stworzyć małą generację i pozwolić jej odpowiednio długo ewoluować w celu 

uzyskania dobrego wyniku. Za zastosowaniem pierwszej z tych metod przemawia 

twierdzenie o schematach (rozdział 3.3) operujące wartością oczekiwaną, a więc 

przybliŜaną przez bardzo liczne generacje. Za zastosowaniem tej drugiej metody 

przemawiają względy praktyczne – do zbudowania długich chromosomów potrzeba 

znacznej ilości pamięci operacyjnej komputera i z tego powodu zbudowanie licznej 

generacji moŜe okazać się niemoŜliwe (z braku pamięci lub w wyniku uŜywania bardzo 

powolnej pamięci wirtualnej). PoniewaŜ ten problem techniczny moŜe w 

rozwiązywanym w dalszej części pracy zadaniu wystąpić, to zalecana jest raczej druga 

metoda. 

W związku z przyjęciem raczej duŜych wartości t max (rzędu kilku tysięcy) i 

jednoczesnym przyjęciu niewielkiej liczby osobników w generacji n pop (sprawdzano dla 

tego zadania wartości 50, 100 i 200 z czego 100 wydaje się wartością najlepszą) naleŜy 

spodziewać się długich czasów obliczeń algorytmu genetycznego. Z tego powodu 

naleŜy wyposaŜyć go w mechanizm zapisu swojego stanu na wypadek awarii 

komputera (zanik napięcia, przegrzanie) lub przynajmniej zapisu najlepszego 

68

uzyskanego osobnika, tak aby po usunięciu awarii moŜna było wznowić pracę 

algorytmu genetycznego. Wiele zadań (np.: z dziedziny medycyny [3]) niemalŜe 

wymaga istnienia mechanizmu dodania wzorca uczącego do generacji startowej i 

poszukiwania lepszych rozwiązań pod kątem wzorca (gdyŜ wywiera on silny wpływ na 

nowe generacje). Dlatego zalecane jest dodanie systemu zapisu co pewną liczbę 

pokoleń najlepszego osobnika (mającego największą wartość funkcji przystosowania) 

oraz systemu wczytania takiego osobnika do generacji startowej w celu dalszego 

doskonalenia struktury reguł ze zbioru A zawartej w jego chromosomie. 

5.3.5. Operator selekcji, strategia elitarna 

69 

Omawiana w podrozdziale 3.2 selekcja ruletkowa, uŜywana w klasycznym 

algorytmie genetycznym, wyznacza prawdopodobieństwo p wylosowania i-tego 

chromosomu ch i do puli rodziców wzorem 3-1. Jednak stosując taki wzór oraz 

zaproponowane funkcje przystosowania bardzo szybko doprowadzić moŜna do 

generacji o niewielkim zróŜnicowaniu wartości przystosowania poszczególnych 

osobników pomimo róŜnic w budowie ich chromosomów. W tej sytuacji kaŜdy z 

osobników będzie miał niemal identyczne szanse na zostanie rodzicem – utracona 

zostanie zdolność do dalszego poprawiania uzyskanego najlepszego chromosomu przez 

algorytm genetyczny – mówmy o małej sile parcia genetycznego. Jednak prosta 

modyfikacja wzoru 3-1 moŜe zapewnić całkiem efektywną pracę zmodyfikowanego 

operatora selekcji. Niech prawdopodobieństwo zostania rodzicem danego chromosomu 

będzie wyznaczane na podstawie róŜnicy wartości jego przystosowania i 

przystosowania najgorszego (tu o najmniejszej wartości funkcji przystosowania) 

osobnika w generacji (wzór 5-37). 

Φ( 

chi 

) − Φ( 

ch) 

min 

p( chi 

) = 

gdzie Φ( 

ch) 

min 

n pop 

∑( Φ( 

ch 

j 

) − Φ( 

ch) 

min 

) 

j= 

1 

= min 

{ Φ( 

ch ) : l ∈{1,2,..., 

n }} 

i n pop jest parzystą liczbą osobników w generacji 

Wybierając osobniki do zostania rodzicami (od puli rodzicielskiej) posługując się 

wzorem 5-37 zapewniamy skuteczne działanie operatora selekcji nie tylko w 

początkowym etapie pracy algorytmu genetycznego, ale równieŜ w końcowym okresie, 

gdy przystosowanie średnie osobników w generacji zbliŜy się do wartości 

przystosowania maksymalnego osobnika w generacji. 

l 

pop 

(5-37)

W wyniku usprawnienia pracy operatora selekcji maleje znaczenie skalowania 

funkcji przystosowania. 

Innym sposobem uzyskania efektywnie działającego operatora selekcji jest 

zastosowanie selekcji turniejowej [61] o rozmiarze turnieju t size , gdzie t size ∈ℵ i t size >1 

(najczęściej [72] przyjmuje się t size =2 lub t size =3). Selekcja turniejowa polega na 

wyborze grupy t size osobników, z której to grupy wybiera się osobnika najlepiej 

przystosowanego do zostania rodzicem (z prawdopodobieństwem równym jeden dla 

wyboru deterministycznego lub mniejszym od jeden dla wyboru losowego). W celu 

porównania pracy operatora selekcji ruletkowej (zmodyfikowanej) i turniejowej 

zaproponuję tu wybór deterministyczny w selekcji turniejowej. 

Jeszcze jedną z często stosowanych metod [72] selekcji jest selekcja rankingowa, 

która polega na posortowaniu malejąco wg wartości przystosowania osobników w 

generacji, czyli nadaniu kaŜdemu z nich odpowiedniej rangi. KaŜdej randze przypisuje 

się prawdopodobieństwo do zostania rodzicem osobnika o tej randze (np.: za pomocą 

funkcji liniowej [72]). 

70 

Jeszcze jedną waŜną modyfikacją stosowaną podczas budowy generacji potomnej 

jest zastosowanie strategii elitarnej [72], która polega na kopiowaniu do generacji 

potomnej najlepiej przystosowanego osobnika z generacji rodzicielskiej. śadna z 

opisanych wcześniej metod selekcji nie gwarantuje zachowania najlepiej 

przystosowanego osobnika (moŜe on zostać zniszczony w wyniku krzyŜowania lub 

mutacji). Kopiowanie najlepszego osobnika z generacji rodzicielskiej następuje po 

zadziałaniu operatorów krzyŜowania i mutacji. Dodatkowo proponuję kopiowanie takie, 

aby nie zniszczyć osobnika potomnego, który ma wyŜsze przystosowanie niŜ 

zastępujący go osobnik z poprzedniej generacji. MoŜna to zrealizować poprzez losowy 

wybór (z prawdopodobieństwem wynoszącym 1/n pop ) osobnika do zastąpienia 

osobnikiem najlepszym z poprzedniej generacji, a jeŜeli wybrany osobnik posiada 

wyŜsze przystosowanie niŜ osobnik z poprzedniej generacji, to losowanie powtarza się. 

Metoda ta nie daje jednak 100% gwarancji wykonania takiego zastąpienia (wtedy, gdy 

cała nowa generacja ma przystosowanie lepsze niŜ najlepszy osobnik z generacji 

poprzedniej). Prostszym rozwiązaniem jest zastępowanie pierwszego osobnika nowej 

generacji. JeŜeli pierwszy z osobników ma przystosowanie wyŜsze niŜ mający go 

zastąpić osobnik z generacji poprzedniej, to zastąpiony zostanie drugi osobnik (nawet 

jeŜeli był jeszcze lepszy).

Dalszym rozwinięciem tej metody jest algorytm z ustalonym stanem [72], gdzie 

część generacji jest kopiowana do nowej bez jakichkolwiek zmian (bez krzyŜowania i 

mutacji). Jednak dla tak określonego sposobu kodowania w dalszym okresie pracy 

algorytmu genetycznego byłaby to grupa osobników bardzo do siebie podobnych i 

wystarczającym jest kopiowanie tylko jednego jak ma to miejsce w strategii elitarnej. 

Zastosowanie strategii elitarnej oraz usprawnionej metody selekcji ruletkowej 

(wzór 5-37) daje moŜliwość poprawiania najlepszego osobnika w kolejnych 

generacjach przez algorytm genetyczny. Selekcja ruletkowa utrzymuje duŜy wpływ 

najlepszego osobnika w generacji, co powoduje Ŝe pozostałe osobniki w kolejny 

generacjach stają się do siebie podobne. W wielu sytuacjach doprowadzić to moŜe 

przedwczesnej zbieŜności algorytmu, ale przy zaproponowanym sposobie kodowania 

zadania umoŜliwia poprawę najlepszego osobnika nawet, gdy jego przystosowanie 

osiągnęło juŜ niemalŜe wartość maksymalną. JeŜeli w trakcie pracy algorytmu 

genetycznego wyszukany zostanie lepszy osobnik odmienny genetycznie od 

pozostałych, to selekcja ruletkowa spowoduje stopniowe upodabnianie się osobników w 

kolejnych generacjach do wyszukanego najlepszego – umoŜliwia to poszukiwanie 

lepszych rozwiązań w otoczeniu najlepszego osobnika. 

Zastosowanie selekcji turniejowej i strategii elitarnej moŜe doprowadzić do 

sytuacji, w której cała generacja prowadzi poszukiwania lepszych rozwiązań i jest do 

siebie genetycznie podobna, a jeden wyróŜniony najlepszy osobnik jest zupełnie 

odmienny genetycznie i algorytm nie prowadzi poszukiwań lepszego rozwiązania 

uŜywając wielu potomków osobnika najlepszego. Z tego powodu w pracy zastosowano 

usprawnioną metodę selekcji ruletkowej razem ze strategią elitarną. 

71 

5.3.6. Operator krzyŜowania, operator inwersji 

Operator krzyŜowania (krzyŜowanie jednopunktowe) zaproponowany w rozdziale 

trzecim zazwyczaj nie jest wystarczający w algorytmie genetycznym o długich 

chromosomach, gdyŜ nie wprowadza odpowiedniego zróŜnicowania genetycznego. 

Schematy o przystosowaniu lepszym niŜ przeciętne nie są powielane w dostatecznych 

ilościach, aby zauwaŜyć ich wpływ na nowe generacje. Dzieje się tak dlatego, Ŝe 

krzyŜowanie nie niszczy długich schematów. Aby temu zapobiec stosuje się 

krzyŜowanie wielopunktowe [72], które jest uogólnieniem krzyŜowania 

jednopunktowego i polega na wielokrotnym wykonaniu krzyŜowania jednopunktowego. 

Sposób realizacji tego krzyŜowania moŜna zdefiniować dwoma parametrami: c cross –

liczbą wykonanych krzyŜowań jednopunktowych i p cross – prawdopodobieństwem 

wykonania krzyŜowania jednopunktowego. MoŜna teŜ rozszerzyć (wzór 5-38) 

znaczenie parametru p cross i przyjąć, Ŝe moŜe on przyjmować dowolne wartości 

rzeczywiste nieujemne. Część całkowita int(p cross ) odpowiada za liczbę wykonanych 

krzyŜowań jednopunktowych z prawdopodobieństwem 1, a część ułamkowa odpowiada 

za wykonanie jeszcze jednego krzyŜowania jednopunktowego z prawdopodobieństwem 

p cross -int(p cross ). 

72 

{ 0} 

p ∈ R 

+ ∪ gdzie: 

cross 

int(p cross )∈ℵ∪{0} – (część całkowita p cross ) liczba punktów krzyŜowania 

wielopunktowego, gdzie krzyŜowanie odbędzie się z 

prawdopodobieństwem 1 

p cross - int(p cross ) ∈〈0,1〉⊂R + ∪{0} – (część ułamkowa p cross ) prawdopodobieństwo 

wykonania int(p cross )+1 krzyŜowania jednopunktowego 

(5-38) 

W celu utrzymania znaczenia krzyŜowania jako operatora wpływającego na 

długość przetwarzanych przez algorytm genetyczny schematów moŜna zastosować 

krzyŜowanie proporcjonalne, ale nie do długości chromosomu, tylko uzaleŜnione od 

odcinków chromosomu chS K (wzór 5-22). W proponowanym krzyŜowaniu 

wielopunktowym punkt krzyŜowania losowany jest z jednakowym 1/(||S||-1) 

prawdopodobieństwem. MoŜna przeanalizować proces uczenia się algorytmu 

genetycznego dobrych rozwiązań zadania optymalizacji i zaproponować inne 

prawdopodobieństwo wybrania punktu krzyŜowania. Proces uczenia powoduje, Ŝe 

istotne dla rozwiązania schematy pojawiają się w początkowych częściach (wzór 5-22) 

chromosomu chS K . MoŜna wybór punktu krzyŜowania przeprowadzić dwuetapowo: 

1) wylosować s-ty odcinek chromosomu chS K=s z jednakowym 

prawdopodobieństwem 1/(K max -1) 

2) wylosować punkt c krzyŜowania naleŜący do wylosowanego s-tego odcinka 

z jednakowym prawdopodobieństwem 1/( chS K=s -1). 

Ta forma wyboru punktów do przeprowadzania krzyŜowania spowoduje, Ŝe w 

początkowych częściach chromosomu przetrwają tylko schematy krótkie, gdyŜ częściej 

krzyŜowanie będzie zachodzić właśnie w początkowych fragmentach chromosomu 

chS K . Jednak ta forma modyfikacji krzyŜowania moŜe mieć zastosowanie tylko do 

wybranych zadań, w których moŜliwe jest usunięcie ze zbioru A reguł naleŜących do 

ostatnich fragmentów chromosomu chS K . JeŜeli nie jest to moŜliwe, to osiągniemy

pogorszenie pracy algorytmu genetycznego, gdyŜ reguły z ostatnich fragmentów 

chromosomu będą niezbędne do zachowania poprawnej klasyfikacji. 

JeŜeli zadanie polega na zachowaniu w 100% (lub niemalŜe w 100%) poprawnej 

klasyfikacji, to algorytm genetyczny będzie uogólniał wiedzę zawartą w regułach zbioru 

A (będzie wybierać do zbioru A reguły opisujące sobą coraz większe fragmenty 

przestrzeni danych uczących, czyli zakodowane w początkowych fragmentach 

chromosomu) przy jednoczesnym zachowaniu reguł przypisanych do niewielkich 

obszarów przestrzeni danych uczących (czyli znajdujących się w końcowych 

fragmentach chromosomu), które potrafią klasyfikować niewielką liczbę danych 

uczących jednej klasy, które znajdują się w otoczeniu danych uczących innej klasy – 

wyjątki (rysunek 5-12). 

73 

Rysunek 5-12. Przykładowa prezentacja wpływu na klasyfikuję (algorytm 5-2) reguły 

R opisanej na obszarze A (kolor niebieski) i reguły R opisanej na obszarze 

2 

1 

2 

1 

10 

A 

7 

(kolor brązowy). Odpowiednio pierwsza reguła klasyfikuje poprawnie 

wszystkie obiekty klasy C2 (określone na odcinku jednostkowym), a druga – klasy 

C1. Druga reguła opisuje sytuację wyjątkową, dotyczącą niewielkiego obszaru. 

10 

7 

JeŜeli zadanie wymaga wysokiego poziomu poprawnej klasyfikacji, to pomocne 

moŜe być zwiększenie liczby punktów wykonywanego krzyŜowania wielopunktowego 

bez uzaleŜnienia go od poszczególnych fragmentów chromosomu chS K . 

Dla zdefiniowanego systemu kodowania reguł rozmytych w chromosomie 

uŜycie operatora inwersji spowoduje zniszczenie informacji o zapisanych w 

chromosomie regułach. Z tego powodu ten operator nie moŜe być zastosowany.

74 

5.3.7. Operatory mutacji – klasyczny i kodujące wiedzę o zadaniu 

Dla określonego sposobu kodowania algorytmu genetycznego (wzór 5-21) oraz 

dla zdefiniowanych operatorów selekcji (wzory 5-33 i 5-34) i krzyŜowania 

wielopunktowego (wzór 5-38) klasyczny operator mutacji odpowiada za poszukiwanie 

lepszych rozwiązań. Jednak w wyniku przyjęcia niewyszukanego sposobu kodowania 

zbioru A klasyczny operator mutacji, którego działanie polega na losowej wymianie 

wartości 1 na 2 lub 2 na 1, moŜe nie pomagać w poprawie juŜ uzyskanego najlepszego 

wyniku. Przyczyną takiego zachowania operatora mutacji moŜe być istotnie inna liczba 

jedynek niŜ dwójek w chromosomie. Rozwiązywane zadanie polega na minimalizacji 

liczby reguł zawartych w zbiorze A przy zachowaniu takiego ich układu, Ŝe moŜna nimi 

poprawnie klasyfikować dane uczące. Tak więc w długim chromosomie (o długości 

||S||) naleŜy zakodować mały zbiór A (o małej wartości ||A||). 

JeŜeli liczba reguł nieistotnych (liczba zer) w chromosomie jest duŜa (co wymusza 

niewielką liczbę zakodowanych dwójek w chromosomie), to operator mutacji 

umoŜliwia poprawienie najlepszego uzyskanego wyniku, gdyŜ zachodzi z podobnym 

prawdopodobieństwem zarówno na wartości jeden jak i dwa danego genu, go którego 

przypisana jest reguła klasyfikująca. 

JeŜeli dla długiego chromosomu liczba reguł nieistotnych jest mała, a najlepszy 

wynik koduje sobą niewielką liczbę jedynek, to otrzymujemy chromosom z 

przewaŜającą liczbą dwójek. Powoduje to, Ŝe operator mutacji zamienia najczęściej 

dwójkę na jedynkę, czyli pogarsza uzyskany rezultat zwiększając wartość ||A||. 

Częściowym rozwiązaniem tego problemu jest zmniejszenie prawdopodobieństwa 

mutacji tak, aby zachodziła najwyŜej raz podczas tworzenia nowego chromosomu. 

PoniewaŜ operator ten prowadzi poszukiwania lepszych rozwiązań, to jego działania nie 

moŜna zaniechać poprzez określenie prawdopodobieństwa mutacji jednego genu w 

chromosomie p mut = 0. 

Celem umoŜliwienia poprawiania najlepszego wyniku przez algorytm genetyczny 

zalecane jest wprowadzenie nowych operatorów mutacji, kodujących sobą wiedzę o 

zadaniu: 

• operator usunięcia jedynki 

• operator przesunięcia jedynki 

• operator inteligentnego przesunięcia jedynki 

• operator nieproporcjonalnego wstawienia jedynki.

Operator usunięcia jedynki ma na celu zrównowaŜenie niekorzystnego wpływu 

klasycznego operatora mutacji na poprawę juŜ uzyskanego wyniku. JeŜeli w 

określonym zadaniu po jego zakodowaniu w chromosomach dobre wyniki posiadają 

niewielką liczbę jedynek względem dwójek, to klasyczny operator mutacji działa w 

znacznej mierze na dwójkach. Powoduje to dokładanie jedynek do zbioru A, czyli 

obniŜanie wartości funkcji przystosowania zaleŜnej od wartości ||A||. W celu 

wymuszenia poprawy najlepszego uzyskanego wyniku naleŜy wprowadzić operator 

usunięcia jedynki, którego działanie polega losowej wymianie jedynki na dwójkę. 

Usunięcie reguły mającej wpływ na poprawność klasyfikacji spowoduje znaczące 

pogorszenie przystosowania chromosomu, ale usunięcie reguły bez wpływu na 

poprawność klasyfikacji poprawi przystosowanie chromosomu. Działanie tego 

operatora nie powinno być zbyt częste, tak jak i klasycznego operatora mutacji. 

Ustalenie zbyt duŜej wartości prawdopodobieństwa usunięcia jedynki (wymiany na 

dwójkę) p del1 moŜe powodować zbyt silne niszczenie materiału genetycznego i w 

rezultacie tylko niewielką poprawę dobrego rezultatu. Prawdopodobieństwo wymiany 

jedynki na dwójkę p del1 nie powinno przekraczać jednej wymiany podczas tworzenia 

nowego chromosomu (powinno mieć podobną wartość do p mut ). Niewielka wartość p del1 

spowoduje, ze po kilkudziesięciu, kilkuset pokoleniach otrzymamy bardzo mały zbiór 

reguł A, które potrafią poprawnie klasyfikować większość danych uczących. 

Techniczna realizacja operatora usunięcia jedynki polega na wylosowaniu z 

jednakowym prawdopodobieństwem z przedziału 〈1, ||A||〉 wartości q del1 , a następnie na 

odszukaniu w chromosomie q del1 -tej jedynki począwszy od początku chromosomu i na 

wymianie jej na dwójkę. 

Reasumując: operator usunięcia jedynki zaznacza swoje działanie głównie 

poprzez wpływ na wartość ||A|| (i pośrednio na wartość w(A)) we wzorze określającym 

wartość przystosowania 5-33 (ew. 5-34). 

Poprawę dobrego wyniku moŜemy osiągnąć przesuwając jedynki w początkowe 

fragmenty chromosomu chS K (dla coraz to mniejszych wartości K), gdzie zaznaczą one 

nowe reguły klasyfikujące dane uczące w większych obszarach 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

(uzyskanych w początkowych podziałach przestrzeni 

1 2 

n 

danych uczących). MoŜemy się spodziewać, Ŝe tą drogą pojawią się reguły potrafiące 

sklasyfikować dane z duŜych obszarów. Efekt ten jest poŜądany, gdyŜ tą drogą moŜemy 

liczyć na osiągnięcie zbioru reguł A zdolnych klasyfikować dane z całej przestrzeni 

danych uczących lub przynajmniej ze znacznej części tej przestrzeni. JeŜeli taki efekt 

75

nie będzie zachodził, to moŜemy otrzymać zbiór reguł pokrywających niewielki obszar 

przestrzeni danych uczących i klasyfikacja nowego obiektu w tej przestrzeni moŜe 

zachodzić dość rzadko – większość przestrzeni danych uczących jest dla takiego zbioru 

reguł A nieznana. 

Przesuwanie jedynek do początkowych fragmentów chromosomu spowoduje 

poprawę wartości w(A) we wzorze 5-33 (ew. 5-34) określającym wartość 

przystosowania. JeŜeli więc podczas przesunięcia nie nastąpi pogorszenie jakości 

wykonywanej klasyfikacji, to przesunięcie spowoduje poprawę wartości 

przystosowania. 

Przesuwanie jedynek moŜe teŜ pośrednio wpłynąć na wartość ||A|| ze wzoru 5-33 

(ew. 5-34) – wykonywanie klasyfikacji na duŜych obszarach przez nowopowstałe 

reguły moŜe spowodować, Ŝe reguły opisane na małych obszarach staną się zbędne i 

będą mogły zostać usunięte operatorem usuwania jedynki. 

Do realizacji losowego przestawiania jedynki z danego fragmentu chromosomu 

chS K do rejonu genów naleŜących do poprzedniego fragmentu chS K-1 (oczywiście nie 

zachodzi to dla reguł uzyskanych dla podziału K=2) słuŜy operator przesunięcia 

jedynki. Techniczna realizacja tego operatora polega na wylosowaniu z jednakowym 

prawdopodobieństwem z przedziału 〈1, ||A||〉 wartości q mov1 , a następnie na odszukaniu 

w chromosomie q mov1 -tej jedynki począwszy od początku chromosomu, która znajduje 

się na lokalizacji r mov1 (wzór 5-21). JeŜeli jedynka ta naleŜy do fragmentu chromosomu 

chS K=2 , to algorytm jest przerywany. JeŜeli jednak naleŜy do fragmentu chromosomu 

chS K>2 , to jest ona usuwana, a we fragmencie chromosomu chS K-1 losowana jest (z 

jednakowym prawdopodobieństwem) pozycja r’ mov1 , na której zostanie wstawiona 

jedynka. JeŜeli we fragmencie chS K-1 wszystkie reguły są nieistotne to algorytm jest 

przerywany. 

Operator ten moŜe nie być skuteczny dla końcowych fragmentów długich 

chromosomów. Dzieje się tak poniewaŜ wstawiona jedynka na lokalizacji r’ mov1 moŜe 

opisywać regułę zupełnie nie związaną z usuniętą regułą opisaną genem z lokalizacji 

r mov1 – nowa reguła moŜe wykonywać klasyfikację na zupełnie innym obszarze 

przestrzeni danych uczących niŜ obszar, na którym realizowała klasyfikację usunięta 

reguła. Najczęściej zamiast poprawy rezultatu pracy algorytmu genetycznego poprzez 

zmniejszenie wartości w(A) uzyskamy spadek jakości klasyfikacji k(A) i tym samym 

pogorszenie wartości przystosowania. Z tym problemem poradzi sobie modyfikacja 

tego operatora: inteligentne przesunięcie jedynki. 

76

Operator inteligentnego przesunięcia jedynki jest modyfikacją poprzednio 

opisywanego operatora przesunięcia jedynki, wykonaną celem zmniejszenia efektu 

pozyskania reguły opisanej na obszarze, który nie jest związany z obszarem, na którym 

opisano regułę usuniętą. Po losowym wybraniu jedynki do przesunięcia z fragmentu 

chromosomu chS K>2 określa się jaki obszar 

A × A × ... × A 

m 

× ... × A 

77 

K K 

K 

K 

i i 

i 

i 

opisuje 

1 2 

n 

związaną z daną pozycją r mov1 regułę. Po wylosowaniu wartości u mov1 ∈〈0,1〉 wykonuje 

się przeszukanie po regułach zakodowanych we fragmencie chromosomu chS K-1 . 

Podczas przeszukania analizuje się obszary 

A 

K −1 

i 

1 

× A 

K −1 

i 

2 

× ... × A 

m 

× ... × A 

wyznaczając dla kaŜdego z nich procentowy stopień pokrycia z obszarem 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

. Następnie poczynając od pierwszego genu we fragmencie 

1 2 

n 

chromosomu chS K-1 wykonuje się sumę po wyznaczonych wartościach procentowego 

pokrycia obszarów 

A × A × ... × A 

m 

× ... × A i 

K −1 

i 

1 

K −1 

i 

2 

K −1 

i 

K −1 

i 

n 

K −1 

i 

A × A × ... × A 

m 

× ... × A 

K −1 

i 

K K 

K 

K 

i i 

i 

i 

. Gdy 

1 2 

n 

wartość tej sumy przekroczy lub zrówna się z u mov1 , to uzyskujemy pozycję r’ mov1 , na 

której zostanie wstawiona jedynka. JeŜeli na pozycji r’ mov1 opisana jest reguła 

nieistotna, to algorytm jest przerywany. 

Opisywany, zmodyfikowany sposób uzyskiwania pozycji wstawienia jedynki 

r’ mov1 umoŜliwia uzyskanie reguły, która moŜe wykonywać lepszą klasyfikację niŜ 

usunięta reguła z pozycji r mov1 . Dzieje się tak dlatego, Ŝe obszar 

A × A × ... × A 

m 

× ... × A jest zazwyczaj (za wyjątkiem obszarów brzegowych) 

K −1 

i 

1 

K −1 

i 

większy niŜ 

2 

K −1 

i 

K −1 

i 

A × A × ... × A 

m 

× ... × A 

n 

K K 

K 

K 

i i 

i 

i 

, a wiec moŜe klasyfikować większą liczbę 

1 2 

n 

obiektów. JeŜeli usuwana reguła miała znaczący wpływ na wykonywaną klasyfikację, 

to moŜna liczyć się z poprawą klasyfikacji poprzez zakodowanie nowej reguły, 

poniewaŜ obszary kodowane przez obie reguły przynajmniej częściowo pokrywają się. 

Funkcja przystosowania dana wzorem 5-33 (ew. 5-34) koduje sobą zadanie 

optymalizacji dwukryterialnej. W tej sytuacji trudnym moŜe okazać się uzyskanie takiej 

grupy reguł A, które potrafią sklasyfikować poprawnie 100% (lub prawie 100%) danych 

uczących. Algorytm genetyczny moŜe podąŜyć w stronę minimalizacji liczności zbioru 

A, nie wykazując przy tym znaczących postępów przy maksymalizacji liczby poprawnie 

klasyfikowanych elementów uczących. śeby wymusić na algorytmie genetycznym 

wykonanie poprawnej klasyfikacji wszystkich (lub prawie wszystkich) danych uczących 

proponuję wprowadzenie operatora nieproporcjonalnego wstawienia jedynki. Jego 

działanie polegać będzie na losowym dodawaniu jedynek we fragmencie chromosomu 

n

78 

K 

chS = 

K max 

. Fragment ten koduje reguły uzyskane z ostatniego podziału K max 

wykonanego podczas realizacji algorytmu 5-1. Wszystkie reguły z tego obszaru razem 

potrafią wykonać poprawną klasyfikację wszystkich danych uczących, co jest 

warunkiem zatrzymania algorytmu 5-1. Algorytm 5-1 tworzy reguły opisane na coraz 

mniejszych obszarach 

A × A × ... × A 

m 

× ... × A 

K K 

K 

K 

i i 

i 

i 

przestrzeni danych uczących dla 

1 2 

n 

kaŜdego kolejnego jego przebiegu. Tym samym reguły ze zbioru 

K K 

S = 

max 

opisane są na 

najmniejszych obszarach, a przez to klasyfikują niewielkie ilości danych uczących. 

NaleŜy się więc spodziewać, Ŝe przewaŜnie reguły ze zbioru 

K K 

S = 

max 

klasyfikują dane 

uczące tylko jednej klasy, a co za tym idzie wartość zaufania do klasyfikacji 

K K 

CF = 

max 

i1 i2... 

im 

... in 

z reguły 

K K 

R = 

max 

i1 i2... 

im 

... in 

wynosi 100%. Z tego powodu dołączanie właśnie tych reguł do 

zbioru A wpłynie w moŜliwie małym stopniu na wartość ||A||, a tym samym na 

pogorszenie wartości przystosowania chromosomu kodującego zbiór A. Oczekiwać 

naleŜy, Ŝe losowe dołączenie do zbioru A reguły 

K K 

R = 

max 

i1 i2... 

im 

... in 

nie zmieni poprawności 

wykonywanej klasyfikacji lub nieco ją poprawi np.: o kolejny poprawnie klasyfikowany 

obiekt uczący. 

W wypadku poszukiwania rozwiązania zadania optymalizacji dwukryterialnej 

algorytm genetyczny bez zastosowania operatora nieproporcjonalnego wstawienia 

jedynki potrafi wyszukać dobre dość dobre rozwiązanie. Jednak nie gwarantuje ono w 

100% poprawnej klasyfikacji. Do osiągniętego zbioru reguł A naleŜy dodać reguły 

realizujące poprawną klasyfikację elementów uczących, które to elementy nie są 

poprawnie klasyfikowane przez reguły ze zbioru A. Tylko nieliczne z reguł ze zbioru 

K 

S = 

K max 

realizują ten warunek – większość z nich klasyfikuje poprawnie elementy 

uczące juŜ sklasyfikowane poprawnie przez zbiór wybranych reguł A. Z tego powodu 

zalecam zastosowanie parametru p ins1 określającego jak często ma być uruchamiany 

operator nieproporcjonalnego wstawienia jedynki o podobnym znaczeniu jak we wzorze 

5-38. Niech wartość parametru p ins1 naleŜy do liczb rzeczywistych nieujemnych, a część 

całkowita int(p ins1 ) określa liczbę wstawień jedynki we fragment chromosomu 

K 

chS = 

K max 

, a część ułamkowa p ins1 -int(p ins1 ) – prawdopodobieństwo zajścia zdarzenia 

polegającego na jeszcze jednym wstawieniu jedynki we fragment chromosomu 

K K 

chS = max 

. 

{ 0} 

p 

1 

∈ R 

+ 

ins 

∪ gdzie: 

(5-39) 

K K max 

chS = 

int(p ins1 )∈ℵ∪{0} – (część całkowita p ins1 ) liczba wstawień jedynki we fragment 

chromosomu

79 

p ins1 - int(p ins1 ) ∈〈0,1〉⊂R + ∪{0} – (część ułamkowa p ins1 ) prawdopodobieństwo 

zdarzenia polegającego na wstawieniu jeszcze jednej jedynki we fragment 

K Kmax 

chromosomu chS = 

Działanie operatora nieproporcjonalnego wstawienia jedynki ma na celu jedynie 

zmaksymalizowanie wartości k(A), ale odbywa się to kosztem wartości ||A||. NaleŜy 

spodziewać się, Ŝe wartość p ins1 wymagana do odszukania reguły, która podniesie 

wartość k(A) o przynajmniej jeden, spowoduje najwyŜej przyrost wartości ||A|| o 

int(p ins1 )+1 (jeŜeli część ułamkowa p ins1 jest róŜna od zera) lub o p ins1 (jeŜeli część 

ułamkowa wartości p ins1 wynosi zero). Przyjmijmy, Ŝe wartość p ins1 przyjmuje wartości 

tylko całkowite. śeby działanie operatora nieproporcjonalnego wstawienia jedynki 

umoŜliwiało dalsze przetwarzanie osobnika uzyskanego po wstawieniu p ins1 jedynek, 

wartość przystosowania (wzór 5-33) tego osobnika musi się polepszyć i to nawet dla 

przypadku, gdy uzyskamy poprawę klasyfikacji o tylko jeden punkt pomiarowy 

kosztem przyłączenia do zbioru A jeszcze p ins1 jedynek (wzór 5-40). PoniewaŜ jedynki 

te dołączane są do ostatniego z wyróŜnionych fragmentów chromosomu 

dodatkowo funkcja kary w(A) wzrośnie o wartość K max ⋅p ins1 . 

K K 

chS = 

max 

, to 

⎪⎧ 

max⎨0; 

⎪⎩ 

⎪⎧ 

max⎨0; 

⎪⎩ 

a ⋅ 

a ⋅ k( 

A) 

− b ⋅ A − c ⋅ w( 

A) 

⎪⎫ 

⎬ 

a ⋅ D − b ⋅ M ⎪⎭ 

[ k( 

A) 

+ 1] − b ⋅ [ A + p ] − c ⋅ [ w( 

A + K ⋅ p ] ⎫ 

m 

a ⋅ 

ins1 ) 

D − b ⋅ M 

m 

< 

(5-40) 

max 

ins1 

⇓ i a,b,c,m∈R + i a≥b>>c>0 

[ k( 

A) 

+ 1] − b ⋅ [ A + pins 

1 

] − c ⋅ [ w( 

A) 

+ K 

max 

⋅ p 

1] 

⇓ 

a ⋅ k( A) 

− b ⋅ A − c ⋅ w( 

A) 

< a ⋅ 

ins 

0 < a − b ⋅ pins 

1 

− c ⋅ K 

max 

⋅ pins1 

⇓ 

( b c ⋅ K ) a 

p ins 1 

+ 

max 

< 

(5-41) 

⎪ 

⎬ 

⎪⎭ 

Po zakończeniu algorytmu 5-1 wartość K max jest juŜ ustalona. Po określeniu 

wartości p ins1 i ustaleniu wartości b i c ze wzoru 5-33 opisującego funkcję 

przystosowania, wartość a z tego wzoru powinna spełniać nierówność 5-41. 

JeŜeli najlepszy chromosom w generacji będzie potrafił wykonać poprawną 

klasyfikację wszystkich danych uczących, to działanie operatora nieproporcjonalnego 

wstawienie jedynki naleŜy zakończyć, gdyŜ będzie on przeszkadzał pozostałym 

operatorom algorytmu genetycznego w dalszej poprawie juŜ uzyskanego wyniku.

80 

→ 

→ 

stan początkowy 

po nieproporcjonalnym 

wstawieniu jedynki 

→ 

→ 

po inteligentnym 

przesunięciu jedynki 

po dwukrotnym 

usunięciu jedynki 

Rysunek 5-13. Przykład działania operatorów kodujących wiedzę o zadaniu – na 

rysunkach przedstawiono reguły kodowane przez chromosom (kolorem czerwonym 

zaznaczono nowe reguły) słuŜące do klasyfikacji obiektów klasy C1 i C2 w przestrzeni 

jednowymiarowej. 

Wartość p ins1 moŜna przyjąć jako małą np.: poniŜej jedynki i wtedy po dłuŜszym 

czasie realizacji algorytmu genetycznego moŜna spodziewać się poprawy klasyfikacji o 

przynajmniej jeden punkt uczący. Stanie się to moŜliwie nieduŜym kosztem 

polegającym na dodaniu do zbioru A niewielkiej liczby reguł p ins1 (gdy wartość p ins1 ≤1 

to tylko kosztem dodania jednej reguły). Sytuacja taka jest bardzo efektywnym 

przykładem działania opisywanego operatora, ale odbywa się to kosztem wielu pokoleń 

– co nie zawsze jest dopuszczalne (ze względu m.in. na czas realizacji algorytmu 

genetycznego). MoŜemy ustalić nawet dość duŜą wartość p ins1 , ale pod warunkiem 

wyregulowania parametrów ze wzoru 5-33 opisującego funkcję przystosowania tak, aby 

spełniały nierówność 5-41. W wypadku uzyskania poprawy klasyfikacji o jeden punkt 

uczący naleŜy liczyć się z powiększeniem liczby reguł o p ins1 . To zdarzenie moŜe się 

wielokrotnie powtórzyć zanim osiągniemy poprawną klasyfikację wszystkich danych 

uczących. – otrzymujemy chromosom, który realizuje poprawnie w 100% klasyfikacje,

ale który zawiera duŜo reguł klasyfikujących. Reguły te podczas uczenia się algorytmu 

genetycznego będą redukowane dzięki pozostałym operatorom genetycznym. 

5.3.8. Interpretacja wyników 

81 

Algorytm genetyczny nie rozwiązuje zadania optymalizacji w dosłownym tego 

słowa znaczeniu (z łac. optimus – najlepszy) poprzez dostarczenie najlepszego 

rozwiązania, ale dostarcza rozwiązanie najlepsze z grupy sprawdzonych podczas pracy 

algorytmu. Rozpatrywane zadanie maksymalizacji moŜe dawać po kaŜdym przebiegu 

algorytmu genetycznego zupełnie róŜny wynik – maksimum lokalne, które osiągnął 

algorytm. W związku z tym naleŜy ustalić kryterium uznające wynik uzyskany z 

przebiegu algorytmu genetycznego za dobry. Niech wstępnym takim kryterium będzie 

poprawna klasyfikacja wszystkich danych uczących lub bez najwyŜej jednego punktu 

pomiarowego przy liczbie reguł poniŜej liczby elementów uczących (5-42). 

k(A) ≥ ||D||-1 i ||A|| < ||D|| (5-42) 

Niech chromosom ch kodujący sobą zbiór A, który spełnia warunek 5-42 

nazywany będzie sztucznym ekspertem. ZałóŜmy, Ŝe po wielu realizacjach algorytmu 

genetycznego będziemy dysponować grupą „sztucznych ekspertów” I (przykład 5-5). 

Po uzyskaniu licznej grupy sztucznych ekspertów I moŜna zaostrzyć kryterium dane 

wzorem 5-42 chociaŜby poprzez zmniejszenie wartości, poniŜej której liczba reguł ze 

zbioru A będzie traktowana jako ekspert np.: ||A|| < ||D|| / 2. 

KaŜdy ze sztucznych ekspertów potrafi wykonać klasyfikację obiektu 

x=(x 1 ,x 2 ,...,x m ,...,x n ) w przestrzeni n-wymiarowej do klasy CT 0 (gdzie T 0 ∈{1,2,...,M} i M 

jest ilością klas) z zaufaniem α CT0 

zgodnie ze wzorem 5-14. NaleŜy określić sposób 

wyboru z grupy wykonanych klasyfikacji (przez poszczególnych sztucznych ekspertów) 

z róŜnymi wartościami zaufania klasyfikację najbardziej trafną. Jednym z najprostszych 

rozwiązań jest posłuŜenie się wartością zaufania do wykonanej klasyfikacji – 

chromosom wykonujący klasyfikację z przypisaną największą wartością zaufania 

będzie uznany za chromosom udzielający najbardziej trafnej klasyfikacji obiektu 

x=(x 1 ,x 2 ,...,x m ,...,x n ). Niekoniecznie to rozwiązanie jest najlepsze, gdyŜ wraz ze 

zmniejszaniem się wartości ||A|| maleje zaufanie do udzielanej odpowiedzi – uzyskane 

reguły przyporządkowane są do duŜych obszarów przestrzeni danych uczących, w 

obrębie których znajdować się mogą dane róŜnych klas, co wpływa na obniŜanie 

zaufanie do danej reguły (rysunek 5-13 przed i po usunięciu jedynek). Z tego powodu

zaufanie do udzielanej klasyfikacji ma nieduŜą wartość dla sztucznego eksperta o 

niewielkiej liczbie reguł, a dla eksperta o duŜej liczbie reguł naleŜy spodziewać się 

klasyfikacji o duŜych wartościach zaufania. 

Przykład 5-5 

Grupa „sztucznych ekspertów” I uzyskana dla danych uczących z przykładu 5-1, czyli 

obiektów klas C1 i C2. Kolorem czerwonym zaznaczono obszary, w których nowy obiekt 

zostanie sklasyfikowany jako C2, niebieskim – jako C1. KaŜdy z ekspertów wykonuje 

klasyfikację za pomocą pięciu reguł i kaŜdy z nich koduje sobą inną grupę reguł. 

82 

Rysunek 5-14. Grupa „sztucznych ekspertów” I (objaśnienia w tekście) - 

- rezultat pracy programu kulki.exe 

Trzeba liczyć się z tym, Ŝe sztuczny ekspert o wysokiej wartości przystosowania 

(małej wartości ||A||) zostanie „zakrzyczany” przez gorzej przystosowanego eksperta. 

Aby nie dopuścić do tej sytuacji proponuję za najbardziej trafną klasyfikację wykonaną 

przez grupę ekspertów uznać I klasyfikację eksperta, dla którego wartość iloczynu 

przystosowania Φ (ch) 

oraz zaufania α CT0 

osiąga wartość największą (5-43). 

max{ Φ ( ch) 

⋅α CT 

} 

(5-43) 

0

83 

6. Diagnostyka transformatorów 

6.1. Problemy i metody 

Transformator ([i.10], [i.11], [i.12]) jako urządzenie elektryczne [21] słuŜy do 

zmiany wielkości napięcia prądu przemiennego, które to zmiany wymuszone są 

koniecznością minimalizacji strat energii podczas przesyłu siecią elektroenergetyczną. 

W celu zapewnienia poprawnej pracy transformatora przeprowadza się rozmaite 

pomiary [48] i próby eksploatacyjne takie jak: pomiar rezystancji izolacji, pomiar 

współczynnika stratności, pomiar rezystancji uzwojeń, badania pod obciąŜeniem 

przełącznika zaczepów, badanie wyładowań niezupełnych, analiza wibroakustyczna, 

badania oleju w zakresie: klarowności, lepkości, gęstości, zawartości obcych ciał 

stałych, liczby kwasowej, temperatury zapłonu, napięcia przebicia, rezystywności, 

współczynnika stratności, zawartości wody oraz analiza chromatograficzna gazów (z 

ang. DGA – Dissolved Gas Analysis) rozpuszczonych w oleju transformatora ([49], 

[40]). Ów olej stosowany jest jako chłodziwo i izolator. Opływa on większość 

elementów transformatora. JeŜeli zaczynają się one psuć, to doprowadzają do degradacji 

oleju, co objawia się m.in. wydzielaniem się w nim rozmaitych gazów. Ich skład 

chemiczny oraz ilościowy zaleŜy od rodzaju uszkodzenia. Analiza chromatograficzna 

umoŜliwia wykonanie analizy jakościowej i ilościowej mieszaniny gazów 

wyekstrahowanych z pobranej próbki oleju transformatorowego. Na podstawie 

wyników DGA moŜna postawić diagnozę dotyczącą stanu technicznego transformatora 

olejowego. Metoda DGA jest dość tania i zyskuje coraz większą popularność m.in. 

dlatego, Ŝe nie wymaga wyłączenia transformatora z sieci elektroenergetycznej celem 

przeprowadzenia diagnozy.

84 

6.2. Diagnostyka na podstawie rezultatów chromatografii gazowej (DGA) 

6.2.1. Chemiczne podstawy chromatografii gazowej 

Chromatografia ([i.8] , [i.9]) jest znana od początku XX wieku [86], ale dopiero w 

drugiej jego połowie rozpoczął się jej szybki rozwój (po wynalezieniu chromatografu 

gazowego), aŜ do dnia dzisiejszego, gdzie stanowi jedną z najbardziej 

rozpowszechnionych metod w chemii analitycznej [31]. Wysoką pozycję w chemii 

analitycznej chromatografia zawdzięcza moŜliwości wykrywania substancji 

analizowanej i oznaczania jej ilości w próbce na bardzo niskim poziomie wobec innych 

substancji (np.: za pomocą chromatografii gazowej w jednym litrze wody moŜna 

wykryć pikogram analizowanej substancji – porównywalnie jak za pomocą 

spektrometrii masowej). 

Istotą rozdzielania chromatograficznego [85] jest działanie dwóch sił: 

powodującej ruch cząsteczek w określonym kierunku i hamującej ten ruch. Warunkiem 

rozdzielenia mieszaniny jest zróŜnicowanie siły hamującej w odniesieniu do 

poszczególnych komponentów mieszaniny. Najczęściej siłą powodującą ruch jest 

przepływ gazu, cieczy lub płynu w stanie nadkrytycznym przez złoŜe mające zdolność 

adsorbowania lub absorbowania (rozpuszczania) substancji. Siłą hamującą jest 

oddziaływanie tego złoŜa z komponentami mieszaniny. ZłoŜem moŜe zostać ciało stałe 

w postaci drobnych ziaren o rozwiniętej powierzchni (adsorbent) lub ciecz naniesiona 

cienką warstwą na powierzchnię ciała stałego. Adsorbent lub ciecz absorbująca 

(rozpuszczająca) nazywane są fazą stacjonarną, a czynnik przepływający przez złoŜe – 

fazą ruchomą. W zaleŜności od zastosowanej fazy ruchomej: gazu, cieczy lub płynu w 

stanie nadkrytycznym chromatografię dzielimy odpowiednio na gazową, cieczową i 

nadkrytyczną. 

ZałóŜmy, Ŝe mamy do czynienia z dwoma składnikami A i B mieszaniny, przy 

czym składnik A słabo rozpuszcza się lub adsorbuje w fazie nieruchomej. Spowoduje 

to, Ŝe składnik A będzie przemieszczał się szybciej przez układ chromatograficzny – 

urządzenie zwane chromatografem. Wykonując chromatografię naleŜy tak dobrać jej 

warunki (rodzaj fazy stacjonarnej, rodzaj fazy ruchomej, prędkość przepływu fazy 

ruchomej oraz temperaturę), aby rozdzielić składniki mieszaniny A i B na wyjściu 

chromatografu, gdzie umieszczony jest rejestrator (rysunek 6-1), który rejestruje

opuszczające chromatograf składniki mieszaniny w formie tzw. pików 

chromatograficznych (rysunek 6-2). 

85 

Rysunek 6-1. Schemat chromatografu gazowego (1 – zbiornik lub wytwornica gazu 

nośnego, 2- regulator przepływu gazu nośnego, 3 – odtleniacz i osuszacz gazu nośnego, 

4 – przepływomierz gazu nośnego, 5 – dozownik, 6 – kolumna chromatograficzna, 

7 – detektor, 8 – termostat kolumny, 9 – regulator temperatury dozownika, kolumny i 

detektora, 10 – urządzenie dozujące mieszaninę, 11 – wzmacniacz sygnału detektora, 

12 – rejestrator pików chromatograficznych lub komputer). Kolorem niebieskim 

zaznaczono kierunek przepływu gazu (na podstawie [86]). 

Rysunek 6-2. Chromatogramy z pikami chromatograficznymi (przedruk z [86]) 

uzyskane na sitach cząsteczkowych 5A po 18 godzinach aktywacji w temperaturze 

150 0 C (bez rozdzielenia CO i CH 4 ) i 250 0 C (z widocznym rozdzieleniem CO i CH 4 ). 

Przy chromatografii gazowej najczęściej stosowane są detektory róŜniczkowe, 

które generują przyrost sygnału proporcjonalny do przyrostu stęŜenia (lub masy) 

substancji w gazie nośnym. Ta zmiana sygnału rejestrowana jest w formie piku. Na 

podstawie połoŜenia piku na chromatogramie moŜna zidentyfikować poszczególne 

składniki badanej mieszaniny. MoŜliwe jest teŜ połączenie chromatografu ze

spektrometrem masowym i identyfikacja składników mieszaniny na podstawie jego 

wskazań. Ilość substancji w mieszaninie zaleŜy od wielkości odpowiadającego jej piku, 

gdyŜ wysokość i powierzchnia piku są proporcjonalne do ilości oznaczanego składnika. 

JeŜeli pik jest symetryczny i wąski, to do analizy ilościowej uŜywa się wysokości piku 

chociaŜ jest ona wraŜliwa na czas dozowania próbki oraz nawet niewielkie zmiany 

prędkości gazu nośnego. W celu otrzymania dokładnych wyników korzystniejsze jest 

mierzenie powierzchni piku i porównanie jej z pikiem wyznaczonym ze znanej ilości 

substancji wzorcowej. Powierzchnię piku S piku wyznacza się na podstawie wzoru (6-1), 

86 

S piku 

⎧ h ⋅ w0,50 

⎪ 

= ⎨ w0,15 

+ w 

⎪h 

⋅ 

⎩ 2 

0,85 

(6-1) 

- gdy pik jest symetryczny 

- gdy pik jest niesymetryczny 

gdzie h jest wysokością piku, w 

0 ,50 

, w0,15 

, w0, 

85 

- szerokością odpowiednio w 

połowie jego wysokości oraz na 15% i 85% jego wysokości. 

Dokładność uzyskanego wyniku moŜe określić doświadczony chemik. ZaleŜy 

bowiem ona od wielu czynników chemicznych. Jak wynika z wywiadu wynik moŜe być 

wyznaczony z dokładnością ±5% na technicznie najgorszych chromatografach. Istnieją 

jednak sposoby łączenia róŜnych metod analitycznych celem wyznaczenia bardzo 

dokładnego wyniku np.: chromatograf gazowy połączony ze spektrometrem masowym. 

6.2.2. Metoda kodu IEC 

Metoda kodu IEC zaproponowana przez International Electrotechnical 

Commission [i.1] jest jedną z popularniejszych ([62], [25], [66]) metod diagnostyki 

stanu technicznego transformatora olejowego [76] w oparciu o dane z chromatografii 

gazowej – DGA.. Do zastosowania kodu IEC naleŜy uzyskać z chromatografu dane 

dotyczące występowania gazów: H 2 - wodór, CH 4 - metan, C 2 H 2 - acetylen, C 2 H 4 - 

etylen, C 2 H 6 - etan. Dane te dotyczą stęŜenia i są podawane w jednostkach ppm (z ang. 

parts per milion), czyli objętościowo w części na milion. Na ich podstawie wyznacza się 

ilorazy * opisane wzorem (6-2). 

* We wszystkich występujących w tym rozdziale rysunkach 3-wymiarowych na osi OX będzie 

prezentowana wartość ilorazu x, na OY - y, a na OZ - wartość ilorazu z.

87 

x = C H 

C H 

2 2 

2 4 

, y = CH H 

2 

4 

, z = C H 

C H 

2 4 

2 6 

. (6-2) 

W zaleŜności od wartości ilorazów opisanych wzorem (6-2) przypisuje się im 

odpowiednie kody zebrane w tabeli 6-1. 

iloraz C2 H2 

CH4 

C H 

wartość ilorazu 

C2 H4 

H2 

C H 

〈0, 0.1) 0 1 0 

〈0.1, 1) 1 0 0 

〈1, 3〉 1 2 1 

większa niŜ 3 2 2 2 

Tabela 6-1. Kod IEC 

2 4 

2 6 

Dysponując kodami IEC dokonuje się klasyfikacji uszkodzenia transformatora. Zasady 

klasyfikacji zebrane są w tabeli 6-2. Na tej podstawie moŜna uzyskać 11 reguł jeŜeli-to 

określających stan techniczny transformatora (tabela 6-3). 

Kod 

C2 H2 

C H 

2 4 

Kod 

CH 

4 

H 

2 

Kod 

C2 H4 

C H 

2 6 

Kod 

IEC 

Klasyfikacja uszkodzenia 

0 0 0 000 Bez uszkodzeń 

0 1 0 010 Wyładowania niezupełne o małej energii 

1 1 0 110 Wyładowania niezupełne o duŜej energii 

1 lub 2 0 1 lub 2 * 101 Wyładowania zupełne o małej energii 

201 

202 

1 0 2 102 Wyładowania zupełne o duŜej energii 

0 0 1 001 Przegrzanie o temperaturę mniejszą niŜ 150 0 C 

0 2 0 020 Przegrzanie o temperaturę (150 0 C, 300 0 C〉 

0 2 1 021 Przegrzanie o temperaturę (300 0 C, 700 0 C〉 

0 2 2 022 Przegrzanie o temperaturę większą niŜ 700 0 C 

Kod wykraczający poza 

Niezidentyfikowane uszkodzenie 

powyŜsze symbole 

Tabela 6-2. Klasyfikacja stanu technicznego transformatora według kodu IEC 

Reguła 1 JeŜeli kod IEC = 000, to transformator nie jest uszkodzony. 

Reguła 2 JeŜeli kod IEC = 010, to w transformatorze występują wyładowania 

niezupełne o małej energii. 


niezupełne o duŜej energii. 


* Kod 102 jest w praktyce interpretowany jako „Wyładowania zupełne o duŜej energii”

zupełne o małej energii. 






zupełne o duŜej energii. 

Reguła 8 JeŜeli kod IEC = 001, to w transformatorze występują przegrzania o 

temperaturze mniejszej niŜ 150 0 C. 


temperaturze od 150 0 C do 300 0 C. 


temperaturze od 300 0 C do 700 0 C. 


temperaturze powyŜej 700 0 C. 

Tabela 6-3 Reguły jeŜeli-to dotyczące klasyfikacji wg kodu IEC 

88 

Rysunek 6-3. Graficzna ilustracja reguł według kodu IEC. Obszar przezroczysty to 

„Niezidentyfikowane uszkodzenie” (współrzędne X, Y, Z - wg uwagi do wzoru 6-2) 

Reguły z tabeli 6-3 moŜna przedstawić graficznie w sposób ukazany na rysunku 

6-3, z którego widać, Ŝe większa część trójwymiarowej przestrzeni XYZ odpowiada 

stanowi technicznemu „Niezidentyfikowane uszkodzenie”. Nie naleŜy się jednak 

sugerować rozmiarami poszczególnych obszarów klasyfikujących zaprezentowanych na 

rysunku 6-3 celem określenia częstości zaistnienia danego stanu technicznego. Praktyka

pokazuje, Ŝe uzyskane wyniki pomiarów nie są w zaprezentowanej na rysunku 6-3 

przestrzeni XYZ rozłoŜone równomiernie. 

89 

Klasa stanu technicznego Liczba pomiarów 

Bez uszkodzeń 33 

Wyładowania niezupełne o małej energii 11 

Wyładowania niezupełne o duŜej energii 2 

Wyładowania zupełne o małej energii 10 

Wyładowania zupełne o duŜej energii 20 

Przegrzanie o temperaturę mniejszą niŜ 150 0 C 29 

Przegrzanie o temperaturę (150 0 C, 300 0 C〉 24 

Przegrzanie o temperaturę (300 0 C, 700 0 C〉 79 

Przegrzanie o temperaturę większą niŜ 700 0 C 94 

Niezidentyfikowane uszkodzenie 64 

Nie moŜna zastosować metody kodu IEC 78 

Razem: 444 

Tabela 6-4. Liczba pomiarów naleŜących do danej klasy stanu technicznego dla metody 

kodu IEC – dla 444 uzyskanych rzeczywistych pomiarów [89] 

Jak moŜna się wstępnie zorientować z zestawienia prezentowanego w tabeli 6-4, 

w większości przypadków praktycznych występują przegrzania o temperaturze 

przekraczającej 300 0 C i 700 0 C. Dość duŜa jest teŜ liczba przypadków, gdzie diagnoza 

nie moŜe być postawiona. Nieczęsto występują wyładowania niezupełne, a liczba 

transformatorów bez uszkodzeń równieŜ nie jest duŜa. Tłumaczyć to moŜna faktem, Ŝe 

diagnozy wykonuje się częściej dla jednostek uszkodzonych, aby w porę zapobiec 

powaŜnym uszkodzeniom (a nawet zniszczeniu) transformatora. 

6.2.3. Metoda polska 

Metoda polska jest rozwinięciem metody kodu IEC m.in. o wartości stosunków 

węglowodorów nienasyconych do nasyconych, co umoŜliwia weryfikację lokalnych 

przegrzań. Metoda ta uwzględnia następujące gazy: H 2 - wodór, CH 4 - metan, C 2 H 2 - 

acetylen, C 2 H 4 - etylen, C 2 H 6 - etan, C 3 H 8 – propan, C 3 H 6 – propylen, CO – tlenek 

węgla, CO 2 – dwutlenek węgla, których ilość podana jest w jednostkach ppm (parts per 

milion). Względem kodu IEC metoda polska umoŜliwia do pewnego stopnia 

weryfikację diagnozy, poniewaŜ opiera się na kilku zestawieniach stęŜeń gazów 

uzyskanych z DGA: 

- dopuszczalne stęŜenia gazów 

- kod IEC

90 

- stosunki stęŜeń węglowodorów nienasyconych do nasyconych 

- stosunek stęŜenia dwutlenku węgla do tlenku węgla. 

Dopuszczalne wartości stęŜeń gazów prezentuje tabela 6-5. Wartości te zostały 

opracowane w oparciu o oględziny wewnętrzne transformatora i zaleŜą one tylko od 

typu transformatora (blokowy lub sieciowy), a nie od okresu eksploatacji ([20], [66]). 

Gaz 

Transformator 

blokowy 

sieciowy 

H 2 260 500 

CH 4 250 200 

C 2 H 6 160 170 

C 2 H 4 250 260 

C 2 H 2 20 70 

C 3 H 8 40 30 

C 3 H 6 40 40 

CO 280 260 

CO 2 3500 4000 

Tabela 6-5. Dopuszczalne wartości stęŜeń gazów (w ppm) 

Stosunki stęŜeń węglowodorów nienasyconych do nasyconych prezentowane w 

tabeli 6-6, słuŜą do weryfikacji przegrzań i do określenia ich temperatury. 

Temperatura 

C2H 

C H 

2 

4 

6 

C 

C 

3 

3 

H 

H 

6 

8 

C2H 

C H 

3 

4 

8 

od150 0 C do 300 0 C (0, 1) (0, 2) (0, 3) 

od 300 0 C do 700 0 C 〈1, 3〉〈2, 6〉〈3, 15〉 

powyŜej 700 0 C więcej niŜ 3 więcej niŜ 6 więcej niŜ 15 

Tabela 6-6. Stosunki gazów w zaleŜności od temperatury przegrzania 

Podczas normalnej pracy transformatora wartość ilorazu 

CO 2 

CO 

naleŜy do 

przedziału (3, 7). W metodzie polskiej przyjęto występowanie uszkodzenia izolacji 

celulozowej, gdy CO lub CO 2 przekracza wartość dopuszczalną podaną w tabeli 2-6 

CO 

oraz gdy 2 

> 0, 3. 

CO

Metoda polska kończy się postawieniem diagnozy wg kodu IEC z ewentualnym 

uzupełnieniem o uszkodzeniach w izolacji celulozowej. Ponadto jeŜeli Ŝaden z gazów 

nie przekroczył wartości dopuszczalnej, to diagnoza wg kodu IEC o uszkodzeniu 

traktowana jest tylko jako symptom zdiagnozowanego uszkodzenia. Wszelkie 

przegrzania mogą być dodatkowo zweryfikowane wg tabeli 6-6. 

91 

Klasa stanu technicznego 

Liczba 

pomiarów 

Liczba 

uszkodzeń 

izolacji 

Liczba 

potwierdzeń 

przegrzania 

(poprawnych i 

błędnych) 

Liczba 

symptomów 

uszkodzenia 

Bez uszkodzeń 33 0 - - 

Wyładowania niezupełne o małej energii 11 0 - 3 

Wyładowania niezupełne o duŜej energii 2 0 - 0 

Wyładowania zupełne o małej energii 10 3 - 6 

Wyładowania zupełne o duŜej energii 20 2 - 2 

Przegrzanie o temperaturę mniejszą niŜ 150 0 C 29 3 0 / 11 16 

Przegrzanie o temperaturę (150 0 C, 300 0 C〉 24 0 18 / 0 9 

Przegrzanie o temperaturę (300 0 C, 700 0 C〉 79 6 29 / 0 20 

Przegrzanie o temperaturę większą niŜ 700 0 C 94 0 52 / 0 17 

Niezidentyfikowane uszkodzenie 64 6 - - 

Nie moŜna zastosować metody polskiej 78 8 - - 

Razem: 444 

Tabela 6-7. Liczba pomiarów naleŜących do danej klasy stanu technicznego dla metody polskiej 

(znak - oznacza „nie dotyczy”) wraz z uzupełnieniem diagnozy stanem izolacji, 

potwierdzeniem przegrzania i kontrolą przekroczenia wartości dopuszczalnych stęŜeń 

Analizując zestawienie uzyskanych diagnoz dla metody polskiej (tabela 6-7) 

moŜna zauwaŜyć, Ŝe wszystkie przegrzania o temperaturze powyŜej 150 0 C były dość 

często potwierdzane i to poprawnie. Jedynie dla przegrzań o temperaturze niŜszej niŜ 

150 0 C uzyskane potwierdzenia wskazywały na przegrzania o temperaturze powyŜej 

300 0 C. JeŜeli dodatkowo uwzględnimy, Ŝe w ponad połowie przypadków nie 

przekroczono dopuszczalnych stęŜeń gazów (zaobserwowano tylko symptomy 

uszkodzenia), to moŜna stwierdzić, ze diagnoza „Przegrzanie o temperaturę mniejszą 

niŜ 150 0 C” nie naleŜy do pewnych. Przeciwieństwem tego stanu jest diagnoza 

„Wyładowania zupełne o duŜej energii”, gdzie zaledwie 2 przypadki okazały się być 

symptomami tego uszkodzenia. NaleŜy teŜ zaznaczyć, Ŝe gdyby uwzględnić 

uszkodzenie izolacji celulozowej w przypadkach, gdy metoda polska nie daje diagnozy, 

to moŜna w ten sposób zdiagnozować jeszcze 14 przypadków pomiarów.

Dzięki uzupełnieniu informacji o stanie technicznym transformatora 

dodatkowymi zestawieniami metoda ta wydaje się duŜo bardziej pewniejsza niŜ kodu 

IEC. 

92 

6.2.4. Metoda polska pogłębiona 

Pogłębiona metoda polska jest modyfikacją metody polskiej, polegającej na 

zmianie weryfikacji przegrzań, która dla metody polskiej polegała na sprawdzeniu 

wartości trzech ilorazów prezentowanych w tabeli 6-6. W metodzie pogłębionej 

przyjęto, Ŝe dla przegrzań o temperaturze powyŜej 300 0 C odpowiednie wartości 

przyjmować muszą dwa, a nie trzy ilorazy (tabela 6-6). 


Liczba 

pomiarów 

Liczba 

uszkodzeń 

izolacji 

Liczba 

potwierdzeń 

przegrzania 

(poprawnych i 

błędnych) 

Liczba 

symptomów 

uszkodzenia 

Bez uszkodzeń 33 0 - - 

Wyładowania niezupełne o małej energii 11 0 - 3 

Wyładowania niezupełne o duŜej energii 2 0 - 0 

Wyładowania zupełne o małej energii 10 3 - 6 

Wyładowania zupełne o duŜej energii 20 2 - 2 

Przegrzanie o temperaturę mniejszą niŜ 150 0 C 29 3 0 / 16 16 

Przegrzanie o temperaturę (150 0 C, 300 0 C〉 24 0 18 / 3 9 

Przegrzanie o temperaturę (300 0 C, 700 0 C〉 79 6 52 / 15 20 

Przegrzanie o temperaturę większą niŜ 700 0 C 94 0 64 / 1 17 

Niezidentyfikowane uszkodzenie 64 6 - - 

Nie moŜna zastosować metody polskiej 78 8 - - 

Razem: 444 

Tabela 6-8. Liczba pomiarów naleŜących do danej klasy stanu technicznego dla metody polskiej 

pogłębionej (znak - oznacza „nie dotyczy”) wraz z uzupełnieniem diagnozy stanem izolacji, 

potwierdzeniem przegrzania i kontrolą przekroczenia wartości dopuszczalnych stęŜeń 

Dla metody tej znacząco wzrasta liczba poprawnych potwierdzeń przegrzań i 

jest ona godna uwagi pomimo, Ŝe wzrosła teŜ liczba potwierdzeń przegrzań błędnych, 

czyli o innym zakresie temperatur niŜ właściwa diagnoza. 

6.2.5. Metoda niemiecka 

Metoda ta uwzględnia te same gazy co metoda polska, a ocenę stanu 

technicznego transformatora przeprowadza się w oparciu o:

- wartości dopuszczalnych stęŜeń gazów rozpuszczonych w oleju (ta sama tabela 

wartości dopuszczalnych co dla metody polskiej) 

- pięcioznakowego kodu uszkodzenia, który umoŜliwia postawienie jednej z 

ośmiu diagnoz (tabele 6-9 i 6-10). 

93 

wartość 

stosunku stęŜeń 

stosunek stęŜeń 

C2H 

C H 

2 

2 

6 

H 

2 

CH 

4 

C2H 

C H 

2 

4 

6 

C2H 

C H 

3 

4 

6 

CO 2 * 

CO 

〈0; 0,3) 0 0 0 0 1 

〈0,3; 1,0) 1 0 0 1 1 

〈1,0; 3,0) 1 1 1 2 1 

〈3,0; 10,0〉 2 2 1 3 0 

więcej niŜ 10,0 2 3 1 3 2 

Tabela 6-9. Pięcioznakowy kod metody niemieckiej 

Diagnoza 

Pięcioznakowy kod 

Normalny rozkład izolacji 0000(0) 

Wyładowania o duŜej energii 2113(1) 

Wyładowania o małej energii 2213(1) 

Wyładowania niezupełne o duŜej gęstości energii 130+(0) 

Wyładowania niezupełne o małej gęstości energii 030+(0) 

Przegrzania lokalne do 300 0 C 0001(2) 

Przegrzania lokalne od 300 0 C do 1000 0 C 0012(2) 

Przegrzania lokalne powyŜej 1000 0 C 1013(2) 

Uszkodzenie niezidentyfikowane 

pozostałe wartości kodu 

Tabela 6-10. Diagnozy metody niemieckiej w zaleŜności od pięcioznakowego kodu 

(znak + naleŜy rozumieć jako „nie ma cech wskaźnika”) 

Diagnoza metodą niemiecką kończy się komunikatem o uszkodzeniu uzyskanym 

według tabeli 6-10. 

Jak wykazuje tabela 6-11 (oraz inne prace np.: [62]) metoda niemiecka daje 

diagnozę rzadko, ale jest ona dosyć pewna (co potwierdza porównanie jej wyników z 

metodą kodu IEC). Brak przegrzań lokalnych do 300 0 C potwierdza metodę polską o 

niewielkim zaufaniu do tak postawionej diagnozy (duŜa liczba symptomów uszkodzenia 

w metodzie polskiej). 

* Uwzględniać tylko w przypadku duŜego udziału celulozy w uszkodzeniu - tu przyjęto, Ŝe ma to miejsce 

wówczas, gdy CO lub CO 2 przekroczy wartość dopuszczoną dwukrotnie powiększoną.

Według metody niemieckiej (tabela 6-11) dla analizowanej grupy 444 danych 

pomiarowych nie występują uszkodzenia izolacji celulozowej, co spowodowane jest 

przyjętymi kryteriami na przekroczenie dopuszczalnych stęŜeń CO lub CO 2 (wg uwagi - 

przypisu dolnego - do tabeli 6-9). Mniejszą liczbę diagnoz względem kodu IEC, czy 

brak diagnoz o normalnym rozkładzie izolacji naleŜy tłumaczyć surowymi kryteriami 

metody niemieckiej. 

94 


Liczba pomiarów 

Liczba uszkodzeń 

izolacji celulozowej 

Liczba potwierdzeń 

diagnozy przez kod 

IEC 

Normalny rozkład izolacji 0 0 0 

Wyładowania o duŜej energii 12 0 12 

Wyładowania o małej energii 2 0 1 

Wyładowania niezupełne o duŜej gęstości energii 0 0 0 

Wyładowania niezupełne o małej gęstości energii 13 0 11 

Przegrzania lokalne do 300 0 C 0 0 0 

Przegrzania lokalne od 300 0 C do 1000 0 C 42 0 36 

Przegrzania lokalne powyŜej 1000 0 C 10 0 4 

Uszkodzenie niezidentyfikowane 239 0 48 

Nie moŜna zastosować metody niemieckiej 126 0 - 

Razem: 444 

Tabela 6-11. Liczba pomiarów naleŜących do danej klasy stanu technicznego dla metody 

niemieckiej wraz z uzupełnieniem diagnozy stanem izolacji celulozowej wg metody niemieckiej 

oraz liczba przypadków, które wg kodu IEC potwierdza diagnozę metodą niemiecką 

6.2.6. Metoda francuska 

Metoda ta uwzględnia te same gazy co metoda polska oraz O 2 – tlen i N 2 - azot, 

a ocenę stanu technicznego transformatora przeprowadza się w oparciu o: 

- wartości dopuszczalnych stęŜeń gazów rozpuszczonych w oleju (ta sama 

tabela wartości dopuszczalnych co dla metody polskiej uzupełniona o wartości 

dopuszczalne dla tlenu 8888.9 i dla azotu 66666.7 dla transformatorów 

blokowych i sieciowych) 

- tablicę sprawdzianów zawartą w tabeli 6-12.

PoniewaŜ zbudowany system nie obejmuje pomiarów stęŜenia tlenu i azotu, to przyjęto, 

Ŝe obie te wartości wynoszą zawsze zero i nie przekraczają wartości granicznych. Z 

tego powodu przyjęto posługiwanie się tą samą tabelą wartości dopuszczalnych co dla 

metody polskiej. 

95 

Nazwa grupy 

uszkodzenia 

Warunek 

przynaleŜności 

uszkodzenia do 

grupy 

Diagnoza 

Warunek dla postawienia 

diagnozy 

Uszkodzenie elektryczne 

C2H 

C H 

2 

4 

2 

< 1 

Grupa acetylenowa 

C2H2 przekracza wartość 

dopuszczalną 

Uszkodzenie elektryczne i C2H 

4 

> 50 oraz C 2 H 4 

termiczne C2H 

2 

przekracza wartość dopuszczalną 

Wyładowania niezupełne o 

nieduŜej intensywności nałoŜone 

na występujące od czasu do czasu 

silne wyładowania 

C 2 H 2 < 50 i 

C 

C 

3 

3 

H 

H 

8 

6 

> 1,5 

C 

C 

2 

2 

H 

H 

6 

4 

> 1,5 i 

Uszkodzenie elektryczne 

C2H 

C H 

2 

4 

6 

< 1 i 

C 

C 

3 

3 

H 

H 

6 

8 

< 1 

Grupa etylenowa 

Grupa dwutlenku 

węgla 

C2H2 nie przekracza wartości 

dopuszczalnej 

C2H2 i C2H4 nie 

przekraczają wartości 

dopuszczalnych 

Uszkodzenie termiczne 

C2H 

C H 

2 

4 

6 

> 1 i 

C 

C 

3 

3 

H 

H 

6 

8 

> 1 

Uszkodzenie elektryczne i C2H 

4 

C3H 

6 

< 1 i > 1 lub 

termiczne C2H 

6 

C3H 

8 

C2H 

4 

C3H 

6 

> 1 i < 1, a takŜe 

C2H 

6 

C3H 

8 

C 2 H 4 , C 2 H 6 , C 3 H 6 , C 3 H 8 

wyraźnie (tu przyjęto o 1,5 raza) 


dopuszczalne 

Normalne starzenie termiczne CO ≤ 0,1 

CO 2

96 

Nazwa grupy 

uszkodzenia 

Warunek 

przynaleŜności 

uszkodzenia do 

grupy 

Diagnoza 

Warunek dla postawienia 

diagnozy 

Grupa dwutlenku 

węgla 

C2H2 i C2H4 nie 


dopuszczalnych 

Uszkodzenie elektryczne; moŜna 

oczekiwać wyładowań 

niezupełnych niszczących 

izolację stałą 

CO > 0,1 

CO 2 

Stale występujące wyładowania 

- 

Grupa wodoru 

Tylko H2 i CH4 


dopuszczalne 

niezupełne w oleju lub silne 

wyładowania niezupełne w 

obszarze gazowym 

Tabela 6-12. Tablica sprawdzianów (na bazie [70]) 





IEC 

Normalne starzenie termiczne 111 18 

Uszkodzenie elektryczne 16 16 

Uszkodzenie elektryczne; moŜna oczekiwać 212 9 

wyładowań niezupełnych niszczących izolację 

stałą 

Uszkodzenie elektryczne i termiczne 1 1 

Uszkodzenie termiczne 91 82 

Stale występujące wyładowania niezupełne w oleju 2 0 

lub silne wyładowania niezupełne w obszarze 

gazowym 

Wyładowania niezupełne o nieduŜej intensywności 0 - 

nałoŜone na występujące od czasu do czasu silne 

wyładowania 

Uszkodzenie niezidentyfikowane 11 2 

Nie moŜna zastosować metody francuskiej 0 - 

Razem: 444 

Tabela 6-13. Liczba pomiarów naleŜących do danej klasy stanu technicznego dla 

metody francuskiej

97 

Do zakwalifikowania wyniku do grupy uszkodzenia konieczna jest znajomość stęŜeń 

H 2 , CH 4 , C 2 H 2 , C 2 H 4 . JeŜeli brak chociaŜ jednej z wymienionych wartości, to nie moŜna 

zastosować metody francuskiej. Przyjęto, Ŝe znajomość stęŜeń pozostałych gazów nie 

jest wymagana i przynaleŜność do grupy wodoru sprawdzana jest tylko dla znanych 

stęŜeń. W przypadku, gdy w obrębie grupy nie moŜna wystawić diagnozy ze względu 

na brak danych o wartościach odpowiednich stęŜeń, to równieŜ nie moŜna zastosować 

metody francuskiej. We wszystkich innych przypadkach zaimplementowana metoda 

zwróci diagnozę „Uszkodzenie niezidentyfikowane”. 

Jak widać z tabeli 6-13 metoda francuska potwierdza metodę kodu IEC w wypadku 

uszkodzeń elektrycznych oraz uszkodzeń termicznych. W pozostałych przypadkach 

daje ona optymistyczne diagnozy o normalnym starzeniu termicznym lub o uszkodzeniu 

elektrycznym z wyładowaniami niezupełnymi. Jednak dzięki tym prognozom rzadkie są 

przypadki braku diagnozy. 

6.2.7. Metoda kanadyjska 

Metoda kanadyjska uwzględnia następujące gazy: H 2 - wodór, CH 4 - metan, 

C 2 H 2 - acetylen, C 2 H 4 - etylen, C 2 H 6 - etan, CO – tlenek węgla, CO 2 – dwutlenek 

węgla. 

Rysunek 6-4. Trójkąt Duvala (oznaczenia w tekście). Odpowiednie wartości 

współrzędnych zaznaczono na osiach U, V, W.

Ocenę stanu technicznego transformatora wykonuje się w oparciu o tzw. trójkąt 

Duvala (rysunek 6-4), który przedstawia powiązanie proporcji względnych zawartości 

gazów z typami uszkodzeń. Metoda ta jest teŜ wspierana przez kontrolę dopuszczalnych 

stęŜeń gazów rozpuszczonych w oleju, dla której to przyjęto te same wartości jak w 

metodzie polskiej, ale z pominięciem gazów: C 3 H 8 (propan) i C 3 H 6 (propylen). JeŜeli 

Ŝaden z gazów nie przekroczył wartości dopuszczalnej, to diagnoza wg metody 

kanadyjskiej traktowana jest tylko jako symptom zdiagnozowanego uszkodzenia. 

JeŜeli wartości stęŜenia gazów: CH 4 , C 2 H 2 , C 2 H 4 nie są wszystkie znane lub 

wszystkie przyjmują wartość zero, to nie moŜna zastosować metody kanadyjskiej. 

Postawienie diagnozy wg trójkąta Duvala polega na wyznaczeniu wartości U, V, W 

danej wzorami (6-3) i skorelowaniu typu uszkodzenia (tabela 6-14) z uzyskanymi 

współrzędnymi U, V, W. 

100 ⋅ x 

100 ⋅ y 

100 ⋅ z 

U = [%] V = [%] W = [%] (6-3) 

x + y + z 

x + y + z 

x + y + z 

gdzie x, y, z to stęŜenia odpowiednio gazów C 2 H 2 , C 2 H 4 , CH 4 w ppm. 

Obszar w trójkącie 

Duvala 

a 

b 

c 

d 

e 

f 

Diagnoza 

Wysokoenergetyczny łuk elektryczny 

Łuk niskoenergetyczny, wyładowanie ślizgowe 

Wyładowanie niezupełne w powietrzu (ulot) 

Punkt gorący o temperaturze poniŜej 200 0 C 

Punkt gorący o temperaturze od 200 0 C do 400 0 C 

Punkt gorący o temperaturze powyŜej 400 0 C 

Tabela 6-14. Diagnoza dla trójkąta Duvala 

Metoda identyfikacji obszarów w trójkącie Duvala została zaimplementowana (w 

pseudokodzie) w sposób prezentowany w tabeli 6-15. 

JeŜeli U > 15 to obszar a lub b lub f 

JeŜeli V > 25 to obszar a lub f 

JeŜeli V > 40 to obszar a lub f 

JeŜeli U > 25 to obszar a 

w przeciwnym wypadku to obszar f 

w przeciwnym wypadku to obszar a 

w przeciwnym wypadku to obszar b 

w przeciwnym wypadku obszar c lub d lub e 

JeŜeli W > 95 to obszar c 

w przeciwnym wypadku to obszar d lub e 

JeŜeli V > 47 to obszar e 

w przeciwnym wypadku to obszar d. 

Tabela 6-15. Implementacja metody kanadyjskiej dla trójkąta Duvala 

98

99 





IEC 

Liczba symptomów 

uszkodzenia 

Wysokoenergetyczny łuk elektryczny 14 10 4 

Łuk niskoenergetyczny, wyładowanie ślizgowe 16 2 6 

Wyładowanie niezupełne w powietrzu (ulot) 45 4 23 

Punkt gorący o temperaturze poniŜej 200 0 C 175 26 75 

Punkt gorący o temperaturze od 200 0 C do 400 0 C 150 1 31 

Punkt gorący o temperaturze powyŜej 400 0 C 0 0 0 

Nie moŜna zastosować metody kanadyjskiej 44 44 - 

Razem: 444 

Tabela 6-16. Liczba pomiarów naleŜących do danej klasy stanu technicznego dla metody kanadyjskiej 

Jak widać z zestawienia z tabeli 6-16 metoda kanadyjska daje odmienne diagnozy niŜ 

metoda kodu IEC za wyjątkiem diagnozy „Wysokoenergetyczny łuk elektryczny” 

(która teŜ jest dość pewna na podstawie małej liczby symptomów tej diagnozy). Metoda 

kanadyjska ma tę zaletę, Ŝe zawsze stawia diagnozę (o ile moŜna ją zastosować tzn. 

wyznaczono wartości stęŜeń CH 4 , C 2 H 2 , C 2 H 4 i są one większe niŜ zero), czego nie 

moŜna się spodziewać po innych metodach. 

6.2.8. Zalecenia eksperta 

Ta metoda wywodzi się z metody polskiej i ma za zadanie zaproponowanie 

człowiekowi – ekspertowi konkretnych działań w stosunku do transformatora. UŜyty tu 

algorytm jest modyfikacją juŜ istniejącego algorytmu [70] dającego się zastosować dla 

metody polskiej (stęŜenia gazów są zawsze określone). Modyfikacja polega na 

dostosowaniu algorytmu do kaŜdego zestawu danych poprzez dodanie warunków do 

instrukcji skoku warunkowego. Warunki te to: „nie wiadomo” oraz „nie moŜna określić 

kodu IEC”. Z opisywanych wcześniej metod tylko ta posługuje się w pewnych 

przypadkach przyrostem gazów palnych (dla gazów analizowanych dla metody 

polskiej).

100 

Rysunek 6-5. Zalecenia eksperta 

Nie ma ścisłego związku pomiędzy przyrostem gazów palnych, a stanem 

technicznym transformatora [70]. W tej metodzie równieŜ przyrost posłuŜył jedynie 

jako wskazówka co do dalszych poczynań, a nie jako podstawa do diagnozy. Norma 

miesięcznego przyrostu gazów dla transformatorów blokowych wynosi 30 ppm, a dla 

sieciowych – 40 ppm.

Jeszcze jednym problemem przy posługiwaniu się przyrostem gazów w okresie 

czasu jest fakt wykonywania okresowych remontów polegających na przykład na 

odgazowaniu oleju w celu poprawienia jego właściwości izolacyjnych. 

101 

Rysunek 6-6. Zmiany ilości gazów palnych w okresach czasu (spadek oznacza 

wykonanie odgazowania oleju) 

RównieŜ stan techniczny transformatora nie zaleŜy od czasu eksploatacji [70] tylko od 

warunków eksploatacji np.: od niesymetrycznych obciąŜeń jednofazowych, przeciąŜeń, 

warunków atmosferycznych, czy występowanie wyŜszych harmonicznych w sieci 

elektroenergetycznej [44]. 

6.2.9. Analiza porównawcza metod klasycznych 

Prezentowane w rozdziale 6 zestawienia diagnoz uzyskanych róŜnymi metodami 

zestawione razem prezentuje tabela 6-17. Pominięto tu metodę polską i polską 

pogłębioną jako rozwinięcia kodu IEC oraz zalecenia eksperta, który to algorytm nie ma 

na celu postawienia diagnozy. 

Metoda kodu IEC niemiecka francuska kanadyjska 

kodu IEC - (48)64/256/76 (2)126/316/0 (0)79/321/44 

niemiecka (48)64/256/76 - (6)46/392/0 (0)38/362/44 

francuska (2)126/316/0 (6)46/392/0 - (0)139/305/0 

kanadyjska (0)79/321/44 (0)38/362/44 (0)139/305/0 - 

Tabela 6-17. Porównanie zgodności diagnoz uzyskiwanych róŜnymi metodami (dla 444 danych); 

pierwsza liczba (w nawiasie) oznacza „metody dają zgodny wynik, ale jako niezidentyfikowane 

uszkodzenie”; druga liczba (wytłuszczona) oznacza „obie metody dają zgodny wynik”; trzecia liczba – 

„metody dają niezgodny wynik”; czwarta liczba – „obu metod nie moŜna zastosować dla uzyskanego 

pomiaru”

102 

Metoda kodu IEC niemiecka francuska kanadyjska 

kodu IEC - 14% 28% 18% 

niemiecka 14% - 10% 9% 

francuska 28% 10% - 31% 

kanadyjska 18% 9% 31% - 

Tabela 6-18. Procentowe porównanie zgodności diagnoz uzyskiwanych róŜnymi metodami 

(na podstawie tabeli 6-17) 

Na podstawie tabel 6-17 i 6-18 moŜna wnioskować, Ŝe nawet stosując jedynie dwie 

róŜne metody diagnostyczne uzyskuje się dość rozbieŜne wyniki. Jednak wobec dość 

licznych przypadków braku diagnozy lub diagnozy oznaczającej „uszkodzenie 

niezidentyfikowane” powinno się stosować (i stosuje się) róŜne metody diagnostyczne, 

celem uzyskania moŜliwie wiarygodnego wyniku (diagnozy). NaleŜy przy tym pamiętać 

o cechach szczególnych poszczególnych metod podczas stawiania ostatecznej diagnozy: 

metoda niemiecka jest bardzo rygorystyczna i z tego powodu mało zgodna z 

pozostałymi i często nie dająca wyniku, a metoda francuska daje ogólne wyniki (np.: 

przegrzania), co jest m.in. przyczyną większej jej zgodności z pozostałymi metodami 

jednak kosztem dokładności diagnozy. 

Gdyby zastosować wszystkie 4 metody (opisane w tabelach 6-17 i 6-18), to 

zgodność uzyskanych diagnoz wynosi 30 (z czego 20 to przegrzania, 2 to wyładowania 

o małej energii i 8 to wyładowanie zupełne o duŜej energii) na 444 przypadki (czyli 

niecałe 7%). Jest to spora niedogodność w pracy i dlatego system ekspertowy [11] 

uŜywający tychŜe metod powinien zostać uzupełniony o metody sztucznej inteligencji, 

które nie opierają swojego działania jedynie na sztywnych regułach jeŜeli-to, ale na 

zbiorze pomiarowych danych uczących. 

6.3. Metody niestandardowe 

6.3.1. Zmodyfikowana metoda a-najbliŜszych sąsiadów 

Metoda ta nie opiera się na sztywnych wzorach matematycznych zawartych w 

regułach jeŜeli-to klasycznych metod diagnostycznych, ale na istniejących juŜ danych 

pomiarowych. Polega ona na badaniu podobieństwa nowego pomiaru do najbliŜszych 

10 procent pomiarów juŜ istniejących w bazie danych. Wartość 10% przyjęta została na 

podstawie licznych przykładów ksiąŜkowych ([u.24], [u.26], [u.29], [u.33], [u.34])

wyboru danych z bazy opartej na MS Access. Nie postawiono tu formalnie problemu 

optymalizacji wyboru grupy najbliŜszych pomiarów (tj. wartości a, co realizowane jest 

sprawdzianem krzyŜowym [i.19]), poniewaŜ metoda ta jest jedynie uzupełnieniem do 

juŜ stosowanych metod. Celem określenia podobieństwa nowego pomiaru do juŜ 

istniejących wprowadza się miarę odległości nowego pomiaru od juŜ istniejących. 

103 

Opis algorytmu: 

1) Dla nowego pomiaru (x p , y p , z p ) w przestrzeni trójwymiarowej dla kodu IEC 

wyznaczamy odległości euklidesowe od istniejących (i o określonej klasyfikacji) 

N punktów pomiarowych (tworzących zbiór S N ) o współrzędnych (x i , y i , z i ), 

gdzie i = 1, 2, ..., N i N>0. 

2 

2 

2 

( x y , z ); 

( x , y , z ) = ( x − x ) + ( y − y ) + ( z − z ) 

∧ Odli 

= 

p 

, 

p p i i i 

p i 

p i p i (6-4) 

i= 1,2,..., N 

2) Ze zbioru S N punktów pomiarowych wybieramy 10% połoŜonych najbliŜej 

względem nowego pomiaru tworząc zbiór S 10% . Liczność (miarę) zbioru S 10% 

oznaczmy jako M przy warunku, Ŝe M > 0. 

Uwaga: JeŜeli jako nowy pomiar potraktujemy wynik juŜ 

istniejący (w ramach testu), to taka odległość nie 

jest uwzględniana. 

3) W zbiorze S 10% wyznaczamy odległość maksymalną: 

Odl = max{ j = 1,2,..., M : 

max 

Odl 

j 

4) Dla kaŜdego elementu zbioru S 10% określamy miarę odległości jako: 

∧ 

Miara 

= Odl 

− Odl 

} 

(6-5) 

j max j 

j= 

1 ,2,..., M 

(6-6) 

5) KaŜdy element zbioru S 10% naleŜy do pewnej klasy stanów technicznych 

określonych jako C t , gdzie t=1,2,...,T i T jest liczbą klas. Dla kaŜdej z klas 

wyznaczamy sumę zgodności wszystkich punktów pomiarowych naleŜących do 

danej klasy do nowego punktu pomiarowego względem miary odległości: 

∧ 

t= 

1,2,..., T 

M 

∑ 

β = Miara 

(6-7) 

Ct 

j= 

1 

( x j , y j , z j ) ∈C 

t 

j 

6) Wynikiem tej metody jest klasyfikacja nowego pomiaru (x p , y p , z p ) do takiej 

klasy C t0 , Ŝe: 

β = max{ t = 1,2,... T : 

β } 

Ct 

0 Ct 

(6-8)

(jeŜeli dwie lub więcej klas posiada taką samą maksymalną sumę zgodności, to 

implementacja metody zwraca klasę pierwszą wg alfabetycznej nazwy). 

7) Miarą jakości udzielanej odpowiedzi jest wartość zaufania wyznaczana dla 

kaŜdej z klas wg wzoru: 

Z 

Ct 

0 

= T 

β 

∑ 

t= 

1 

Ct 

0 

β 

Ct 

104 

(6-9) 

ZauwaŜmy, Ŝe wartość M wyznaczana w punkcie 2 powyŜszego algorytmu jest większa 

lub równa wartości a w metodzie najbliŜszych sąsiadów. 

Przykład 6-1 

Niech dany będzie N=400 elementowy zbiór danych uczących S N . Metoda 40-najbliŜszych 

sąsiadów zawsze uwzględnia dokładnie 40 najbardziej podobnych wyników do nowego 

wyniku pomiaru, a zaproponowana metoda 10% najbliŜszych sąsiadów uwzględnia 

przynajmniej 40 najbliŜszych wyników (w przypadku, gdy w tej samej odległości 

maksymalnej Odl max jest wiele wyników, to uwzględnia je wszystkie). Dopiero 

zaproponowana w punkcie 4 powyŜszego algorytmu Miara j (wzór 6-6) zrówna w działaniu 

obie metody poprzez zignorowanie w algorytmie wyników znajdujących się w odległości 

maksymalnej Odl max . Jednak metody te będą róŜne, gdy zastosuje się wzór: 

Miara 

e 

j 

= M 

∑ 

i= 

1 

odl j 

e 

odli 

(6-10) 

jako wyznaczanie miary odległości, który to jest równieŜ uŜywany [i.19] w metodzie a 

najbliŜszych sąsiadów. 

Metoda ta w wykonanym oprogramowaniu załączonym do pracy zastosowana jest 

równieŜ w 10-wymiarowej przestrzeni pomiarów stęŜeń gazów i polega na wyznaczeniu 

stopnia podobieństwa nowego pomiaru do juŜ istniejących (i sklasyfikowanych) wg 

odległości euklidesowej w tej przestrzeni. W przypadku braku wyznaczenia wartości 

stęŜenia danego gazu wymiar przestrzeni pomiarów jest redukowany i róŜnica stęŜeń 

(celem wyznaczenia odległości euklidesowej) dla danego gazu wynosi 0 (moŜliwe jest 

teŜ wyznaczenie średniej wartości pomiarów uzyskanych w danym wymiarze). Z 

powodu silnego powiązania metody najbliŜszych sąsiadów z właściwościami zbioru 

danych charakter diagnozy w przestrzeni 10-wymiarowej ma jedynie charakter 

pomocniczy. 

Celem zgrubnego ustalenia jakości zaproponowanej metody przeprowadzono 

zestawienie polegające na potraktowaniu kaŜdego pomiaru jako nieznanego i próba jego 

klasyfikacji powyŜszym algorytmem dla przestrzeni trójwymiarowej. Dzięki 

porównaniu rzeczywistej diagnozy (choć wzorowanej na kodzie IEC) z diagnozą z 

zaproponowanego algorytmu uzyskano zestawienie w tabeli 6-19.

Rzeczywista diagnoza 

Średnie zaufanie do 

diagnozy 

poprawnej/błędnej 

Liczba diagnoz 

105 

poprawnych/błędnych 

Bez uszkodzeń 44% / 57% 30 / 17 

Wyładowania niezupełne o duŜej energii - / 67% 0 / 6 

Wyładowania niezupełne o małej energii - / 71% 0 / 11 

Wyładowania zupełne o duŜej energii 58% / 53% 14 / 7 

Wyładowania zupełne o małej energii - / 69% 0 / 3 

Przegrzanie o temperaturę < 150°C - / 46% 0 / 2 

Przegrzanie o temperaturę 150°C - 300°C - / 44% 0 / 3 

Przegrzanie o temperaturę 300°C - 700°C 66% / 47% 60 / 12 

Przegrzanie o temperaturę > 700°C 80% / 52% 84 / 8 

Niezidentyfikowane uszkodzenie 66% / 58% 75 / 34 

Nie moŜna zastosować metody kodu IEC. 78 

Tabela 6-19 Zestawienie diagnoz zmodyfikowaną metodą a-najbliŜszych sąsiadów 

Stosując metodę 10% najbliŜszych sąsiadów na zbiorze 366 danych uczących, dla miary 

odległości opisanej w punkcie 4 algorytmu (wzorem 6-6) moŜna przyjąć, Ŝe 

zastosowano metodę 36 najbliŜszych sąsiadów. Z tabeli 6-19 moŜna wywnioskować, Ŝe 

pomimo dość wysokiej wartości 36 dla porównań najbliŜszych sąsiadów dane uczące 

klasyfikowane jako „Przegrzanie o temperaturze ponad 700 o C” dość dobrze są 

klasyfikowane z dość duŜą wartością zaufania do klasyfikacji, czyli zajmują odrębny 

obszar w przestrzeni danych uczących i są w niewielkim stopniu „wymieszane” z 

danymi klasyfikowanymi do innych klas. Znaczne róŜnice w liczbie pomiarów danej 

klasy (2 pomiary sklasyfikowane jako „Przegrzanie o temperaturę < 150 o C” i 109 

pomiarów sklasyfikowanych jako „Niezidentyfikowane uszkodzenie”) równieŜ istotnie 

utrudniają znalezienie optymalnej liczby najbliŜszych sąsiadów. 

6.3.2. Metoda rozmytego kodu IEC 

Metoda kodu IEC opiera się na określaniu przynaleŜności nowego pomiaru do 

określonego podobszaru przestrzeni 3-wymiarowej. Z tego powodu udzielana 

odpowiedź o klasyfikacji nie daje informacji o tym, jak blisko krawędzi danego 

podobszaru znajduje się pomiar – czyli nie mamy informacji o pewności udzielanej 

diagnozy. W związku z tym, Ŝe podobszary w metodzie kodu IEC są z góry określone, 

to nie zostanie wprowadzona Ŝadna umowna funkcja oceniająca przynaleŜność wyniku 

do podobszaru. Zamiast rozmywania zbioru opisującego klasyfikację kodem IEC niech 

rozmyty zostanie wynik pomiaru. Przyjęto, Ŝe rezultaty DGA obarczone są błędem

pomiarowym ±1. Iloraz dwóch wyników obarczonych błędem pomiaru teŜ jest 

wyznaczany z pewną dokładnością określoną za pomocą metody róŜniczki zupełnej, 

która polega na wyznaczeniu pochodnych cząstkowych (wzór 6-11). 

a + ∆a 

a ⎛ ∂f 

∂f 

⎞ a ⎛ 1 − a ⎞ 

( a, 

b) 

± ∆f 

( a, 

b) 

= = ± ⎜ ⋅ ∆a 

+ ⋅ ∆b⎟ 

= ± ⎜ ⋅ ∆a 

+ ⋅ ∆b⎟ 

(6-11) 

b + ∆b 

b ⎝ ∂a 

∂b 

⎠ b ⎝ b b ⎠ 

f 

2 

JeŜeli dla kaŜdego z trzech wymiarów X, Y, Z w przestrzeni kodu IEC wyznaczymy 

dokładność pomiaru, to rzeczywisty wynik znajdować się będzie wewnątrz sześcianu o 

środku w punkcie XYZ i długościach ścian odpowiednio 2∆X, 2∆Y, 2∆Z (które są 

wyznaczone za pomocą róŜniczki zupełnej). Stopień pokrycia się tego sześcianu z 

obszarem określającym diagnozę metodą kodu IEC daje wyznacznik dotyczący 

pewności udzielanej odpowiedzi. 

Na podstawie danych istniejących w bazie moŜna wyznaczyć średnią wartość pewności 

udzielanej odpowiedzi dla danej klasy uszkodzenia: 

106 

Rezultat IEC 

Średnie zaufanie do 

diagnozy 


Bez uszkodzeń 40,68% 33 

Wyładowania niezupełne o duŜej energii 91,99% 2 

Wyładowania niezupełne o małej energii 41,88% 11 

Wyładowania zupełne o duŜej energii 97,50% 20 

Wyładowania zupełne o małej energii 70,49% 10 

Przegrzanie o temperaturę < 150°C 45,18% 29 

Przegrzanie o temperaturę 150°C - 300°C 75,84% 24 

Przegrzanie o temperaturę 300°C - 700°C 82,97% 79 

Przegrzanie o temperaturę > 700°C 97,01% 94 

Niezidentyfikowane uszkodzenie 84,89% 64 

Błąd. Nie moŜna zastosować metody kodu IEC. 78 

Tabela 6-20 Średnia wartość zaufania do stawianej diagnozy wg metody kodu IEC 

Na podstawie analizy tabeli 6-18 widać wyraźnie, Ŝe diagnozy „Bez uszkodzeń”, 

„Przegrzanie o temperaturze < 150°C” oraz „Wyładowania niezupełne o małej energii” 

są diagnozami raczej niepewnymi. Diagnozy dotyczące przegrzań o temperaturze > 

150°C są pewne, tak jak pewne są diagnozy o wyładowaniach zupełnych (wyładowania 

niezupełne o duŜej energii ze względu na małą liczbę przypadków nie naleŜy traktować 

w sposób reprezentatywny).

107 

6.3.3. Dyskretyzacja 

Niektóre algorytmy uczenia się reguł (np.: algorytmy konstruowania drzewa 

decyzyjnego) nie mogą być wykorzystane (lub ich adaptacja wiąŜe się ze znacznym 

wzrostem nakładów obliczeniowych [12]) do klasyfikacji w przypadku, gdy badane 

obiekty opisane są za pomocą ilościowych (rzeczywistych) cech (atrybutów) 

diagnostycznych. MoŜliwe jest jednak wykonanie dyskretyzacji, która polega [i.20] na 

zastąpieniu wszystkich atrybutów ilościowych atrybutami wyliczeniowymi 

(porządkowymi), przy czym kaŜda nowa wartość dyskretna odpowiada przedziałowi 

wartości ciągłych zastępowanego atrybutu i zachowane jest uporządkowanie tychŜe 

przedziałów. W wyniku tego procesu uzyskujemy cechy wyliczeniowe o skończonej i 

zazwyczaj niewielkiej (dobranej do zadania) liczbie wartości, a dzięki temu: 

- zmniejsza się złoŜoność obliczeń 

- algorytmy uczenia się reguł konstruują proste i łatwe do interpretacji reguły, w 

wyniku ich ogólności. 

Sposób wykonania dyskretyzacji moŜna odgórnie narzucić lub dopasować do zbioru 

uczącego. Wśród tych drugich wprowadzony jest podział [i.20] na metody: 

- lokalne i globalne 

- baz nadzoru i z nadzorem 

- zstępujące i wstępujące. 

W metodach globalnych cała dziedzina atrybutu rzeczywistego dzielona jest na równe 

przedziały odpowiadające wartościom tworzonego atrybutu wyliczeniowego, czyli 

nowy atrybut wyliczeniowy zaleŜy jedynie od zastępowanego atrybutu ciągłego. W 

metodach lokalnych podczas wykonywania przedziałów dyskretyzacji uwzględnia się 

równieŜ inne atrybuty (a nawet wszystkie) niŜ zastępowany atrybut rzeczywisty, w 

wyniku czego uzyskane przedziały są róŜne w róŜnych obszarach dziedziny 

zastępowanego atrybutu. Szczególnie zaznacza się to w przypadku diagnostyki, gdy 

dysponujemy zbiorem uczącym z wykonaną diagnozą i to właśnie wartość owej 

diagnozy jest uwzględniana podczas wykonywania dyskretyzacji lokalnej. 

Metody dyskretyzacji z nadzorem opierają się na znajomości kategorii, do której naleŜą 

elementy zbioru uczącego (np.: diagnozy), a metody bez nadzoru nie uwzględniają owej 

kategorii. 

Metody zstępujące polegają na zastosowaniu podziału dziedziny atrybutu rzeczywistego 

na coraz to mniejsze przedziały. Metody wstępujące najpierw dzielą dziedzinę na

drobne przedziały zawierające jedną wartość opisującą elementy zbioru uczącego i 

występującą w usuwanym atrybucie rzeczywistym, a następnie na łączeniu przedziałów 

w większe. 

Celem prostego wygenerowania reguł diagnostycznych w oparciu o proces 

dyskretyzacji określmy pojęcie pochodzące z grupowania danych uczących - klastra. Za 

klaster uwaŜa się [i.20] grupę danych uczących podobnych do siebie ze względu na 

pewną miarę podobieństwa. W analizowanym w pracy zagadnieniu uznajmy dyskretną 

miarę tego podobieństwa: klaster tworzy grupa danych naleŜących do pewnego 

skończonego obszaru, która to grupa jest jednej kategorii. W przypadku, gdy 

przynajmniej jeden element z danych uczących naleŜący do wybranego obszaru jest 

innej kategorii niŜ pozostałe uznajemy, Ŝe elementy nie są do siebie podobne i nie 

tworzą klastra. JeŜeli w analizowanym obszarze brak elementów zbioru uczącego, to 

klaster nazwijmy „pustym”. Dzięki takiemu określeniu pojęcia klastra wykonanie 

dyskretyzacji spowoduje wygenerowanie reguł jeŜeli-to, które brzmią: 

„JeŜeli nowy, klasyfikowany obiekt naleŜy do wybranego obszaru, to jest on 

tej klasy co wszystkie, znane uprzednio elementy uczące naleŜące do tego 

obszaru (a jeŜeli nie ma ich wcale, to nie jest on klasyfikowany).” 

108 

Opis zastosowanego algorytmu: 

1) Określamy skończoną n-wymiarową (dla n∈ℵ) przestrzeń taką, Ŝe: 

P 

1 1 

n n 

n 

= xmin, xmax 

× ... × xmin, 

xmax 

⊂ R 

(6-12) 

w której zawarte są wszystkie n+1 wymiarowe dane uczące x naleŜące do k 

kategorii (klas), takie Ŝe: 

1 1 

n n 

x ∈ xmin, 

xmax 

× ... × xmin, 

xmax 

× { klasa1,..., 

klasak} 

(6-13) 

Niech O będzie zbiorem rozłącznych obszarów C takich, Ŝe: 

∧ 

C i ∩ C j = ∅ 

i , j = 1,2,...,|| O || 

(6-14) 

o 

U || || 

i= 

1 

C 

i 

= 

(6-15) 

P 

2) Niech P będzie pierwszym obszarem do określenia, czy znajdujące się w nim dane 

tworzą klaster. 

3) Czy wszystkie obszary ze zbioru O wyodrębniają grupy danych uczących 

naleŜących do jednej klasy (czy dane uczące zawarte w kaŜdym z obszarów 

tworzą klaster) JeŜeli tak, to KONIEC.

4) KaŜdy z obszarów C, który nie jest klastrem, niech zostanie podzielony na 

mniejsze obszary tak, Ŝe kaŜdy przedział wyznaczający ów obszar, dzielony jest 

na pół (na przedziały lewostronnie domknięte; w przypadku podziału przedziału 

obustronnie domkniętego, na przedział lewostronnie domknięty i przedział 

obustronnie domknięty). Podzielone obszary, które nie są klastrami niech zostaną 

usunięte ze zbioru O, a ich miejsce niech zajmą uzyskane obszary z ich podziałów. 

Wykonać punkt 3 algorytmu ponownie. 

 

Algorytm moŜna rozszerzyć na dane uczące zawierające równieŜ atrybuty 

wyliczeniowe. 

109 

Jako sprawdzenie działania tego algorytmu uŜyto trójwymiarowej przestrzeni 

P wyznaczonej (omówiono w rozdziale 7) dla kodu IEC takiej, Ŝe: 

P=〈0; 3,214286〉 × 〈0,07361456; 12,55556〉 × 〈0,07058824; 12,7619〉 (6-16) 

Zastosowano teŜ 240 przykładowych (omówiono w rozdziale 7) danych 

uczących. W wyniku wykonania algorytmu dyskretyzacji opisanego w tym rozdziale 

uzyskano 182 reguły jeŜeli-to, które potrafiły skutecznie diagnozować wszystkie dane 

uczące. 

X Y Z Diagnoza Liczba 

pomiarów 

110 

6.3.4. Drzewo decyzyjne 

Drzewo decyzyjne jest zestawem węzłów (warunków podejmowania decyzji) i 

gałęzi (moŜliwych wariantów decyzji), które w swojej konstrukcji zawiera reguły jeŜelito. 

Węzły drzewa zawierają testy na wartościach atrybutów wyliczeniowych, gałęzie 

drzewa zawierają wartości tychŜe atrybutów, a liście drzewa część decyzyjną 

(realizującą klasyfikację, tu zawierające diagnozę). Algorytm konstrukcji drzewa 

decyzyjnego polega ma na celu wykonanie takiej konstrukcji drzewa (dzięki 

wyznaczaniu entropii) Ŝeby wykonać moŜliwie mało węzłów, liści oraz Ŝeby odległości 

(mierzone w liczbie węzłów) między korzeniem drzewa (pierwszym z węzłów), a liśćmi 

były moŜliwie małe. 


1) Niech będzie dany zbiór danych uczących P określonych przez n atrybutów 

wyliczeniowych i jeden przyjmujący wartości klasy. 

1 1 1 2 2 2 

n n n 

P = { x1 , x2,..., 

xm 

1} 

× { x1 

, x2 

,..., xm2} 

× ...{ x1 

, x2 

,..., xmn} 

× { klasa1, 

klasa2,..., 

klasak} 

, (6-17) 

gdzie k jest liczbą klas, ml liczbą wartości dyskretnych dla 

l-tego atrybutu i l = 1,2,..., 

n. 

Niech 

P = będzie licznością zbioru takich danych uczących, które dla l-tego 

l 

l x q 

wymiaru przyjmują wartość 

l l l l 

x , taką Ŝe x ∈ x , x ,..., x }. 

l 

q 

q 

{ 

1 2 

ml 

Niech 

P = będzie licznością zbioru takich danych uczących, które dla l- 

klasar 

l 

l xq 

tego wymiaru przyjmują wartość 

l l l l 

x , taką Ŝe x ∈ x , x ,..., x } oraz przyjmują wartość 

l 

q 

q 

{ 

1 2 

ml 

klasa ∈ klasa , klasa ,..., klasa } , gdzie r=1,2,…,k i k jest liczbą klas. 

r 

{ 

1 1 

k 

2) Dla kaŜdego atrybutu l z n atrybutów wyliczeniowych wyznaczmy wartość 

entropii zgodnie ze wzorem 6-18. 

E ( P) 

= 

l 

ml 

∑ 

P 

l = x 

P 

l 

q 

k 

∑ 

q= 1 r = 1 

⎛ 

⎜ P 

⎜− 

⎜ P 

⎝ 

klasa 

l 

l = x 

q 

l 

q 

l = x 

r 

P 

klasa 

l 

l = x 

3) Wybieramy atrybut l 0 , dla którego wyznaczona wartość entropii ( P) 

log 2 

P 

q 

l 

q 

l = x 

r 

⎞ 

⎟ 

⎟ 

⎟ 

⎠ 

El 

o 

(6-18) 

najmniejsza. Dla zbioru P będzie ona tworzyć korzeń drzewa, a wychodzące z niego 

gałęzie drzewa tworzyć będą wartości z atrybutu l 0 . 

jest

0 

4) Dla kaŜdej wartości x l q 

(gdzie q=1,2,…,ml 0 ) atrybutu l 0 wybieramy zbiór 

0 

danych uczących P = 

l , które dla atrybutu l 

0 

0 przyjmują wartość x . JeŜeli wszystkie 

l 

0 

x q 

elementy tego zbioru są jednej klasy, to tworzymy liść drzewa kończąc algorytm. JeŜeli 

tak nie jest, to uznajemy za zbiór uczący P zbiór P = 

l i wykonujemy punkt 2. 

0 

W wyniku przeprowadzenia algorytmu konstrukcji drzewa decyzyjnego 

uzyskujemy uproszczoną reprezentację zbioru reguł uzyskanych w wyniku 

dyskretyzacji. Ta uproszczona forma prezentacji umoŜliwia takŜe redukcję liczby reguł, 

jeŜeli okaŜe się, Ŝe na ty samym poziomie drzewa na sąsiednich gałęziach liście są tej 

samej klasy. 

Przykład 6-2 

l 

0 

x q 

l q 

{ } 

111 

Niech będzie dany 4-elementowy zbiór uczący P={ 0 ,1) 

;czarny , 1 ,2);niebieski 

, 

{ 2 ,3);niebieski} 

, { 3 ,4 ,czarny}}, którego elementy opisują podział (po dyskretyzacji) 

przedziału 1 , 4 i naleŜą do zbioru klas {czarny, niebieski}. W wyniku konstrukcji drzewa 

decyzyjnego otrzymujemy: 

 

{ } 

JeŜeli badana wartość x naleŜąca do przedziału 1 , 4 naleŜy do obszaru 

- 0 ,1) 

to jest klasy czarny. 

- 1 ,2) 

to jest klasy niebieski. 

- 2 ,3) 


- 3 , 4 to jest klasy czarny. 

PoniewaŜ wartości dyskretne uzyskane w wyniku dyskretyzacji na tym samym poziomie 

gałęzi opisują kolejne przedziały i są tej samej klasy liście na nich, to moŜna połączyć 

gałęzie uzyskując redukcję liczby reguł. Dla przykładu: 

JeŜeli badana wartość x naleŜąca do przedziału 1 , 4 naleŜy do obszaru 

- 0 ,1) 

to jest klasy czarny. 

- 1 ,3) 


- 3 , 4 to jest klasy czarny. 

Jako sprawdzenie działania tego algorytmu uŜyto trójwymiarowej przestrzeni 

P wyznaczonej (omówiono w rozdziale 7) dla kodu IEC opisanej wzorem 6-16 i 

podzielonej na 182 podobszary w wyniku dyskretyzacji dla 240 przykładowych 

(omówiono w rozdziale 7) danych uczących. W wyniku wykonania algorytmu budowy 

drzewa decyzyjnego oraz redukcji zawartych w konstrukcji drzewa reguł uzyskano 

ostatecznie 112 reguł jeŜeli-to, które potrafiły skutecznie diagnozować wszystkie dane 

uczące. Pomimo znacznej redukcji liczby praw względem dyskretyzacji, nadal 

uzyskujemy wiele reguł, co wynika ze złoŜoności zbioru uczącego.

112 

6.3.5. Budowanie reguł za pomocą algorytmu genetycznego 

Algorytm dyskretyzacji i budowane w oparciu o niego drzewo decyzyjne moŜe 

nie prowadzić do znacznej redukcji liczby reguł jeŜeli-to uŜywanych do klasyfikacji w 

przypadku zbioru trudnoseparowalnych danych. Wobec tego warto sprawdzić, czy 

algorytm redukcji liczby reguł oparty na algorytmie genetycznym [58] potrafi dokonać 

tego skutecznie. W odróŜnieniu od drzewa decyzyjnego nie przeprowadzi on wyboru 

jednego z argumentów opisujących dane uczące na korzeń drzewa, co powoduje pewne 

uporządkowanie reguł jeŜeli-to za względu na ów argument. Algorytm genetyczny w 

sposób losowy, choć ukierunkowany przeszuka zbiór moŜliwych wartości argumentów 

opisujących dane uczące i postara się wybrać moŜliwie najbardziej charakterystyczne 

nie dla całego zbioru uczącego, ale dla całej klasy. Zbiór uczący zostanie podzielony na 

rozłączne podzbiory zawierające dane pomiarowe jednej klasy i dla kaŜdego z nich 

algorytm genetyczny postara się odnaleźć moŜliwie reprezentatywny zestaw atrybutów. 

Po zakończeniu pracy algorytmu dane uczące posiadające owe, wyselekcjonowane 

cechy zostaną odrzucone ze zbioru reprezentantów danej klasy, a na pozostałych 

algorytm zadziała ponownie. Procedura powtórzy się, aŜ do wyselekcjonowania 

zestawu wartości cech charakterystycznych dla danej klasy. 


1) Niech będzie dany zbiór danych uczących P określonych przez n atrybutów 

wyliczeniowych i jeden przyjmujący wartości klasy. 

1 1 1 2 2 2 

n n n 

P = { x1 , x2,..., 

xm 

1} 

× { x1 

, x2 

,..., xm2} 

× ...{ x1 

, x2 

,..., xmn} 

× { klasa1, 

klasa2,..., 

klasak} 

, (6-19) 

gdzie k jest liczbą klas, ml liczbą wartości dyskretnych dla 

l-tego atrybutu i l = 1,2,..., 

n. 

Zbiór danych uczących P podzielmy na k rozłącznych podzbiorów ze względu 

na wartości atrybutu opisującego klasę. 

klasa 

U k 

P = Pklasa 

∪ Pklasa 

∪... 

∪ Pklasa 

= P , gdzie 

1 

2 

k klasar 

r= 

1 

1 1 1 2 2 2 

n n n 

{ x1 , x2,..., 

xm 

1} 

× { x1 

, x2 

,..., xm2} 

× ...{ x1 

, x2 

,..., xmn} 

{ klasar 

P 

r 

= 

× 

} 

(6-20) 

Przyjmujemy, Ŝe wartość r=1 (gdzie r=1,2,…,k i k jest liczbą klas). 

2) Dla ustalonej wartości r dzielimy zbiór P na dwa zbiory: zbiór elementów POS 

klasyfikowanych jako klasa r i zbiór pozostałych elementów (NEG). 

POS = 

P klasar 

NEG = P / 

(6-21) 

3) Wszystkie wartości wyliczeniowe z przestrzeni n-wymiarowej, które przyjmują 

dane uczące, kodujemy jako geny (przyjmujące wartość 0 lub 1) na kolejnej pozycji w 

P klasar

chromosomie - począwszy od wartości z pierwszego wymiaru, a skończywszy na 

wartościach z n-tego wymiaru (wzór 6-22). 

1 1 1 2 2 2 n n n 

chrom= x , x2,..., 

xm 

1, 

x1 

, x2 

,..., xm2,...... 

x1 

, x2 

,..., x 

(6-22) 

1 mn 

Zapisanie wartości 1 w genie na danej pozycji chromosomu, do której przypisana jest 

wartość z atrybutu 

postaci: 

113 

t 

xs 

oznacza zakodowanie reguły jeŜeli-to (zwanej kompleksem) 

„JeŜeli badany obiekt przyjmuje dla t-tego atrybutu wartość 

t 

x 

s 

, to jest on klasy r.” 

MoŜliwe jest teŜ zakodowanie w chromosomie więcej niŜ jednej wartości genu 1. JeŜeli 

geny te występuję w jednym atrybucie, to pomiędzy nimi w regule jeŜeli-to (nadal 

nazywanej kompleksem) wstawiany jest operator logiczny OR, a jeŜeli geny występują 

w róŜnych atrybutach – AND. 

Przykład 6-3 

Niech będzie zakodowanych w chromosomie 6 genów: x ∈ 0,1) 

, x ∈ 1,2) 

, x ∈ 2, 3 , 

y ∈ 10,20) , y ∈ 20,25) 

, ∈ 25, 30 

0 ,3 × 10,30 . 

y będących wynikiem dyskretyzacji przestrzeni: 

Chromosom o zapisie genów 101010 oznacza regułę jeŜeli-to: 

„JeŜeli nowy, badany obiekt opisany przez (x,y) spełnia warunki takie, Ŝe 

x ∈ 0,1) 

∨ x∈ 

2,3 ∧ y ∈ 20,25 , to badany obiekt jest badanej klasy r (gdyŜ naleŜy do 

( ) ) 

zbioru POS).” 

POS 

NEG 

⎛ 

⎞ 

WPOS 

∑Cl( Posi 

) + W ⎜ 

NEG 

NEG − Cl( Neg 

j 

) ⎟ 

∑ 

i= 1 

i 

f chrom 

⎝ 

= 1 

( ) = 

⎠ 

, gdzie 

W POS + W NEG 

+ 

W 

POS 

∈R , 

POS 

NEG 

+ 

W 

NEG 

∈R - wagi określające istotność poprawnej klasyfikacji 

chrom – binarna reprezentacja chromosomu 

POS ∈ℵ, NEG ∈ℵ - liczność zbiorów POS i NEG 

Cl(Pos i )= 1 - gdy i-ty element zbioru POS jest klasyfikowany 

{ 0 - gdy i-ty element zbioru POS nie jest klasyfikowany 

POS 

∑ 

( ) 

Cl Pos i 

- liczba klasyfikowanych elementów zbioru POS 

i= 

1 

Cl(Neg j ) 1 - gdy j-ty element zbioru NEG jest klasyfikowany 

{ 

= 0 - gdy j-ty element zbioru NEG nie jest klasyfikowany 

NEG 

∑ 

j = 1 

Cl 

( ) 

Neg j 

- liczba klasyfikowanych elementów zbioru NEG 

(6-23) 

Algorytm genetyczny ma na celu takie dobranie zestawu wartości 1, Ŝeby opisywały 

one moŜliwie duŜo elementów zbioru POS i moŜliwie mało za zbioru NEG. Najlepszym

ozwiązaniem jest znalezienie przez algorytm genetyczny takiego prawa, które 

klasyfikuje jako klasę r wszystkie dane uczące ze zbioru POS i Ŝadnych danych ze 

zbioru NEG. Zadanie to zakodowane jest jako próba maksymalizacji (na tyle na ile 

moŜe zrealizować zadanie optymalizacji algorytm genetyczny, co było opisane w 

rozdziale 3) funkcji przystosowania danej wzorem 6-23. 

114 

Określamy parametry pracy algorytmu genetycznego: 

a) prawdopodobieństwo mutacji: 1 na tworzony chromosom 

b) prawdopodobieństwo krzyŜowania jednopunktowego: 100% 

c) maksymalna liczba generacji: 200 

d) liczba osobników w generacji: 30 

e) selekcja ruletkowa 

f) prawdopodobieństwo zostania rodzicem (wg wzoru 3-1). 

Wykonane oprogramowanie dopuszcza uŜycie jeszcze jednej funkcji przystosowania, 

która moŜe jednak przyjąć wartość zero i w takim przypadku chromosom uznany jest za 

martwy i odbywa się jego kolejne generowanie jak w populacji startowej. W razie 

takiego losowania przystosowanie moŜe nadal wynosić zero, więc ustala się jako 

dodatkowy parametr pracy algorytmu genetycznego liczbę takich prób „oŜywienia” 

chromosomu. Działanie algorytmu z taką funkcją okazało się gorsze niŜ z podaną 

wzorem 6-23 i dlatego nie będzie szerzej omawiane w pracy. 

Ustalamy wartości uzyskania generacji startowej algorytmu: 

a) prawdopodobieństwo wylosowania jedynki w genie: 50% 

b) ile do generacji startowej wprowadzić danych uczących tzw. hipotez ze zbioru 

POS (ilościowo lub procentowo): 0 - co oznacza brak hipotez 

Uruchamiamy algorytm genetyczny z zadanymi parametrami i uzyskujemy z niego 

najlepiej przystosowanego osobnika, który koduje w swoich genach prawo jeŜeli-to. 

Wszelkie elementy ze zbioru POS, które są klasyfikowane uzyskanym prawem 

(kompleksem), usuwane są ze zbioru POS i algorytm genetyczny uruchamiany jest 

ponownie. Tworząc kolejny kompleks, który jest zbiorem wartości atrybutów 

wyliczeniowych połączonych ze sobą operatorem logicznym AND, dodajemy go do 

poprzedniego z uŜyciem operatora logicznego OR tworząc tzw. sympleks. Powtarzanie

algorytmu genetycznego trwa tak długo, aŜ zbiór POS będzie pusty i uzyskamy 

sympleks, który potrafi poprawnie klasyfikować wszystkie dane uczące klasy r. 

4) JeŜeli r=k, to KONIEC – uzyskano k sympleksów klasyfikujących dane uczące. 

JeŜeli r

NaleŜy teŜ mieć świadomość, Ŝe dla kaŜdej klasy wyodrębniane są zbiory POS i 

NEG i na nich pracuje algorytm genetyczny. Tak więc moŜe dojść do sytuacji, Ŝe 

skonstruowane przez algorytm genetyczny reguły opisane są na przedziałach 

nachodzących na siebie, a nie rozłącznych jak w przypadku przetwarzanych przez 

drzewo decyzyjne. Drzewo decyzyjne dzięki rozgałęzieniom poszczególnych gałęzi 

drzewa tworzy rozłączne obszary przyporządkowanych im reguł jeŜeli-to dla całego 

zbioru uczącego, poprzez wybieranie do węzłów drzewa atrybutów niosących najwięcej 

informacji. Tymczasem zaproponowany algorytm genetyczny dla jednej z klas moŜe 

uznać istotność jednego z atrybutów, a dla innej – innego. Zwłaszcza w obszarach, 

gdzie brak jest danych uczących i w których człowiek moŜe uogólniać uzyskane reguły, 

moŜe dojść do sytuacji nakładania się na siebie obszarów z przypisanymi im regułami 

wykonującymi klasyfikację do róŜnych klas. W takiej sytuacji, Ŝeby wyznaczyć klasę, 

do której naleŜy badany obiekt naleŜy posłuŜyć się pojęciem gęstości: im mniejszy 

obszar, którego dotyczy reguła i im więcej w nim przykładowych danych uczących tym 

klasyfikacja jest pewniejsza (wzór 6-24). 

POS 

∑ 

i= 

1 

x 

(6-24) 

POS 

∑Clkompleks( Posi 

) 

iloczyn długości przedziałów budujących dyskretne wartości x n 

i= 

1 

ρ ( kompleks) 

= 

1 

2 

n 

xkompleks 

⋅ xkompleks 

⋅... 

⋅ xkompleks 

( ) - liczba klasyfikowanych przez kompleks danych ze 

zbioru POS 

2 

n 

⋅ xkompleks 

⋅... 

⋅ xkompleks 

- n-wymiarowa objętość kompleksu jako 

Cl kompleks Pos i 

1 

kompleks 

116 

6.3.6. Sieci Pedrycza 

Podobnie jak opisany w poprzednim podrozdziale algorytm genetyczny, tak i 

sieć neuronowa Pedrycza (opisana w podrozdziale 4.4) opiera swój proces uczenia się 

(a przez to wbudowywania reguł jeŜeli-to w swoją strukturę) o rozłączne zbiory POS i 

NEG (wzór 6-21) wyodrębnione dla danej klasy r (wzór 6-20). Proces uczenia z 

nadzorem takiej sieci oparty jest na zmodyfikowanym algorytmie wstecznej propagacji 

(wzór 4-29). 

Proces uczenia r sieci jednowyjściowych jest mniej złoŜony obliczeniowo niŜ 

próba uczenia jednej sieci r-wyjściowej (m.in. ze względu na modyfikowanie wag 

neuronów po jednorazowej prezentacji danych uczących lub po prezentacji epoki, czyli

wszystkich danych uczących) i z tego powodu zbiór danych uczących r-krotnie zostanie 

podzielony na zbiory POS i NEG. 

Dla analizowanego zbioru 240 danych uczących przyjęto [75] inną metodę 

dyskretyzacji. KaŜda z danych X,Y,Z opisujących stęŜanie gazów w metodzie IEC (wzór 

6-2), podzielona została na 4 rozłączne przedziały o wartościach (tabela 6-1) jak 

podczas klasyfikacji metodą kodu IEC, tj. 〈0, 0.1), 〈0.1, 1), 〈1, 3〉, większa niŜ 3. 

Kodowanie współrzędnych XYZ dla danej pomiarowej po dyskretyzacji wykonywane 

jest na 12-u wartościach binarnych. Tak więc liczba neuronów wejściowych sieci 

Pedrycza wynosi 24. Wartości wag niech będą binarne, wartość współczynnika 

nauczania (4-29) niech wynosi 0,9. Czas nauczania niech wynosi od 100 do 150 epok, 

obcięcie zbędnych połączeń (poprzez wyzerowanie wag) – co 10 epok. Wyniki [75] 

uzyskane tą metodą prezentuje tabela 6-23. 


Bez uszkodzeń 

Wyładowania niezupełne o małej energii 

Wyładowania niezupełne o duŜej energii 

Wyładowania zupełne o małej energii 

Wyładowania zupełne o duŜej energii 

Przegrzanie o temperaturę mniejszą niŜ 150 0 C 

Przegrzanie o temperaturę (150 0 C, 300 0 C〉 

Przegrzanie o temperaturę (300 0 C, 700 0 C〉 

Przegrzanie o temperaturę większą niŜ 700 0 C 

Zapis prawa 

xxxxxxx1x1xx ∨ xx0x0xx01xxx ∨ 

0xxxxx1xx1xx ∨ 1xxxxx1xxxx1 ∨ 

x00x0xxxxx1x ∨ x1xxxx1xxxxx ∨ 

x0xxxx0xx1xx ∨ x0xxxxx1xxx1 

xx0xx1xxxx1x ∨ x0xx1xxxx1xx 

xxxxx1xxx1xx ∨ xxxx1xxxx1xx 

x1xxx1xxx0x0 

00xxx1xx0xxx ∨ xxx1x1xxxxxx ∨ 

0xxxx1xxxxx1 

1xxxx1xx00x0 

x00xxx1xx1xx 

1xxxxx1xxxxx ∨ xxxxxxx1xxx0 ∨ 

xxxxxxx11xxx 

1xxx0xxxxxx1 ∨ x1xxxx1xxxx1 ∨ 

xxxxx1xx1xxx ∨ xx1xxx0xxx0x ∨ 

x1xxx1xxx1xx 

Niezidentyfikowane uszkodzenie 

xxxxxxxxxx1x ∨ xxxxxx1xx0xx ∨ 

1xxxxxx0xxxx ∨ xxx1xx1xxxxx ∨ 

1xxxxxxxx1xx ∨ xxxxxxx10xxx ∨ 

xxxx1xxxxxxx ∨ xxxxxx00xxx0 

Tabela 6-23. Wyniki uczenia sieci jednowyjściowych Pedrycza, gdzie 1 – oznacza, Ŝe wejście 

musi mieć wartość 1, 0 – Ŝe wejście musi mieć wartość 0, x – dowolna wartość, Ŝeby zaszła 

dana klasyfikacja; pomiędzy podanymi symbolami zachodzi logiczna zaleŜność AND. 

117 

JeŜeli Χ∈ 0.1 ∧ Ζ > 3 

∨ Χ∈ 3 

∨ Υ∈

118 

Uzyskana w postaci zbudowanych reguł jeŜeli-to wiedza odkodowana ze struktury sieci 

Pedrycza umoŜliwia dokonanie klasyfikacji przykładowych 240-u danych 

pomiarowych. 

Rzeczywista diagnoza 


poprawnych/błędnych/ 

niejednoznacznych 

Bez uszkodzeń 13/0/32 

Wyładowania niezupełne o duŜej energii 1/0/5 

Wyładowania niezupełne o małej energii 0/0/11 

Wyładowania zupełne o duŜej energii 6/0/15 

Wyładowania zupełne o małej energii 0/0/3 

Przegrzanie o temperaturę < 150°C 0/0/2 

Przegrzanie o temperaturę 150°C - 300°C 2/0/1 

Przegrzanie o temperaturę 300°C - 700°C 4/31/31 

Przegrzanie o temperaturę > 700°C 9/0/74 

Tabela 6-25 Zestawienie diagnoz stanu technicznego wg struktur sieci Perdycza (pominięto klasyfikację 

do klasy „niezidentyfikowane uszkodzenie”, gdyŜ występowała ona w niemalŜe 100% przypadków, co 

nie wnosi znaczącej wiedzy do rozwiązywanego zadania) 

Wadą zastosowanej diagnostyki jest fakt stosunkowo często uzyskiwanej 

niejednoznacznej klasyfikacji danych pomiarowych, gdy jeden komplet danych 

pomiarowych był klasyfikowany do kilku klas stanu technicznego (tabela 6-25). Fakt 

ten wynika z zastosowanego algorytmu uczenia kilku sieci o jednym sygnale 

wyjściowym, a nie jednej sieci generującej kilka sygnałów na wyjściach. Pomimo, Ŝe w 

34 strukturach sieci (tabela 6-23) zapisano informacje o 48 rozłącznych obszarach 

przestrzeni danych, w których moŜliwa jest ich klasyfikacja, to niejednoznaczność 

udzielanej odpowiedzi wydaje się być znaczącym utrudnieniem w praktycznym 

zastosowaniu tej metody.

119 

7. Genetyczny wybór reguł rozmytych na przykładzie wspomagania 

diagnostyki transformatora 

7.1. Postawienie problemu 

Zaproponowane w rozdziale 5 algorytmy dotyczące generowania reguł jeŜeli-to i 

wykonywania nimi klasyfikacji w przestrzeniach n-wymiarowych dopasowane zostaną 

do 3-wymiarowej przestrzeni danych XYZ. W przestrzeni tej zostaną umieszczone 

poprawnie (tj. bez wątpliwości lub potwierdzone oględzinami transformatora) 

sklasyfikowane przez człowieka-eksperta wyniki pomiarów stęŜeń gazów palnych 

rozpuszczonych w oleju transformatorowym uzyskane metodą chromatografii gazowej 

– DGA (opisanej w rozdziale 6.2). Jako wartości klasy uŜyte zostaną wartości 

charakterystyczne dla podstawowej metody diagnostycznej – metody kodu IEC (tabela 

6-2 i rysunek 6-3). Do konwersji wyników DGA w 3-wymiarową przestrzeń XYZ 

zostaną uŜyte wzory charakterystyczne dla metody kodu IEC (opisane wzorem 6-2). 

Stosując algorytmy opisane w rozdziale 5, ale dostosowane do przestrzeni 3- 

wymiarowej utworzone zostaną reguły klasyfikujące i uwzględniające wiedzę 

człowieka-eksperta (poprzez diagnozy wykonane przez niego). Następnie liczba tychŜe 

reguł zostanie zredukowana algorytmem genetycznym opisanym w rozdziale 5.3 i 

dostosowanym do działania w przestrzeni 3-wymiarowej. Dopiero istotna redukcja 

liczby reguł moŜe ułatwić, a nawet umoŜliwić człowiekowi fizyczną interpretację ich 

znaczenia. 

Praktyczne zastosowanie algorytmów opisanych w rozdziale 5 dla wykonania 

diagnostyki stanu technicznego transformatora nie tylko umoŜliwi rozwiązanie 

praktycznego problemu, ale równieŜ umoŜliwi stworzenie prototypu praktycznego 

narzędzia do wykonywania diagnoz w oparciu o wyniki DGA – systemu Trafo2000 

(opisanego w rozdziale 8).

120 

7.2. Przygotowanie zbioru danych uczących 

Na potrzeby tej pracy uzyskano wyniki 444 pomiarów DGA dla 27-u 

transformatorów sieciowych 250MVA. Pomiary te obejmują 10 atrybutów - stęŜeń 

gazów takich jak: H 2 - wodór, CH 4 - metan, C 2 H 2 - acetylen, C 2 H 4 - etylen, C 2 H 6 - 

etan, CO, CO2, C3H8, C3H6, n-C4H10 oraz dodatkowo datę wykonania pomiaru i 

diagnozę postawioną przez człowieka-eksperta (rysunek 7-1). 

Rysunek 7-1. Uzyskiwanie zbioru danych pomiarowych 

Przyjęto istnienie dziewięciu klas (wg kodu IEC), do których moŜe być 

sklasyfikowany dany pomiar: Bez uszkodzeń, Wyładowania niezupełne o małej energii, 

Wyładowania niezupełne o duŜej energii, Wyładowania zupełne o małej energii, 

Wyładowania zupełne o duŜej energii, Przegrzanie poniŜej 150 0 C, Przegrzanie powyŜej 

150 0 C i poniŜej 300 0 C, Przegrzanie powyŜej 300 0 C i poniŜej 700 0 C, Przegrzanie 

powyŜej 700 0 C. Do dziewięciu klas opisujących stan techniczny wg kodu IEC została 

dodana jeszcze jedna o nazwie „Nieznany”. Wartość taka oznacza, Ŝe dla danego 

pomiaru: 

- człowiek-ekspert podejrzewa początki rozwijającego się uszkodzenia, ale nie moŜe 

dokładnie stwierdzić jakiego, gdyŜ stęŜenia gazów są jeszcze zbyt małymi 

wartościami; 

- transformator jest po operacji odgazowania oleju i stosunki stęŜeń mogą być 

mylące; 

- człowiek-ekspert uznaje, Ŝe na wyniki DGA ma wpływ kilka rodzajów uszkodzeń.

Do przekształcenia wyników posiadanych pomiarów w 3-wymiarową przestrzeń 

danych, na której działa metoda kodu IEC – naleŜy uwzględnić jedynie 5 gazów (wzór 

7-1 – uprzednio 6-2). 

121 

x = C H 

C H 

2 2 

2 4 

, y = CH H 

2 

4 

, z = C H 

C H 

2 4 

2 6 

. (7-1) 

Nie wszystkie dane posiadają kompletne wyniki pomiarów - ze względów 

fizyko-chemicznych nie zawsze udaje się otrzymać poŜądany wynik stęŜenia gazu w 

badanej w chromatografie mieszance. Niektóre pomiary nie dadzą się konwertować w 

przestrzeń XYZ zgodnie ze wzorem 7-1, gdy przynajmniej jedno ze stęŜeń C 2 H 4 , H 2 , 

C 2 H 6 przyjmuje wartość 0. 

Ze zbioru 444 danych pomiarowych, 312 danych jest sklasyfikowanych w 

sposób pewny (dane nie naleŜą do klasy "Nieznany"), a w tym zbiorze istnieje 257 

danych pomiarowych, które moŜna umiejscowić w przestrzeni XYZ. Zbiór poprawnie 

sklasyfikowanych i przekonwertowanych danych znajduje się w przestrzeni: 

〈0; 3,214286〉 × 〈0,07361456; 104,1667〉 × 〈0,07058824; 12,7619〉 

i prezentowany jest na rysunku 7-2. 

Rysunek 7-2. Zbiór danych pomiarowych w przestrzeni 3-wymiarowej. 

Na rysunku 7-2 moŜna zauwaŜyć, Ŝe dane o duŜych wartościach y są nieliczne. Z tego 

powodu zbiór danych został podzielony na dwa podzbiory: 

- dane, dla których wartość y 12,76. 

- Pierwszy ze zbiorów umieszczony jest w przestrzeni:

122 

- 〈0; 3,214286〉 × 〈0,07361456; 12,55556〉 × 〈0,07058824; 12,7619〉 

- a drugi w przestrzeni: 

- 〈0; 0,007633588〉 × 〈13,16667; 104,1667〉 × 〈1,423246; 8,3125〉. 

Drugi z tych zbiorów zawiera niewielką liczbą danych pomiarowych: 17, a pierwszy z 

nich: 240. Drugi ze zbiorów zawiera głównie wyniki pomiarów dotyczących jednego 

transformatora i wyniki te zostaną odrzucone jako szczególny przypadek w zbiorze 

danych. 

Rysunek 7-3. Zbiór 240-u danych uczących w przestrzeni 3-wymiarowej 

Po tych modyfikacjach uzyskano zbiór 240 pomiarów (rysunek 7-3), który od tej 

chwili jest traktowany jako zbiór przykładów uczących D i umieszczony w bazie faktów 

systemu Trafo2000 (rozdział 8). Zbiór ten jest dobrze określony – jeŜeli dwa, róŜne 

pomiary mają te same wartości x, y, x, to są tej samej klasy. 

7.3. Generowanie reguł 

Na podstawie informacji zawartych w zbiorze uczącym D określić naleŜy rozmyte 

reguły jeŜeli-to, które potrafią poprawnie sklasyfikować wszystkie dane uczące. Celem 

zastosowania algorytmów je generujących (zaprezentowanych w rozdziale 5) 

współrzędne (x, y, z) opisujące dany transformator przekształca się, aby naleŜały do 

przestrzeni będącej sześcianem jednostkowym (adaptacja wzoru 5-3). W celu konwersji 

danych do przestrzeni 〈0,1〉×〈0,1〉×〈0,1〉 stosuje się wzory (7-2), (7-3) i (7-4).

123 

∧ 

nowy x 

xi 

= 

i ∈ 1, 

N max − 

∧ 

nowy y 

yi 

= 

i ∈ 1, 

N max − 

∧ 

nowy z 

zi 

= 

i ∈ 1, 

N max − 

i 

− min{ xi} 

{ x } min{ x } 

i 

i 

− min{ yi} 

{ y } min{ y } 

i 

i 

− min{ zi} 

{ z } min{ z } 

i 

i 

i 

i 

(7-2) 

(7-3) 

(7-4) 

gdzie N jest liczbą obiektów uczących, 

min{x i } = min{x i : i=1,2, ...,N}, min{y i }=min{y i : i=1,2, ...,N}, min{z i }=min{z i : i=1,2, ...,N}, 

max{x i }=max{x i : i=1,2, ...,N}, max{y i }=max{y i : i=1,2, ...,N}, max{z i }=max{z i : i=1,2, ...,N} 

Uzyskany z powyŜszej konwersji sześcian jednostkowy (zbiór danych uczących 

D’ zaadaptowany do przestrzeni 3-wymiarowej wg pierwotnego wzoru 5-3) jest 

dzielony na podobszary rozmyte 

A A × A 

K 

iX 

× wyznaczone (adaptacja wzoru 5-4) przez 

K 

jY 

trójkątne funkcje przynaleŜności (rysunek 5-1 i 7-4) dane wzorami 7-5, 7-6, 7-7. 

µ K iX(x) * = max { 1 - | x - a K i | / b K , 0 } gdzie i = 1, ..., K (7-5) 

µ K jY(y) = max { 1 - | y - a K j | / b K , 0 } gdzie j = 1, ..., K (7-6) 

µ K kZ(z) = max { 1 - |z - a K k | / b K , 0 } gdzie k = 1, ..., K (7-7) 

K 

kZ 

gdzie a K i = (i - 1) / (K - 1), a K j = (j - 1) / (K - 1), a K k = (k - 1) / (K - 1), b K = 1 / (K - 1) 

dla i, j, k = (1, 2,..., K) i K jest numerem podziału. 

* Funkcje przynaleŜności określone są tym samym wzorem tylko kaŜda z nich na innym wymiarze. W 

celu lepszego ich opisania są one indeksowane poprzez X, Y i Z dla zaznaczenia wymiaru, na którym 

wykonują odwzorowanie.

124 

7 7 7 

Rysunek 7-4. Podobszar rozmyty A 

6 X 

× A5 

Y 

× A w przestrzeni trójwymiarowej 

4Z 

wyznaczony przez trójkątne funkcje przynaleŜności 

7 

7 

µ 

6 X 

: 0,1 → R , µ 

5Y 

: 0,1 → R , 

µ : 0,1 → R (wykresy tych funkcji są narysowane w prezentowanej przestrzeni w 

7 

4Z 

sposób umowny, z powodu braku moŜliwości zaznaczenia na rysunku kolejnych 

wymiarów). 

Do kaŜdego podobszaru 

A A × A 

K 

iX 

× przypisana jest reguła rozmyta jeŜeli-to R K ijk 

K 

jY 

K 

kZ 

słuŜąca do klasyfikacji danych, która brzmi: 

"JeŜeli nowy obiekt Q=(x, y, z) naleŜy do danego podobszaru 

A × A × A 

K 

iX 

K 

jY 

K 

kZ 

(gdzie i,j,k∈〈1,2,...,K - liczba podziałów〉), to jest on klasy C K ijk z pewnością 

µ K iX(x) ⋅ µ K jY(y) ⋅ µ K kZ(z) ⋅ CF K ijk ". 

gdzie klasa C K ijk jest klasą ze zbioru wszystkich klas CT, co zapisujemy 

C K ijk ∈ CT (dla T=1, 2, ...,M i M - liczba klas) i CF K ijk ∈R + ∪{0}. 

Aby określić regułę R K ijk (gdzie i, j, k = 1, ..., K i K jest numerem podziału) naleŜy 

zastosować algorytm 7-1 (adaptacja algorytmu 5-1):

125 

Algorytm 7-1: Tworzenie reguły R K ijk 

Krok 1: 

Dla kaŜdej klasy CT 0 (gdzie T 0 = 1, ..., M i M jest liczbą klas) naleŜy 

wyznaczyć β CT0 

jako sumę zgodności wszystkich elementów uczących 

X p = (x, y, z) (gdzie p = 1,2, ...N i N - liczba elementów uczących) 

naleŜących do klasy CT 0 do funkcji przynaleŜności µ iX , µ jY , µ kZ 

wyznaczających regułę R K ijk: 

β CT0 

= 

N 

∑ 

p= 

1 

X = ( x, 

y, 

z) 

∈CT 

p 

K K K 

µ ( x) 

⋅ µ ( y) 

⋅ µ ( z) 

(7-8) 

iX 

0 

jY 

kZ 

Krok 2: 

NaleŜy znaleźć taką klasę CT 1 , Ŝe: 

β CT1 

= max {β C1 , ..., β CM } (7-9) 

JeŜeli β CT1 

= 0 lub występują dwie lub więcej klas, dla których 

wyznaczone wartości β CT0 

przyjmują maksymalna wartość, to wtedy klasa 

C K ijk = CT 1 nie jest definiowana i zaufanie CF K ijk do takiej reguły wynosi 

0. Reguła, w którym klasa C K ijk nie jest definiowana i w którym zaufanie 

CF K ijk = 0, nazywana jest regułą nieistotną. W pozostałych przypadkach 

klasą C K ijk z reguły R K ijk jest klasa CT 1 . 

Krok 3: 

JeŜeli zaufanie CF K ijk nie zostało określone jako 0 w kroku 2, to wyznacza 

się je wzorem 7-10: 

K 

CF ijk 

βCT 

− β 

1 

, gdzie β = 

β 

= M 

∑ 

T = 1 

CT 

M 

∑β 

CT 

T = 1 

T≠T 

1 

M −1 

(7-10) 

NaleŜy zauwaŜyć, Ŝe wzór 7-10 będący adaptacją wzoru 5-7 do przestrzeni 3- 

wymiarowej, a określający zaufanie CF K ijk do klasyfikacji spełnia dwa wymogi zgodne 

z intuicją: 

a) JeŜeli β CT1 

> 0 i dla kaŜdej wartości T 0 ≠ T 1 β CT0 

= 0, to oznacza Ŝe wszystkie 

elementy (x, y, z) ze zbioru uczącego mogące dać wynik ze wzoru 7-8 większy 

od zera naleŜą do jednej klasy CT 1 . Wtedy zaufanie CF K ijk = 1, czyli 

klasyfikacja jest pewna. 

b) JeŜeli dla kaŜdego T 0 wartości β CT0 

niewiele się od siebie róŜnią, to CF K ijk ≈ 0, 

czyli klasyfikacja nie jest pewna. 

 

Realizację przedstawionej procedury naleŜy rozpocząć od podziału K=2. Po 

wygenerowaniu zbioru S K reguł rozmytych jeŜeli-to dla zadanego podziału K, naleŜy 

zwiększyć wartość K o jeden i powtórzyć algorytm. Powtarzanie algorytmu naleŜy

zakończyć, jeŜeli dla bieŜącego K wszystkie reguły R K ijk potrafią poprawnie 

sklasyfikować wszystkie elementy (x, y, z) ze zbioru uczącego. Ostatni wykonany 

podział ma oznaczenie K max . 

126 

PoniŜszy algorytm 7-2 umoŜliwia [42] klasyfikację dowolnego elementu (x 0 , y 0 , 

z 0 ) na podstawie zbioru reguł S K wygenerowanych dla zadanego K. 

Algorytm 7-2: Klasyfikacja 3-wymiarowego obiektu (x 0 , y 0 , z 0 ) za pomocą reguł ze 

zbioru S K wygenerowanych dla zadanego podziału K. 

Krok 1: 

Krok 2: 

NaleŜy wyznaczyć α CT0 

dla kaŜdej klasy CT 0 (gdzie T 0 = 1, ..., M i M 

jest liczbą klas) wg zaleŜności: 

α CT0 

= max {µ K iX(x 0 ) ⋅ µ K jY(y 0 ) ⋅ µ K kZ(z 0 ) ⋅ CF K ijk} (7-11) 

dla kaŜdego R K ijk ∈ S K . 

NaleŜy wyznaczyć klasę CT 1 taką, Ŝe: 

α CT1 

= max {∝ C1 , ..., ∝ CM } (7-12) 

Wynikiem tej procedury jest klasa CT 1 . JeŜeli dwie lub więcej klas 

przyjmuje maksymalne wartości α CT0 

we wzorze 7-11 lub wszystkie 

wartości α CT0 

są zerem, to element (x 0 , y 0 , z 0 ) nie jest klasyfikowany. 

 

NaleŜy tu zwrócić uwagę (rysunek 5-2), Ŝe we wzorze 7-11 uŜyto do wyznaczania 

wielkości α CT0 

zaufania do klasyfikacji CF K ijk z reguły R K ijk. PoniewaŜ wartość owego 

zaufania naleŜy do przedziału 〈0, 1〉, to iloczyn zaufania CF K ijk i wartości µ K iX(x) ⋅ µ 

K 

jY (y) ⋅ µ K jZ(z) moŜe ulec zmniejszeniu w stosunku do wartości µ K iX(x) ⋅ µ K jY(y) ⋅ µ 

K 

jZ (z). Dzięki temu wpływ reguły R K ijk z obszaru A K i×A K j×A K k moŜe ulec zmniejszeniu 

na korzyść reguł dotyczących obszarów sąsiadujących z A K i×A K j×A K k (tj.: 

A 

K K 

i' X 

× Aj' 

Y 

× 

A 

K 

k ' Z 

dla i' = i-1, i, i+1; j' = j-1, j, j+1; k = k-1, k, k+1). 

Reguły ze zbioru S Kmax moŜemy zastąpić regułami ze zbiorów wygenerowanych 

poprzednio (tj. S 2 , S 3 , ..., S Kmax-1 ). Dzięki temu moŜliwa jest redukcja liczby reguł 

niezbędnych do poprawnej klasyfikacji obiektów uczących. W tym celu wprowadza się 

oznaczenie S = S 2 ∪ S 3 ∪ ... S Kmax zbioru wszystkich wygenerowanych reguł 

rozmytych, a zbiór reguł wybranych do klasyfikacji poprzez A. Liczność zbioru S i A 

spełnia warunek 5-13. Klasyfikacja nowego elementu odbywa się zgodnie z

algorytmem opisanym przy wzorze 7-11 przy czym dotyczy wszystkich reguł 

naleŜących do S, czyli R K ijk ∈ S. 

127 

Rysunek 7-5. Zaznaczenie sześcianów wyznaczonych przez funkcje 

przynaleŜności przypisanych do reguł klasyfikujących jeŜeli-to (znaczenie kolorów jak 

na rysunku 7-11). 

Przy próbie uŜycia do wykonania modułu systemu ekspertowego (w postaci 

aplikacji Fuzzy3D.exe opisanej w rozdziale 8) 240 obiektów ze zbioru danych nie 

moŜna uzyskać poprawnej klasyfikacji ich wszystkich nawet dla podziału K = 50 

(rysunek 7-5). Dla tak wysokiej liczby podziałów K naleŜy wykonać dodatkowe analizy 

zbioru danych w celu ograniczenia mocy zbioru S wszystkich wygenerowanych reguł. 

7.4. Konwersja danych uczących 

NiemoŜność wygenerowania reguł (rysunek 7-5) poprawnie klasyfikujących 240 

obiektów uczących przedstawionych na rysunku 7-3 wynika z ich znacznego 

zagęszczenia przy punkcie (0, 0, 0), co potwierdza histogram 3-wymiarowy 

prezentowany na rysunku 7-12, a takŜe ze znacznego zagęszczenia w okolicach 

płaszczyzny 0YZ, co potwierdza histogram wykonany dla zmiennej X z rysunku 7-11. 

Oba wymienione obszary są decyzyjnie trudne i dlatego podczas generowania reguł 

naleŜy poświęcić im szczególną uwagę – co moŜna zrealizować na dwa sposoby. 

Pierwszy z nich polega na zmianie zasady generowania obszarów A K i×A K j×A K k

wyznaczanych przez funkcje µ K iX, µ K jY, µ K jZ(z), tak aby obszary te były drobniejsze w 

obszarach decyzyjnie trudnych. Drugi sposób polega na konwersji przestrzeni będącej 

sześcianem jednostkowym w inną przestrzeń, celem powiększenia obszarów decyzyjnie 

trudnych (kosztem zmniejszenia obszarów, na których klasyfikacja generowanymi 

regułami jest łatwa) i tym samym zmniejszeniu zagęszczenia danych uczących. 

128 

Pierwszą z tych metod niech będzie modyfikacją wzorów 7-5 – 7-7, która 

polegać będzie na dwukrotnym zagęszczeniu reguł o indeksie od 1 do K-1 dla podziału 

K. Zasięg reguły ostatniej i przedostatniej zostanie odpowiednio poszerzony, co dla 

wymiaru x moŜna przedstawić wzorem 7-13. Metoda ta jednak w pewien sztuczny 

sposób traktuje dane uczące dzieląc kaŜdy z wymiarów przestrzeni na odcinki: 

〈0; (K-2)/(2K-2)) i 〈(K-2)/(2K-2); 1〉, 

z których pierwszy wyznacza obszar o zwiększonym zagęszczeniu reguł, a w obszarze 

drugim klasyfikacja odbywa się tylko za pomocą dwóch reguł (co moŜemy 

zaobserwować na rysunku 7-7). 

µ' K 2K −1 

2K −1 

iX(x) = max { 1 - | x - a | / b , 0 } 

i 

gdzie i = 1, ..., K-1 (7-13) 

µ' K iX(x) = 

⎧ 

2K −1 

2K −1 

⎪ 

max { 1 - | x - ai 

| / b , 0 } 

⎨ 

2( K −1) 

2( K −1) 

⎪ − x + dla 

⎪⎩ 

K K 

2( K −1) 

2 − K 

µ' K iX(x) = x + gdzie i = K 

K K 

dla 

x ≥ 

K − 2 

x < gdzie i = K −1 

2( K −1) 

K − 2 

gdzie i = K −1 

2( K −1) 

gdzie a 2K-1 i = (i - 1) / (2K - 2), , b 2K-1 = 1 / (2K - 2) dla i, j, k = (1, 2,..., K), 

K - numer podziału.

129 

Rysunek 7-6. Podział przestrzeni jednowymiarowej (w tym przypadku odcinka 

jednostkowego) przez K=5 trójkątnych funkcji przynaleŜności µ K → R na 

podobszary rozmyte 

K 

A 

i = 1,2,... 

K 

. 

' 

i= 1,2,..., 

K 

: 0, 1 

Proponowana modyfikacja ma istotną wadę: wraz ze wzrostem wartości K 

maleje umiejętność klasyfikowania punktów na odcinku 〈(K-2)/(2K-2); 1〉 (dla 

przestrzeni jednowymiarowej). Dzieje się tak dlatego, Ŝe wraz ze wzrostem wartości K 

rośnie długość tego odcinka. MoŜe więc dojść do sytuacji, Ŝe algorytm wyznaczania 

reguł rozmytych na podstawie podziału przestrzeni danych uczących na podobszary nie 

będzie skończony. 

Z tego powodu zastosowana została druga metod polegająca na konwersji 

sześcianu jednostkowego w sześcian jednostkowy, za pomocą funkcji g:〈0,1〉→〈0,1〉, 

którą uŜywa się do konwersji na kaŜdym z wymiarów: X, Y i Z. Zaproponowano 

sprawdzenie 6-ciu funkcji g:〈0,1〉→〈0,1〉 opisanych wzorami 7-14 – 7-19. 

g 1 (x) = -1 ⋅ ⏐x-1⏐ N + 1, gdzie N ∈ 1,∞ 

) ⊂ R (7-14) 

g 2 (x) = x N , gdzie N ∈ ( 0, 1 ⊂ R (7-15) 

g 3 (x) = 

⎛ N ⎞ 

sin⎜ 

π x ⎟ , gdzie N ∈ ( 0, 1 ⊂ R (7-16) 

⎝ 2 ⎠ 

g 4 (x) = log N (x ⋅ (N-1) + 1), gdzie N ∈ 1,∞ 

) ⊂ R (7-17) 

x−1 

g 5 (x) = ( e − e ) ( e −1) 

N 

( x − x ) 

, gdzie N ∈ 1,∞ 

) ⊂ R (7-18) 

2 ⎛ x 

max min 

+ xmin 

⎞ 

g 6 (x) = arctg⎜ 

⎟ , gdzie N ∈ 0,∞) ⊂ R (7-19), 

π ⎝ N ⎠ 

gdzie x min , x max to wymiary przestrzeni danych uczących określone wzorami 7-2 – 7-4.

130 

PoniewaŜ funkcja g:〈0,1〉→〈0,1〉 zostanie uŜyta dla kaŜdego z wymiarów X, Y i Z, to 

dodatkowo zostanie ona oznaczona indeksem X, Y lub Z odpowiednim dla danego 

wymiaru. Z tego teŜ powodu parametr N oznaczony zostanie takim samym indeksem. 

Wykresy funkcji g X :〈0,1〉→〈0,1〉 w zaleŜności od wartości N X przedstawia rysunek 7-8. 

(a) 

(b) 

(c) 

(d)

131 

(e) 

(f) 

Rysunek 7-7. Wykresy funkcji g x :〈0,1〉→〈0,1〉. 

W przypadku funkcji g 1 opisanej wzorem 7-14 odbywa się konwersja kaŜdego 

wymiaru punktu pomiarowego (obiekt uczący w przestrzeni trójwymiarowej jest 

prezentowany jako punkt o trzech współrzędnych) za pomocą wzorów 7-20 – 7-22. 

g ( x) 

= −1⋅ 

x −1 

1 (7-20) 

N X 

1 X 

+ 

g ( y) 

= −1⋅ 

y −1 

1 (7-21) 

N Y 

1 Y 

+ 

N Z 

g ( z) 

= −1⋅ 

z −1 

1 (7-22) 

1 Z 

+ 

Rysunek 7-8. Obiekty uczące w sześcianie jednostkowym po konwersji funkcjami 

opisanymi wzorami 7-20 – 7-22 dla N X = 3, N Y = 3 i N Z = 4,5. 

Po konwersji punktów uczących za pomocą wybranej funkcji g następuje 

generowanie reguł uczących zgodnie na podstawie funkcji µ określonych wzorami 7-5,

7-6, 7-7, przy czym wartości x, y, z są przekonwertowane, co moŜemy zapisać w postaci 

wzorów 7-23 – 7-25. 

µ" K iX(x) = µ K iX(g X (x)) = max { 1 - | g X (x) - a K i | / b K , 0 } gdzie i = 1, ..., K (7-23) 

µ" K jY(y) = µ K jY(g Y (y)) = max { 1 - | g Y (y) - a K j | / b K , 0 } gdzie j = 1, ..., K (7-24) 

µ" K kZ(z) = µ K kZ(g Z (z)) = max { 1 - | g Z (z) - a K k | / b K , 0 } gdzie k = 1, ..., K (7-25) 

gdzie a K i = (i - 1) / (K - 1), a K j = (j - 1) / (K - 1), a K k = (k - 1) / (K - 1), b K = 1 / (K - 1) 

dla i, j, k = (1, 2,..., K) i K jest numerem podziału. 

132 

ZauwaŜyć moŜna, Ŝe proponowany sposób konwersji punktów uczących i 

generowania na nich reguł uczących na podstawie funkcji µ określonych wzorami 7-5 – 

7-7 sprowadza się (jeŜeli g jest odwzorowaniem wzajemnie jednoznacznym) do 

generowania reguł uczących w przestrzeni przed konwersją na podstawie funkcji µ" 

określonych wzorami 7-23 – 7-25 (rysunek 7-10) przy czym jest tańszy obliczeniowo. 

Rysunek 7-9. Wykresy funkcji µ" K iX(x) dla funkcji transformującej 

N X 

g ( x) 

= −1⋅ 

x −1 

1 dla N X = 3 i K = 5. 

1 X 

+ 

Dzięki moŜliwości zastosowania kilku funkcji transformujących oraz ich 

parametryzacji konwersję moŜna wykonać tak, aby moŜliwie zredukować liczbę 

wykonywanych podziałów K max , dla której wygenerowane reguły potrafią poprawnie 

klasyfikować wszystkie dane uczące. PoniewaŜ generowanie reguł odbywa się po 

transformacji dobrze byłoby znaleźć cechę zbioru uczącego, której zmiana w wyniku 

transformacji miałaby wpływ wartość K max .

133 

Jednymi z waŜniejszych cech zbioru uczącego są odległości minimalne: 

- odl’ - minimalna odległość pomiędzy punktami o róŜnych współrzędnych 

- odl - minimalna odległość pomiędzy punktami róŜnych klas. 

Tabela 7-1 zawiera zestawienia wartości odl oraz odl’ w zaleŜności od 

zastosowanej funkcji konwertującej g oraz parametrów N x , N y , N z . Przyjęto, Ŝe 

obliczenia zostają zakończone, jeŜeli osiągniemy podział K=50 i nie będzie moŜna 

poprawnie klasyfikować wszystkich obiektów uczących za pomocą zbioru reguł S 50 . W 

tym wypadku oznaczymy w tabeli 7-1, Ŝe K max > 50. Wartości odl oraz odl’ 

przedstawione są z dokładnością sześciu miejsc po przecinku. 

N X N Y N Z K max odl' odl 

1 1 1 >50 0,000116 0,006958 

2 2 2 28 0,000231 0,013847 

3 3 3 21 0,000346 0,020669 

4 4 4 16 0,000460 0,027423 

5 5 5 23 0,000575 0,029055 

6 6 6 23 0,000514 0,022766 

7 7 7 24 0,000187 0,019162 

8 8 8 28 0,000103 0,016876 

9 9 9 36 0,000087 0,015129 

10 10 10 35 0,000042 0,012705 

11 11 11 44 0,000022 0,009099 

12 12 12 >50 0,000010 0,006653 

Tabela 7-1. ZaleŜność wartości K max od funkcji konwertującej g 1 oraz parametrów N x , 

N y , N z - wstępne obliczenia. 

Po wykonaniu wstępnych obliczeń dla funkcji konwertującej g 1 oraz parametrów 

N x =N y =N z otrzymano dla N x =N y =N z =4 najmniejszą wartość K max =16. Analizując dane 

z tabeli 7-1 moŜna dojść do wniosku, Ŝe wartość K max nie zaleŜy od wartości odl lub odl' 

wprost. Wraz ze wzrostem wartości N x, N y, N z następował początkowo (do 

N x =N y =N z =4) wzrost wartości odl i odl', a takŜe spadek wartości K max . Jednak dla 

wartości N x =N y =N z =5, gdzie wartości odl i odl' były największe wartość K max wcale nie 

była najniŜsza (zaburzenie proporcjonalności wprost pomiędzy K max , a odl i odl' 

zaobserwować moŜna teŜ dla N x =N y =N z =9, a N x =N y =N z =10). Z tabeli tej widać, Ŝe 

moŜliwe jest posłuŜenie się wartościami odl i odl' do znalezienia dość dobrych wartości 

N x, N y, N z , jednak trzeba jeszcze poszukać lepszej transformacji w otoczeniu tak 

wyznaczonych wartości. ZauwaŜmy teŜ, Ŝe posłuŜenie się wartością odl w celu

wyznaczenia moŜliwie małej wartości K max jest nieco lepsze niŜ posługiwanie się 

wartością odl', co moŜemy zaobserwować porównując wartości odl i odl' dla 

N x =N y =N z =4, N x =N y =N z =5, N x =N y =N z =6. Właściwości zbioru danych uczących 

zostaną więc uzupełnione o wartości oczekiwane [29] i wariancje (oznaczone 

odpowiednio E(X) i V(X) [54]) dla kaŜdej zmiennej x, y, z opisującej dane uczące 

(rysunek 7-11 i tabela 7-2). 

134 

N X N Y N Z E(X); V(X) E(Y); V(Y) E(Z); V(Z) odl K max 

1 1 1 0,060; 0,030 0,213; 0,050 0,313; 0,070 0,006958 >50 

4 4 4 0,116; 0,070 0,476; 0,096 0,606; 0,109 0,027423 16 

4 4 5 0,116; 0,070 0,476; 0,096 0,651; 0,107 0,027423 17 

4 4 3 0,116; 0,070 0,476; 0,096 0,546; 0,109 0,027423 21 

4 3 4 0,116; 0,070 0,414; 0,089 0,606; 0,109 0,020669 20 

4 5 4 0,116; 0,070 0,526; 0,100 0,606; 0,109 0,025757 18 

3 4 4 0,103; 0,061 0,476; 0,096 0,606; 0,109 0,027423 16 

5 4 4 0,126; 0,077 0,476; 0,096 0,606; 0,109 0,027423 16 

6 4 4 0,137; 0,083 0,476; 0,096 0,606; 0,109 0,027423 17 

Tabela 7-2. ZaleŜność wartości K max dla funkcji konwertującej g 1 oraz parametrów N x , 

N y , N z od wartości oczekiwanej i wariancji oraz odl - kontynuacja obliczeń. 

Tabela 7-2 pokazuje, Ŝe nie ma teŜ zaleŜności pomiędzy tymi wartościami, a 

wartością K max . RównieŜ analiza histogramów nie przyniosła efektu w postaci 

wyznaczenia jakiejś zaleŜności pomiędzy parametrami wykonywanej konwersji, a 

wartością K max . PoniewaŜ histogramy przypominały histogramy dla rozkładu 

wykładniczego lub normalnego, to na podstawie tej właściwości zostały 

zaproponowane funkcje transformujące g 4 oraz g 5 . 

Próba interpolacji wielomianem Lagrange'a wartości dwóch wymiarów 

(przyjęto, Ŝe będą zanalizowane zaleŜności y od x, z od y i x od z) punktów 

pomiarowych równieŜ nie przyniosła odpowiedzi na to pytanie – uzyskiwane 

wielomiany około dwusetnego stopnia nie nadają się do dalszej analizy. 

Zaobserwowano równieŜ duŜe odchylenia punktów pomiarowych od prostej 

aproksymowanej średniokwadratowo. Z tego powodu zamiast aproksymacji i 

interpolacji moŜna analizować wartości średnie na przedziale (rysunek 7-11).

135 

Rysunek 7-10. Analiza właściwości zbioru uczącego - wartości średnie i histogramy 

Rysunek 7-11. Analiza właściwości zbioru uczącego - histogramy dla klas, histogramy 

trójwymiarowe, wartości oczekiwane i odchylania standardowe dla klas

136 

W tabeli 7-2 moŜna zauwaŜyć, Ŝe wartość K max nie zaleŜy w sposób istotny od 

wartości N X , co moŜna tłumaczyć zagęszczeniem punktów uczących w okolicy (dla 

małych wartości x) płaszczyzny 0YZ. Aby potwierdzić, Ŝe tak jest w istocie wykonano 

dodatkowe rysunki (rysunek 7-12) przedstawiające histogramy trójwymiarowe 1 . 

PoniewaŜ sam histogram trójwymiarowy nie przedstawia informacji o tym ile punktów 

danej klasy naleŜy do danego podobszaru prezentowanego w histogramie, to wykonano 

jeszcze analizę histogramów dla zmiennych x, y, z dla poszczególnych klas. 

Uzupełnieniem tej informacji jest graficzne przedstawienie w przestrzeni 

trójwymiarowej wartości oczekiwanej i odchylenia standardowego dla poszczególnych 

klas - w formie krawędzi prostopadłościanu o środku w punkcie (E(X), E(Y), E(Z)) i 

długości boków odpowiednio: 2 V ( Z),2 

V ( Y ),2 V ( Z) 

. (rysunek 7-12). 

N X N Y N Z K max 

4 4 4 16 

4 4 5 17 

4 4 3 21 

4 3 4 20 

4 5 4 18 

3 4 4 16 

5 4 4 16 

3 3 4 20 

3 3 5 17 

3 4 5 17 

3 5 4 18 

3 5 5 23 

3 3 3.5 20 

3 3 4.5 15 

3 4 3.5 21 

3 4 4.5 18 

Tabela 7-3. ZaleŜność wartości K max dla funkcji konwertującej g 1 od parametrów N x , N y , 

N z - kontynuacja poszukiwań minimalnej wartości K max . 

Dla N X =3, N Y =3 i N Z =4,5 znaleziono (tabela 7-3) najmniejszą wartość K max = 

15. Oczywiście wartość K max zaleŜy równieŜ od samej funkcji transformującej g i 

dlatego poszukiwania wartości minimalnej K max przeprowadzono w przypadku 

1 Rysunek ten uzyskano poprzez podział kaŜdego z wymiarów sześcianu jednostkowego na 10 odcinków 

o tej samej długości. Następnie wyznaczono ile obiektów uczących naleŜy do kaŜdego z uzyskanych w 

ten sposób 1000 małych sześcianów. Obszar zajmowany przez sześcian był następnie wypełniany w 

całości dla sześcianu, do którego naleŜało najwięcej punktów uczących. W pozostałych przypadkach był 

on wypełniany odpowiednio mniej w zaleŜności od ilości punktów uczących naleŜących do obszaru 

zajmowanego przez sześcian.

pozostałych funkcji transformujących g opisanych wzorami 4.2 - 4.6, ale nie uzyskano 

równie dobrych rezultatów (tabela 7-4). 

Funkcja N X N Y N Z K max 

g 2 (x) 0,5 0,5 0,5 27 

g 2 (x) 0,6 0,6 0,6 30 

g 2 (x) 0,4 0,4 0,4 27 

g 3 (x) 1 1 1 34 

g 3 (x) 0,5 0,5 0,5 24 

g 3 (x) 0,4 0,4 0,4 34 

g 4 (x) 10 10 10 24 

g 4 (x) 100 100 100 27 

g 4 (x) 20 20 20 23 

g 5 (x) 2 2 2 20 

g 5 (x) 3 3 3 18 

g 5 (x) 4 4 4 21 

g 6 (x) 1 1 1 36 

g 6 (x) 2 2 2 23 

g 6 (x) 3 3 3 30 

g 6 (x) 0,8 0,8 0,8 44 

Tabela 7-4. ZaleŜność wartości K max od funkcji konwertującej g i od parametrów N x , N y , 

N z - wybrane rezultaty poszukiwań minimalnej wartości K max . 

137 

Udało się tu wykazać, Ŝe konwersja 240 danych uczących za pomocą wybranych 

odwzorowań mających na celu powiększenie obszarów danych trudnoseparowalnych, 

kosztem obszarów, w których podjecie decyzji o stanie technicznym transformatora jest 

łatwe, moŜe istotnie obniŜyć liczbę koniecznych do wykonania podziałów 

proponowanych w algorytmie 7-1. Redukcja tej wartości znacząco obniŜa 

czasochłonność dalszych obliczeń. Wobec proponowanego algorytmu 7-1 nie udało się 

jednoznacznie wyznaczyć parametru opisującego zbiór danych uczących, którego 

regulacja mogłaby z góry ustalić, czy nastąpi wzrost, czy spadek liczby koniecznych do 

wykonania podziałów. 

7.5. Regulacja rozmiaru przestrzeni danych 

Do przeprowadzenia procesu tworzenia systemu ekspertowego nie zostanie 

uŜyte 240 danych (obiektów) uczących, poniewaŜ część z nich potraktujemy jako dane 

testowe. Z tego powodu zbiór 240 obiektów został podzielony na trzy rozłączne 

podzbiory w sposób losowy. Po dwa z tych podzbiorów połączono otrzymując trzy pary

ozłącznych podzbiorów zbioru 240 obiektów o liczności odpowiednio 160 i 80 

obiektów uczących. PoniewaŜ te ilości obiektów uczących są małe jak na próbkę 

losową, to dla kaŜdej z trzech par przesunięto obiekty uczące (w sposób losowy) tak, 

aby większy zbiór zawierał 70% obiektów zbioru wyjściowego (168 obiektów), a 

mniejszy odpowiednio 30% (72 obiekty) i to tak, aby proporcję 7:3 zachować dla ilości 

obiektów poszczególnych klas zawartych w zbiorach (tabela 7-5). 

138 

Lp. Nazwa klasy Liczba 

obiektów 

klasy (100%) 

70% 

całości 

30% 

całości 

1 Bez uszkodzeń 45 31 14 

2 Wyładowania niezupełne o małej energii 11 8 3 

3 Wyładowania niezupełne o duŜej energii 6 4 2 

4 Wyładowania zupełne o małej energii 3 2 1 

5 Wyładowania zupełne o duŜej energii 21 15 6 

6 Przegrzanie 150 0 C 2 2 0 

7 Przegrzanie powyŜej 150 0 C i poniŜej 300 0 C 3 2 1 

8 Przegrzanie powyŜej 300 0 C i poniŜej 700 0 C 66 46 20 

9 Przegrzanie powyŜej 700 0 C 83 58 25 

Razem 240 168 72 

Tabela 7-5. Proporcjonalny (z uwzględnieniem liczności poszczególnych klas) podział 

240 obiektów uczących na 70% obiektów uŜytych do tworzenia systemu ekspertowego 

oraz 30% - do testowania 

Zbiór 240 obiektów nazwijmy "240 danych uczących", a trzy pary utworzonych 

w opisany powyŜej sposób zbiorów odpowiednio "Zbiór uczący 1" i "Zbiór testowy 1", 

"Zbiór uczący 2" i "Zbiór testowy 2" oraz "Zbiór uczący 3" i "Zbiór testowy 3". Obiekty 

uczące ze zbioru "240 danych uczących" naleŜą do przestrzeni P: 

〈0; 3,214286〉 × 〈0,07361456; 12,55556〉 × 〈0,07058824; 12,7619〉 

która została opisana w rozdziale 7-2. JeŜeli na tej samej przestrzeni opisane zostaną 

zbiory uczące oraz testowe oraz do procesu wyznaczania reguł uczących na zbiorach 

uczących zastosujemy funkcję g 1 ze współczynnikami N x = 3, N Y = 3 i N Z = 4,5 

ustalonymi w poprzednim rozdziale, to otrzymamy dla poszczególnych zbiorów danych 

następujące wartości K max - liczby podziałów niezbędnych do wykonania, aby wszystkie 

punkty zbioru uczącego były poprawnie klasyfikowane przez reguły ze zbioru 

(tabela 7-6): 

Kmax 

S

139 

Nazwa zbioru 

K max 

"240 danych uczących" 15 

"Zbiór uczący 1" 12 



Tabela 7-6. Wartość K max dla poszczególnych zbiorów uczących w przestrzeni P 

W tabeli 7-6 widać, Ŝe dla dwóch pierwszych zbiorów uczących wartość K max 

jest mniejsza niŜ dla zbioru źródłowego, ale dla zbioru trzeciego jest na odwrót pomimo 

tego, Ŝe jest to zbiór ilościowo mniejszy niŜ źródłowy. Powodem takiej sytuacji jest fakt 

zastosowania podziału rozmytego. Ten niepoŜądany efekt moŜemy próbować 

zniwelować, jeŜeli bliŜej przyjrzymy się definicjom funkcji µ" wyznaczających 

przedziały rozmyte. Okazuje się, Ŝe obiekt uczący leŜący na jednym z krańców 

przestrzeni jest klasyfikowany w sposób trudniejszy niŜ pozostałe obiekty (w danym 

wymiarze jego klasyfikację wyznacza zawsze tylko jedna funkcja µ"). Powiększając w 

niewielkim stopniu przestrzeń danych uczących moŜemy zmienić tę sytuację. Dla 

drobnej zmiany przestrzeni P w przestrzeń P' polegającej na określeniu dolnej granicy 

przestrzeni dla wymiaru Y jako wartości 0,06 otrzymujemy juŜ znaczące zmiany 

wartości K max (tabela 7-7). 

Nazwa zbioru 

K max 





Tabela 7-7. Wartość K max dla poszczególnych zbiorów uczących w przestrzeni P' 

Jak widać z tabeli 7-7 nastąpiło znaczne zmniejszenie wartości K max w 

przestrzeni P': 

〈0; 3,214286〉 × 〈0,06; 12,55556〉 × 〈0,07058824; 12,7619〉 

ale tylko dla trzeciego zbioru uczącego - w przypadku dwóch pozostałych nastąpił efekt 

odwrotny. Jednak po drobnej regulacji (zaokrąglenia) pozostałych granic przestrzeni 

otrzymano przestrzeń P" wyznaczoną następująco: 

〈-0,01; 3,22〉 × 〈0,06; 12,76〉 × 〈0,06; 12,77〉 

dla której otrzymano wartości K max dla poszczególnych zbiorów uczących zebrane w 

tabeli 7-8.

140 

Nazwa zbioru 

K max 





Tabela 7-8. Wartość K max dla poszczególnych zbiorów uczących w przestrzeni P' 

NaleŜy zauwaŜyć, Ŝe tylko drobne regulacje granic przestrzeni nie wymagają 

ponownego wyznaczania wartości N X , N Y , N Z . JeŜeli decydujemy się na znaczne zmiany 

rozmiarów przestrzeni, to powinniśmy ponownie wyznaczyć parametry transformacji: 

funkcję g oraz wartości N X , N Y , N Z . 

Reasumując powinniśmy podczas wyznaczania przestrzeni uczącej kierować się 

nieco zmodyfikowanymi wzorami 7-2 – 7-4, a mianowicie: 

∧ 

nowy x 

xi 

= 

i ∈ 1, 

N max − 

∧ 

nowy y 

yi 

= 

i ∈ 1, 

N max − 

∧ 

nowy z 

zi 

= 

i ∈ 1, 

N max − 

i 

− min{ xi} 

{ x } min{ x } 

i 

i 

− min{ yi} 

{ y } min{ y } 

i 

i 

− min{ zi} 

{ z } min{ z } 

i 

i 

i 

i 

(7-26) 

(7-27) 

(7-28) 

gdzie N jest liczbą obiektów uczących oraz 

min’{x i }=min{x i : i=1,2, ...,N} - dx min , min{y i }=min{y i : i=1,2, ...,N} - dy min , 

min’{z i }=min{z i : i=1,2, ...,N} - dz min , max’{x i }=max{x i : i=1,2, ...,N} + dx max , 

max’{y i }=max{y i : i=1,2, ...,N} + dy max , max’{z i }=max{z i : i=1,2, ...,N} + dz max i 

dx min , dy min , dz min , dx max , dy max , dz max , ∈ R + ∪{0}.

141 

7.6. Parametryzacja algorytmu genetycznego 

Narzędziem redukcji liczby reguł zapisanych w zbiorze reguł S (wzory 5-10 i 5- 

11) i uzyskanych dla zbioru danych uczących o nazwie „Zbiór uczący 1” jest algorytm 

genetyczny, który dąŜy do minimalizacji liczby reguł rozmytych uŜywanych do 

klasyfikacji przy jednoczesnym zachowaniu poprawności wykonywanej klasyfikacji. 

Aby osiągnąć ten cel, algorytm genetyczny usiłuje wyznaczyć maksimum funkcji 

f (A) → R danej wzorem 5-19 za pomocą jednej z trzech opisanych uprzednio funkcji 

przystosowania poprzez wzory 5-26, 5-33, 5-34. PoniewaŜ jednak wartość funkcji 

przystosowania 5-26 niewiele mówi o jakości procesu uczenia, a nie zaobserwowano 

zmiany jakości uzyskiwanych wyników podczas stosowania funkcji opisanej wzorem 5- 

34, to do dalszych praktycznych obliczeń uŜywana była funkcja opisana wzorem 5-33. 

Parametry a, b, c i m opisujące tę funkcję (wzór 5-33) nie miały istotnego wpływu na 

jakość uzyskiwanych przez algorytm genetyczny wyników. Zupełnie bez znaczenia dla 

podanego przykładu obliczeniowego okazały się parametry: oceniający istotność funkcji 

kary c, czy skalującą potęgą funkcję przystosowania m. Parametry a i b miały o tyle 

mierzalny wpływ, Ŝe określały odpowiednio: na ile zaleŜy nam na uzyskaniu poprawnej 

klasyfikacji, a ile na redukcji liczby praw. Zmniejszenie proporcji pomiędzy nimi 

poniŜej 20:1 skutkowało niekiedy istotniejszą redukcją liczby praw, ale kosztem 

wykonywanej klasyfikacji, co dla systemu informatycznego nie powinno być 

dopuszczalne. Ostatecznie po kilkudziesięciu przebiegach próbnych algorytmu 

genetycznego ustalono, Ŝe dla wszelkich dalszych testów: 

a = 20, b = 1, c = 0.1, m = 1. 

W kaŜdym z uzyskanych w algorytmie genetycznym chromosomów reguła R K ijk 

uzyskana z algorytmu 7-1 zapisana jest na r-tej pozycji chromosomu (locus) zgodnie ze 

wzorem 7-30 (adaptacja wzoru 5-21). 

2 

⎧ K 

= ⎪K 

⎨ 

⎪∑ − 1 

r 

3 

h + 

⎩h= 

2 

( i −1) + K( j −1) + ( k −1) 

+ 1 

2 

K ( i −1) + K( j −1) + ( k −1) 

+ 1 

Wartość genu na r-tej pozycji moŜe przyjąć 3 wartości: 

dla 

dla 

K = 2 

K > 2 

0 - gdy reguła R K ijk jest nieistotna 

1 - gdy reguła R K ijk naleŜy do zbioru B – jest uŜywana do klasyfikacji 

2 - gdy reguła R K ijk nie naleŜy do zbioru B. 

(7-29)

142 

Łączna długość chromosomu uzyskanego dla K max = 12 (wg tabeli 7-8) wynosi (wzór 5- 

12 i rysunek 8-46): 

2 3 +3 3 +4 3 +5 3 +6 3 +7 3 +8 3 +9 3 +10 3 +11 3 +12 3 = 6083 

z czego (rysunek 8-46) 2842 uzyskanych reguł jest nieistotnych. Wyraźnie z 

powyŜszych obliczeń wynika istotność rozwaŜań przeprowadzonych w poprzednich 

rozdziałach (rozdział 5-2, 7-4 i 7-5) o redukcji liczby podziałów K max niezbędnych do 

uzyskania reguł poprawnie klasyfikujących dane uczące, gdyŜ juŜ dla K max = 15 (wzór 

5-12) długość chromosomu wynosiłaby 14399. 

Początkowo algorytm genetyczny wyznaczający maksimum funkcji f danej 

wzorem 5-19 uruchamiany był dla krzyŜowania jednopunktowego, selekcji ruletkowej, 

prawdopodobieństwa wylosowania jedynki w zerowej generacji wynoszącym 0,5 i dla 

zachowywania najlepszego osobnika w następnej generacji. Dla prawdopodobieństwa 

wykonania mutacji wynoszącego 0,001 i prawdopodobieństwa krzyŜowania 

wynoszącego 1, dla liczności populacji wynoszącej 100, otrzymywano po 2000 

generacji poprawną klasyfikację wszystkich 168 obiektów uczących, ale za pomocą 

około 900 reguł. 

Regulacja warunku zakończenia algorytmu tj. uzyskania satysfakcjonującej 

liczby pokoleń nie wpływała na poprawę wykonania algorytmu. Po sprawdzeniu 

wartości od 100 do 4000 ustalono tę wartość na 2000. Po jej przekroczeniu nie 

obserwowano juŜ istotnej poprawy uzyskiwanego wyniku (najwyŜej drobne korekty). 

Nieco lepsze wyniki zaczęto uzyskiwać po zmianie wartości 

prawdopodobieństwa wylosowania jedynki w generacji zerowej (startowej). Algorytm 

genetyczny realizował się szybciej dla mniejszej wartości tego parametru wynoszącej 

od 0.1 do 0.2 i po 2000 pokoleń uzyskiwano około 500 reguł klasyfikujących wszystkie 

dane uczące. Poprawiono więc przebieg algorytmu, ale nie jego proces rozwiązywania 

zadania. Dlatego ostatecznie ustalono wartość tę na poziomie 0.1 – nie wpływa ona 

istotnie na jakość uzyskanego rozwiązania. 

Badania (tj. wykonane próbnie przebiegi algorytmu) nad licznością populacji 

algorytmu genetycznego wykazały, Ŝe i ta wartość nie wpływa znacząco na jakość 

uzyskiwanego rozwiązania. Dla liczności 50, 100, 200 rezultaty były podobne i 

ostatecznie ustalono, Ŝe najwłaściwszą wartością będzie 50, co przynajmniej zmniejszy 

czasochłonność obliczeń.

Oczywiście pracujący algorytm genetyczny celem zaproponowania najlepszego 

wyniku po jego zakończeniu powinien ów wynik kopiować z pokolenia na pokolenie i 

dlatego to właśnie ustawienie parametru jego pracy będzie uŜywane. 

Regulacja parametru, który w sposób losowy miał zaburzać skłonność do 

ujednolicania się populacji z powodu upodabniania się jej do najlepszego osobnika – 

mutacja, równieŜ nie wpływała w sposób znaczący na poprawę uzyskiwanych 

wyników. Ustalono więc, Ŝe zachodzić będzie w sposób sporadyczny to jest jeden raz 

podczas budowy nowego chromosomu (czyli prawdopodobieństwo mutacji jednego 

genu wynosi jeden dzielone przez długość chromosomu tu 1/6083 ≈ 0.0001643 

rysunek 8-46). 

Dopiero istotną poprawę jakości uzyskiwanych wyników uzyskano po 

wprowadzeniu krzyŜowania wielopunktowego. Dla krzyŜowania 4-punktowego (przy 

prawdopodobieństwie zajścia samego krzyŜowania wynoszącego 100%) po 2000 

generacji uzyskano 165 reguł jeŜeli-to zdolnych klasyfikować poprawnie 167 ze 168 

danych uczących. Doświadczalnie ustalono, Ŝe wykonywane będzie krzyŜowanie 50- 

punktowe (m.in. ze względu na to, Ŝe długość chromosomu przekracza 6000). 

Celem poprawy i tego rezultatu wykonano testowe przebiegi algorytmu dla 

krzyŜowania proporcjonalnego. Wykonywano wtedy krzyŜowanie 12-punktowe (z 

powodu pracy na chromosomie zapisującym prawa uzyskane z 12 podziałów) przy 

czym na kaŜdym z odcinków chromosomu chS K (rysunek 5-11 i wzór 5-22) 

prawdopodobieństwo wykonania krzyŜowania wynosiło 100%. Jednak i ta modyfikacja 

nie poprawiła juŜ uzyskiwanych wyników po wprowadzeniu krzyŜowania 

wielopunktowego. 

Innym sposobem poprawy uzyskiwanego wyniku było zastosowanie selekcji 

turniejową dla rozmiaru turnieju 2. Dla 40-punktowego krzyŜowania, 

prawdopodobieństwa mutacji 0,0005 dla ilości osobników w generacji 200 dla 

prawdopodobieństwa wylosowania jedynki w generacji startowej 0,2 otrzymano: 

- po 2000 pokoleniach 94 reguły zdolne poprawnie klasyfikować 166 elementów 

uczących (dla selekcji ruletkowej) 

- po 400 pokoleniach 145 reguł zdolnych poprawnie klasyfikować wszystkie 168 

danych uczących (dla selekcji turniejowej). 

Pomimo zastosowania selekcji turniejowej nie udało się znacząco zredukować ilości 

reguł niezbędnych do dokonania poprawnej klasyfikacji. 

143

Po wyczerpaniu moŜliwości regulacji parametrów pracy algorytmu genetycznego i 

uzyskiwaniu mało satysfakcjonujących wyników, gdyŜ zbyt wielka liczba reguł słuŜyła 

do klasyfikacji wszystkich danych uczących, zdecydowano na wprowadzenie nowych 

operatorów genetycznych do algorytmu (rozdział 5.3.7). 

144 

Operator mutacji „usunięcie jedynki” ma za zadanie usunąć z chromosomu 

zapisaną wartość 1 i wymienić ją na 2, co odpowiada operacji usunięcia zapisanej w 

danym genie reguły jeŜeli-to ze zbioru reguł A uwzględnianych przy klasyfikacji. Ma on 

zrównowaŜyć działanie klasycznego operatora mutacji, który losowo zamienia 

napotkane wartości 1 na 2 i 2 na 1, ale poniewaŜ w dobrze dostosowanych 

chromosomach liczba jedynek jest znacznie mniejsza niŜ dwójek, to operator ten dla 

pokoleń o wyŜszych numerach raczej przeszkadza w uzyskaniu lepszego rezultatu. Po 

ustaleniu prawdopodobieństwa zajścia mutacji „usuwającej jedynkę” na poziomie 10 

zmian w całym chromosomie podczas jego konstrukcji juŜ po 75 generacjach uzyskano 

148 reguł potrafiących poprawnie klasyfikować 161 na 168 danych uczących. Niestety 

aŜ do generacji 2000 nie udało się poprawić uzyskanego rezultatu, co sugeruje, Ŝe 

przyjęte prawdopodobieństwo zadziałania tego operatora jest zbyt duŜe. Dla dwukrotnie 

obniŜonego prawdopodobieństwa (zaistnienie takiej mutacji na poziomie 5 zmian w 

chromosomie podczas jego tworzenia) uzyskano lepszy wynik, gdy zawarte w 

chromosomie reguły w liczbie 135 potrafiły poprawnie sklasyfikować więcej danych 

uczących niŜ uprzednio tj. 165 na 168 danych uczących. Zaproponowany operator miał 

więc odczuwalny wpływ na generowane rezultaty. Najlepszym uzyskanym wynikiem z 

uŜyciem jedynie tego operatora (bez dalszych tu wprowadzonych) był przebieg, gdzie 

dla 40-punktowego krzyŜowania, prawdopodobieństwa klasycznej mutacji 0.0005, 200 

osobników w generacji, prawdopodobieństwa wylosowania 1 w startowej generacji 0.2, 

dla selekcji turniejowej dla rozmiaru turnieju 2, dla zachowania najlepszego osobnika, 

po 2000 pokoleń otrzymano 83 reguły klasyfikujące poprawnie 167 obiektów uczących. 

Nadal jednak nie jest to wynik satysfakcjonujący, gdyŜ rezultat ten uzyskano juŜ w 650 

pokoleniu i nie uległ on jakiejkolwiek poprawie, aŜ do 2000 pokolenia. 

Operator mutacji „inteligentne przesunięcie jedynki” ma na celu przeniesienie 

prawa zapisanego w danej lokalizacji i uŜywanego do klasyfikacji (stąd mówimy o 

przesunięciu jedynki, która to właśnie symbolizuje prawo uŜywane do klasyfikacji) do 

obszaru praw w chromosomie uzyskanych z poprzedniego podziału (a więc nie działa 

ten operator na prawach z podziału pierwszego, gdy K = 2) tak, aby obszar kodowany

przez nowe prawo uŜyte do klasyfikacji miał część wspólną z obszarem, który był 

przypisany do prawa z pozycji chromosomu, z której właśnie została usunięta jedynka. 

Dopiero zastosowanie tego operatora z prawdopodobieństwem wymuszającym jedną 

taką zmianę w chromosomie podczas jego tworzenia pozwoliła na zredukowanie liczby 

reguł uŜywanych do klasyfikacji do 50 istotnych reguł, ale nie moŜna było wymóc 

wykonania nimi poprawnej klasyfikacji wszystkich danych uczących. 

Z tego powodu uŜyto operatora mutacji „nieproporcjonalnego wstawienia 

jedynki”. Operator ów ma za zadanie wstawić wartość 1 w gen znajdujący się we 

fragmencie chromosomu, którego pozycje kodują reguły jeŜeli-to uzyskane z ostatniego 

podziału K max . Operator ten ma działać w niewielkim stopniu i dlatego ustalono, Ŝe 

będzie wykonywany nie częściej niŜ 1 raz na całym chromosomie podczas jego 

tworzenia. 

Po zastosowaniu nowych operatorów mutacji bardzo często uzyskiwany w 2000 

pokoleniu wynik przebiegu algorytmu genetycznego kodował sobą mniej niŜ 50 praw 

zdolnych do poprawnej klasyfikacji wszystkich 168 danych uczących. Za wyniki 

najlepsze (tj. grupę ekspertów I opisaną w rozdziale 5.3.8) uznano te rezultaty, które 

kodują sobą mniej niŜ 40 reguły jeŜeli-to potrafiące poprawnie zidentyfikować 167 lub 

168 przykładowych danych uczących (rysunki 8-50, 8-55 i 7-12). Wyniki te tworzą 

grupę I współpracujących ze sobą ekspertów (zgodnie ze wzorem 5-43), a prawa w 

nich zawarte słuŜą człowiekowi do wyciągania własnych wniosków (rysunki 8-53 i 8- 

54) m.in. o tym jak często grupa ma zapisane w sobie to samo prawo. 

145 

Rysunek 7-12. Analiza jakości uzyskanego eksperta: obszary decyzyjne

Prawo R(K = 3, i = 2, j = 1, l = 3): 

"KaŜdy element (x,y,z) naleŜący do podprzestrzeni x x 

zostanie zakwalifikowany jako Wyładowania zupełne o duŜej energii 

z maksymalną pewnością 75.54 procent". 

Prawo R(K = 3, i = 2, j = 2, l = 2): 


zostanie zakwalifikowany jako Bez uszkodzeń 


Prawo R(K = 4, i = 2, j = 1, l = 1): 


zostanie zakwalifikowany jako Wyładowania niezupełne o duŜej energii 


Prawo R(K = 4, i = 2, j = 1, l = 2): 


zostanie zakwalifikowany jako Wyładowania niezupełne o małej energii 


Prawo R(K = 4, i = 2, j = 3, l = 2): 


zostanie zakwalifikowany jako Przegrzanie powyŜej 300°C i poni Ŝej 700°C 


Prawo R(K = 5, i = 1, j = 2, l = 5): 


zostanie zakwalifikowany jako Przegrzanie powyŜej 700°C 


Prawo R(K = 5, i = 1, j = 5, l = 3): 




Prawo R(K = 5, i = 4, j = 1, l = 3): 


zostanie zakwalifikowany jako Wyładowania zupełne o duŜej energii 


Prawo R(K = 6, i = 2, j = 2, l = 3): 



z maksymalną pewnością 70.27 procent". 

Prawo R(K = 6, i = 2, j = 3, l = 6): 




Prawo R(K = 7, i = 1, j = 4, l = 4): 




Prawo R(K = 7, i = 1, j = 7, l = 7): 




Prawo R(K = 7, i = 2, j = 4, l = 5): 




Prawo R(K = 8, i = 1, j = 2, l = 2): 




Prawo R(K = 8, i = 1, j = 3, l = 2): 


zostanie zakwalifikowany jako Przegrzanie powyŜej 150°C i poni Ŝej 300°C 


Prawo R(K = 8, i = 1, j = 3, l = 6): 




Prawo R(K = 8, i = 1, j = 6, l = 2): 




Prawo R(K = 8, i = 1, j = 6, l = 7): 




Prawo R(K = 8, i = 1, j = 7, l = 4): 




Prawo R(K = 8, i = 1, j = 7, l = 5): 




Prawo R(K = 8, i = 2, j = 1, l = 2): 




Prawo R(K = 8, i = 2, j = 2, l = 3): 


zostanie zakwalifikowany jako Wyładowania zupełne o małej energii 


Prawo R(K = 8, i = 2, j = 2, l = 4): 


zostanie zakwalifikowany jako Wyładowania zupełne o małej energii 


Prawo R(K = 8, i = 2, j = 2, l = 5): 


zostanie zakwalifikowany jako Przegrzanie poniŜej 150°C 


Prawo R(K = 9, i = 1, j = 1, l = 1): 


zostanie zakwalifikowany jako Wyładowania niezupełne o duŜej energii 


146

147 

Prawo R(K = 9, i = 1, j = 1, l = 2): 




Prawo R(K = 9, i = 1, j = 1, l = 4): 




Prawo R(K = 9, i = 1, j = 4, l = 3): 




Prawo R(K = 9, i = 1, j = 4, l = 8): 




Prawo R(K = 9, i = 1, j = 5, l = 9): 




Prawo R(K = 9, i = 7, j = 3, l = 8): 




Prawo R(K = 11, i = 1, j = 7, l = 4): 




Prawo R(K = 11, i = 1, j = 9, l = 2): 




Prawo R(K = 12, i = 1, j = 3, l = 8): 



z maksymalną pewnością 70.30 procent". 

Prawo R(K = 12, i = 1, j = 6, l = 11): 




Tabela 7-9. Zapis 35 praw klasyfikujących wszystkie 168 danych uczących 

7.7. Porównanie technik generowania reguł 

W pracy przedstawiono wiele róŜnorodnych technik generowania reguł 

klasyfikujących oraz algorytmów redukcji ich liczby. Rozwiązanie problemu uzyskania 

moŜliwie małej liczby reguł, z których to zapisu mógłby czerpać wiedzę człowiek, przy 

jednoczesnym zachowaniu wysokiej jakości wykonywanej klasyfikacji 

diagnozowanych pomiarów stanów stęŜeń gazów rozpuszczalnych w oleju 

transformatorowym metoda chromatografii gazowej – DGA, zawsze nastręczało 

trudność oszacowania, które z kryteriów jest istotniejsze. W związku z tym poniŜsza 

tabela 7-16 stanowi zestawienie jakości omówionych tu metod. PoniewaŜ jednak 

metody te stosują róŜne techniki zapisu reguł, to bezpośrednie porównanie liczby reguł 

nie jest miarodajne. Dlatego porównano w niej nie liczbę reguł, a liczbę zawartych w 

nich obszarów decyzyjnych, w które jeŜeli umieszczony zostanie punkt pomiarowy, to 

podejmowana jest na nim diagnoza. 

Dla kodu IEC wg tabel 6-1 i 6-3 oraz rysunku 6-3 moŜemy wyodrębnić 11 

obszarów decyzyjnych (tabela 6-1 informuje, Ŝe kaŜda wartość kodu IEC oznacza

oddzielny odcinek na danym wymiarze, a tabela 6-3 mówi, Ŝe z tych odcinków złoŜono 

11 reguł; całość wizualizuje rysunek 6-3). Dane wg tabeli 6-4, ale ograniczone do 

wykonanych uprzednio zbiorów uczących („240 danych uczących” oraz „zbiór uczący 

1”), posłuŜą do wyznaczenia liczby poprawnych diagnoz (diagnoza postawiona przez 

człowieka-eksperta i uzyskana z metody kodu IEC jest taka sama). 

148 

Diagnoza człowieka-eksperta 

Liczba zgodnych diagnoz 

uzyskanych metodą kodu IEC 

240 danych 

uczących 

168 danych 

uczących 

Bez uszkodzeń 11 7 

Przegrzanie poniŜej 150 o C 2 2 

Przegrzanie powyŜej 150 o C i poniŜej 300 o C 3 2 

Przegrzanie powyŜej 300 o C i poniŜej 700 o C 46 31 

Przegrzanie powyŜej 700 o C 71 49 

Wyładowania niezupełne o duŜej energii 1 1 

Wyładowania niezupełne o małej energii 7 6 

Wyładowania zupełne o duŜej energii 19 14 

Wyładowania zupełne o małej energii 3 2 

Razem: 163 114 

Tabela 7-10. Porównanie dla wyselekcjonowanych zbiorów uczących zgodności 

diagnozy postawionej przez człowieka-eksperta z diagnozą uzyskaną metodą kodu IEC 

Wysoka zgodność diagnozy stawianej przez człowieka-eskperta z diagnozą 

uzyskaną metodą kodu IEC (rzędu 68%) świadczy tym, Ŝe tworząc kod IEC 

uwzględniono doświadczenie i wiedzę ekspercką. 

Metoda polska pogłębiona będąc rozwinięciem metody kodu IEC o dodatkowe 

sprawdzenia diagnozy w dotyczące przegrzań uzyska w wyniku tychŜe dodatkowych 

sprawdzeń niŜszą niŜ sama metoda kodu IEC zgodność z diagnozą stawianą przez 

człowieka-eksperta (tabela 7-11). Liczba samych obszarów decyzyjnych nie ulega 

zmianie względem kodu IEC. Dla diagnoz nie dotyczących przegrzań dla tej metody nie 

uwzględniano przypadków, gdy diagnoza traktowana była jedynie jako symptom 

uszkodzenia, gdyŜ stęŜenie Ŝadnego z analizowanych gazów nie przekroczyło wartości 

dopuszczalnych przedstawionych w tabeli 6-5.

149 



uzyskanych metodą polską 

pogłębioną 

240 danych 

uczących 

168 danych 

uczących 










Razem: 119 81 


diagnozy postawionej przez człowieka-eksperta z diagnozą uzyskaną metodą polską 

pogłębioną 

Zestawienie danych w tabeli 7-11 jest o tyle istotne, Ŝe metoda ta potwierdza 

dodatkowo (względem metody kodu IEC) przypadki przegrzań, czym utwierdza 

człowieka w słuszności postawionej diagnozy. 

Metoda niemiecka swoje decyzje diagnostyczne podobnie jak metoda kodu IEC 

podejmuje w oparciu o kod (metody niemieckiej) opisujący sobą rozłączne obszary 

decyzyjne (tabela 6-9). Stąd i z tabeli 6-10 wnioskujemy o istnieniu 8 obszarów 

decyzyjnych. Jest to mniej niŜ klas uŜywanych podczas wykonywania diagnozy przez 

człowieka-eksperta, poniewaŜ człowiek wykonujący diagnozy wzorował się na 

metodzie polskiej i kodu IEC, a metoda niemiecka nie uwzględnia klasy uszkodzenia 

„Przegrzanie poniŜej 150 o C”, które jest uŜywane w metodzie polskiej i kodu IEC. 

Uzyskana niska zgodność (rzędu 20%) diagnoz metody niemieckiej z diagnozami 

wykonanymi przez człowieka-eksperta, a uzyskanymi z metody niemieckiej (tabela 7- 

12) wynika z surowych kryteriów diagnostycznych stosowanych w metodzie 

niemieckiej.

150 



uzyskanych metodą niemiecką 

240 danych 

uczących 

168 danych 

uczących 


Przegrzanie poniŜej 150 o C - - 








Razem: 47 34 


diagnozy postawionej przez człowieka-eksperta z diagnozą uzyskaną metodą niemiecką 

Metoda francuska wyznacza obszary decyzyjne w tablicy sprawdzianów (tabela 

6-12) i uŜywa ich 10. 



uzyskanych metodą francuską 

240 danych 

uczących 

168 danych 

uczących 










Razem: 113 73 


diagnozy postawionej przez człowieka-eksperta z diagnozą uzyskaną metodą francuską 

Obszary decyzyjne dla metody kanadyjskiej w liczbie 7 zawarte są w trójkącie 

Duvala (rysunek 6-4) i zapisane w postaci algorytmu zastosowania w tabeli 6-15. 

NaleŜy zaznaczyć, Ŝe metoda ta (o ile się daje zastosować) zawsze stawia diagnozę i

nigdy nie jest to stan „Bez uszkodzeń”. Niska zgodność (około 8%) tej metody i metody 

kodu IEC wynika z zupełnie odmiennych kryteriów stawiania diagnozy. 



uzyskanych metodą kanadyjską 

240 danych 

uczących 

168 danych 

uczących 

Bez uszkodzeń - - 









Razem: 19 14 


diagnozy postawionej przez człowieka-eksperta z diagnozą uzyskaną metodą 

kanadyjską 

151 

Omówiona w rozdziale 6.3.1 zmodyfikowana metoda a-najbliŜszych sąsiadów nie 

tworzy obszarów decyzyjnych, gdyŜ opiera się na podobieństwie badanego obiektu do z 

góry określonej puli najbardziej do niego zbliŜonych parametrami. 



uzyskanych metodą 

a-najbliŜszych sąsiadów 

240 danych 

uczących 

168 danych 

uczących 










Razem: 185 133 


diagnozy postawionej przez człowieka-eksperta z diagnozą uzyskaną metodą a- 

najbliŜszych sąsiadów opartą na 168 danych uczących.

Wyniki zestawione w tabeli 7-15 opierają się na tej metodzie zrealizowanej w 3- 

wymiarowej przestrzeni definiowanej wzorami metody kodu IEC w oparciu o zbiór 168 

danych uczących. Jako pewna forma sprawdzenia jakości tejŜe metody dla 168 danych 

uczących (uŜytych do wyznaczania diagnozy) zostanie podjęta próba klasyfikacji 

danych pochodzących ze zbioru 240 danych uczących. NaleŜy tu jednak zwrócić 

uwagę, Ŝe metoda ta zachowuje się poprawnie jedynie dla licznych reprezentantów 

danej klasy stanu technicznego transformatora. Dla diagnoz o stanie technicznym 

stawianych sporadycznie, praktycznie uniemoŜliwia ich wykonanie (np.: przegrzania 

niskotemperaturowe, czy wyładowania zupełne małej energii). 

152 

Opisane w rozdziałach 6.3.3, 6.3.4, 6.3.5 wyniki algorytmu dyskretyzacji, 

wykonania drzewa decyzyjnego, czy budowania reguł za pomocą algorytmu 

genetycznego (co zaimplementowano w programie ga_new.exe – opisanego w rozdziale 

8) na zbiorze 240 danych uczących zostały wpisane do tabeli 7-16. Metody te potrafią 

ze 100% poprawnością wykonać klasyfikację, ale dla analizowanego zbioru uczącego 

odbywa się to kosztem duŜej liczby obszarów decyzyjnych. MoŜna zaobserwować w 

tabeli 7-16, Ŝe na zbiorze 240 danych uczących algorytm genetyczny (oznaczony 

ga_new 240 ) potrafił zredukować liczbę obszarów decyzyjnych uzyskanych w wyniku 

dyskretyzacji danych rzeczywistych lepiej niŜ algorytm drzewa decyzyjnego. Jednak 

uzyskana wartość 94 obszary decyzyjne pomimo, Ŝe warta odnotowania jako lepszy (bo 

mniej liczny zbiór) rezultat nie wprowadza jakości takiej, Ŝeby z zapisu obszarów 

decyzyjnych mógł wiedzę czerpać człowiek. 

W związku z tym porównano w tabeli 7-16 wyniki uzyskane na zbiorze 168 

danych uczących z algorytmów dyskretyzacji, drzewa decyzyjnego i generacji/redukcji 

reguł opisanych na obszarach rozmytych (algorytmy 7-1 i 7-2) zaimplementowanych w 

aplikacji Fuzzy3D.exe, którą opisano w rozdziale 8. Liczby poprawnych diagnoz z 

danej klasie stanu technicznego skontrolowane na zbiorze 240 danych uczących (wobec 

budowy obszarów uczących w oparciu o 168 danych uczących) przedstawia tabela 7-17 

i 7-18 odpowiednio dla dyskretyzacji i dla metody Fuzzy3D (algorytmy 7-1 i 7-2).

Nazwa metody 240 danych uczących 168 danych uczących 

Liczba 

obszarów 

decyzyjnych 

Liczba i % 

poprawnych 

diagnoz 

Liczba 

obszarów 

decyzyjnych 

Liczba i % 

poprawnych 

diagnoz 

optymalna 9 240 100% 9 168 100% 

kodu IEC 11 163 68% 11 114 68% 

polska pogłębiona 11 119 50% 11 81 48% 

niemiecka 8 47 20% 8 34 20% 

francuska 10 113 47% 10 73 43% 

kanadyjska 7 19 8% 7 14 8% 

sieci Pedrycza 240 48 35 15% 

dyskretyzacji 240 182 240 100% 

drzewo decyzyjne 240 112 240 100% 

ga_new 240 94 240 100% 

zmodyfikowana metoda - 185 77% - 133 79% 

a-najbliŜszych sąsiadów 168 

dyskretyzacji 168 131 192 80% 131 168 100% 

drzewo decyzyjne 168 75 192 80% 75 168 100% 

Fuzzy3D 168 35 222 93% 35 168 100% 

Tabela 7-16. Porównanie metod generowania reguł diagnostycznych i uŜywanych 

metod w diagnostyce transformatorów 


153 


uzyskanych metodą 

dyskretyzacji zbioru 168-danych 

uczących dla danych ze zbioru 

240 danych uczących 


Przegrzanie poniŜej 150 o C 2 

Przegrzanie powyŜej 150 o C i poniŜej 300 o C 3 

Przegrzanie powyŜej 300 o C i poniŜej 700 o C 53 

Przegrzanie powyŜej 700 o C 66 





Razem: 192 

Tabela 7-17. Porównanie diagnozy postawionej przez człowieka-eksperta z diagnozą 

wykonywaną na zbiorze 240 danych uczących wg obszarów decyzyjnych uzyskanych 

metodą dyskretyzacji na zbiorze 168 danych uczących.

154 



uzyskanych metodą Fuzzy3D wg 

zbioru 168-danych uczących dla 

danych ze zbioru 240 danych 

uczących 


Przegrzanie poniŜej 150 o C 2 

Przegrzanie powyŜej 150 o C i poniŜej 300 o C 3 

Przegrzanie powyŜej 300 o C i poniŜej 700 o C 61 

Przegrzanie powyŜej 700 o C 78 





Razem: 222 

Tabela 7-18. Porównanie diagnozy postawionej przez człowieka-eksperta z diagnozą 

wykonywaną na zbiorze 240 danych uczących wg obszarów decyzyjnych uzyskanych 

metodą Fuzzy3D na zbiorze 168 danych uczących. 

Dodatkowo wpisany jest do tabeli 7-16 rezultat najlepszy z moŜliwych (jako 

metoda „optymalna”): za pomocą 9 obszarów decyzyjnych (po jednym na kaŜdą klasę 

opisującą sta techniczny transformatora) moŜna diagnozować poprawnie wszystkie dane 

uczące. 

Uzupełnieniem tabeli 7-16 jest metoda sieci neuronowych Pedrycza, ale z 

powodu przeprowadzenia ich uczenia w nieco innej przestrzeni, nie wnosi ona istotnego 

rozwiązania. 

Tabela 7-16 wyraźnie pokazuje istotną jakość wykonywanej klasyfikacji przez 

metodę Fuzzy3D – nie tylko metoda ta uŜywa stosunkowo niewielu reguł rozmytych 

opisanych na obszarach decyzyjnych, ale teŜ wykonuje klasyfikację w znacznym 

stopniu poprawną. Łączy więc zalety metod dotychczas stosowanych (narodowych i 

międzynarodowych), które opierając się na niewielkiej liczbie obszarów decyzyjnych 

wykonywały jednak klasyfikację miernej poprawności, z metodami numerycznymi, 

które uŜywając wielu obszarów decyzyjnych realizowały usłuŜne narzędzie dla 

diagnozującego, które to uŜywając moŜliwości komputerów (baz danych) oferuje 

poprawną klasyfikację. Opis tego narzędzia znajduje się w rozdziale 8.

155 

8. Moduł systemu ekspertowego: Trafo2000 

8.1. Podstawy systemów ekspertowych 

System ekspertowy [63] jest oprogramowaniem komputerowym, które na 

podstawie szczegółowej wiedzy moŜe wyciągać wnioski i podejmować decyzje, 

działając w sposób zbliŜony do procesu rozumowania człowieka. Jednak proces 

rozumowania człowieka jest złoŜony - człowiek potrafi uwzględnić róŜnego rodzaju 

dane pomiarowe, dokonać ich ponownej interpretacji, skojarzyć z innymi, czy 

intuicyjnie uzupełnić dane niekompletne. ZbliŜanie się do tej jakości procesu 

rozumowania osiągane jest jedynie poprzez budowę nowych algorytmów programów 

komputerowych i zwiększanie mocy obliczeniowych. 

Systemy ekspertowe dzielimy na: 

- systemy podejmujące decyzje (bez udziału człowieka) 

- systemy krytykujące decyzje 

- systemy doradcze (prezentujące człowiekowi rozwiązanie do dalszej oceny). 

Proces stawiania diagnozy stanu technicznego transformatora jest złoŜony i uwzględnia 

nie tylko wyniki badań DGA, ale równieŜ wyniki badań innych metod (takich jak 

termiczna, czy wibroakustyczna). Budując system ekspertowy o działaniu zbliŜonym do 

działania człowieka, naleŜałoby uwzględnić inne niŜ tylko DGA techniki pomiarowe. 

DuŜą rolę w tej diagnostyce pełni doświadczenie człowieka i stąd system ekspertowy 

mógłby pełnić rolę jedynie systemu doradczego. Mając na względzie te uwarunkowania 

wykonany system informatyczny pełni raczej funkcję pojedynczego, ukierunkowanego 

na DGA modułu systemu ekspertowego. 

8.2. Moduł Trafo2000 

Zbudowany tu system informatyczny o nazwie Trafo2000 zalicza się do kategorii 

systemów doradczych. Struktura wykonanego oprogramowania odbiega nieco od 

typowej organizacji głównych elementów systemu ekspertowego [63], co spowodowane 

jest jego hybrydową budową - w skład systemu Trafo2000 wchodzi oprogramowanie 

uczące wykonane w języku Visual C++ ([u.1] – [u.19], [i.13] – [i.15]) z uŜyciem klas

MFC, a pozostałe elementy wykonane są w języku VBA ([u.20] – [u.52]) z 

wykorzystaniem dodatkowych moŜliwości jakie daje relacyjna baza danych ([u.53] – 

[u.80], [i.16] – [i.18]) MS Access 2000, a szczególnie język SQL. 

Trafo2000 składa się z następujących elementów: 

a) Trafo2000_data.mdb – baza danych przechowująca wyniki pomiarów DGA 

b) Trafo2000_rules.mdb – baza wiedzy przechowująca reguły klasyfikujące 

pomiary DGA do danej klasy stanu technicznego 

c) Trafo2000_ext.mdb – interfejs uŜytkownika do zarządzania bazą wiedzy 

d) Trafo2000.mdb – interfejs uŜytkownika do zarządzania bazą danych 

e) Fuzzy3d.exe – aplikacja budująca reguły klasyfikujące zgodnie z algorytmami 

genetycznymi opisanymi w rozdziale 5 

f) ga_new.exe – aplikacja budująca reguły klasyfikujące zgodnie z algorytmem 

opisanym w podrozdziale 6.3.5. 

156 

Trafo2000 moŜe być uŜywany w trzech konfiguracjach: 

- podstawowej, która słuŜy do stawiania diagnoz i przetwarzania informacji o 

wykonanych pomiarach 

- rozszerzonej, która oprócz zastosowań konfiguracji podstawowej słuŜy do uczenia 

rozpoznawania kolejnych grup wzorców (zbiorów uczących) 

- minimalnej, która słuŜy tylko do przeprowadzenia uczenia rozpoznawania grupy 

wzorców 

odpowiednio dla diagnostyka, administratora-programisty, naukowca. 

Głównymi elementami logicznymi systemu są baza danych przechowująca wyniki 

pomiarów DGA oraz baza wiedzy stałej i zmiennej przechowująca reguły klasyfikujące 

pomiary DGA do danej klasy stanu technicznego. Oba te elementy technicznie 

zrealizowane są w postaci plików baz danych Trafo2000_data.mdb oraz 

Trafo2000_rules.mdb. Do nich wykonane są odpowiednio dwa rozdzielne interfejsy 

uŜytkownika - zebrane w plikach Trafo2000.mdb oraz Trafo2000_ext.mdb – słuŜące do 

zarządzania posiadanymi danymi oraz bazą wiedzy. Baza wiedzy stałej zbudowana jest 

w postaci reguł jeŜeli-to umoŜliwiających wykonanie, które to reguły reprezentują 

metody diagnozowania stanu technicznego transformatora olejowego w oparciu o 

wyniki DGA uŜywane w chwili obecnej na świecie (czyli metody: kodu IEC, polska, 

niemiecka, rosyjska, japońska, kanadyjska, amerykańska). Baza wiedzy zmiennej, to

inaczej baza reguł, które potrafią być generowane (zmieniane) na podstawie opisanych 

w pracy algorytmów grupowania i klasyfikacji. Bazę faktów tworzą podzbiory (zbiory 

danych uczących * ) zbioru danych pomiarowych zawartych w bazie danych, w oparciu o 

które wykonano bazę reguł. Zawarte w bazie faktów dane mogą posłuŜyć jako 

uzasadnienie (objaśnienie) wykonanej diagnozy (rys. 8-1). 

157 

Rysunek 8-1. Główne elementy systemu ekspertowego w konfiguracji podstawowej – interfejs 

uŜytkownika wykonany w pliku Trafo2000.mdb 

Rysunek 8-2. Główne elementy systemu ekspertowego w konfiguracji minimalnej – interfejs 

uŜytkownika tworzą aplikacje Fuzzy3d.exe i ga_new.exe 

* Są to tzw. odbitki (migawki, z ang. snapshots) – zapisy wybranej części danych w pewnej chwili czasu 

(zobacz [u.70], [u.79], [u.80]).

158 

Rysunek 8-3. Główne elementy systemu ekspertowego w konfiguracji rozszerzonej – kolejny interfejs 

uŜytkownika wykonany w pliku Trafo2000_rules.mdb 

Dzięki zastosowaniu popularnych rozwiązań technicznych system ten pozostaje 

otwarty na dodatkowe moŜliwości rozbudowy i poszerzenie jego funkcjonalności. 

8.2.1. Baza danych pomiarowych 

Baza danych zrealizowana w pliku Trafo2000_data.mdb zawiera w swojej 

strukturze informacje o transformatorze oraz wyniki pomiarów stęŜeń gazów 

rozpuszczonych w oleju transformatorowym uzyskane metodą chromatografii gazowej 

wraz z diagnozą stanu technicznego wykonaną przez człowieka-eksperta. Baza ta 

zorganizowana jest w postaci relacyjnej bazy danych zarządzanej przez system 

zarządzania relacyjną bazą danych Microsoft Access 2000 PL. 

Rysunek 8-4. Fragment informacji o transformatorach

159 

Rysunek 8-5. Fragment wyników pomiarów DGA i diagnoza człowieka-eksperta 

Wyniki pomiarów jak zaznaczono w rozdziale 6.3.2 nie zawierają informacji o 

dokładności pomiaru. 

8.2.2. Baza faktów 

Baza faktów zawiera przekonwertowane dane z bazy danych pomiarowych do 

przestrzeni kodu IEC zgodnie ze wzorem 6-2. Dokładność uzyskanych wyników 

ustalona jest wzorem 6-11. W bazie faktów moŜe istnieć wiele przekonwertowanych 

danych pogrupowanych w zbiory słuŜące za dane uczące w niestandardowych metodach 

diagnostycznych (rozdział 6.3) i dające moŜliwość uzasadnienia postawionej diagnozy. 

Rysunek 8-6. Fragment wyników pomiarów DGA przekonwertowany do przestrzeni kodu IEC i 

umieszczony w zbiorze o nazwie „240 danych uczących” – wg tabeli DANE_UCZACE 

8.2.3. Baza wiedzy stałej 

Jak juŜ było wspomniane w poprzednim podrozdziale baza wiedzy [68] stałej 

zawiera reguły jeŜeli-to, które odzwierciedlają metody diagnostyki stosowane w świecie 

(opisane w rozdziale 6.2). Uzyskany z tej bazy zespół diagnoz daje człowiekowiekspertowi 

pełniejszą informację o stanie technicznym transformatora niŜ pojedyncza 

diagnoza wykonana w oparciu o jedną metodę. Ponadto zaproponowanie zespołu

diagnoz zmniejszy częstość występowania (a nawet wyeliminuje) przypadku, gdy 

diagnoza nie zostanie postawiona (tabela 8-1). 

metoda: 

diagnoza: 

kodu IEC 

polska 

niemiecka 

francuska 

kanadyjska 

Wszystkie 

metody razem 

jest 302 316 79 433 400 444 

brak 142 128 365 11 44 0 

Tabela 8-1. Liczność stawiania diagnozy dla 444 danych pomiarowych (metoda polska uwzględnia stan 

izolacji celulozowej; metoda francuska zakłada stęŜenie O 2 = 0 ppm i N 2 = 0 ppm) 

160 

Jednak niewątpliwym problemem zastosowanego rozwiązania jest niewielka 

zgodność diagnoz uzyskiwanych róŜnymi metodami wynosząca około 7% (rozdział 

6.2.9 – tabele: 6-17 i 6-18). 

8.2.4. Baza reguł 

Baza reguł przechowuje w sobie wyniki prac opisywanych tu algorytmów celem 

wykonywania na nich klasyfikacji. Kolejne uruchomienia algorytmów powiększają 

liczbę przechowywanych tam wyników. Stąd baza ta ulega zmianom w przeciwieństwie 

do bazy wiedzy stałej. Interfejs zarządzający tymi zbiorami wynikowymi umoŜliwia 

równieŜ ich usunięcie lub drobne modyfikacje takie jak zmiana opisu. 

Rysunek 8-7. Fragment sztucznego eksperta uzyskany z aplikacji Fuzzy3D.exe – wg tabeli 

DANE_UCZACE 

Rysunek 8-8. Fragment danych zbioru uczącego po wykonaniu dyskretyzacji (rozdział 6.3.3) – wg tabeli 

DANE_UCZACE_INT

161 

Rysunek 8-9. Fragment danych opisujących drzewo decyzyjne (rozdział 6.3.4) – wg tabeli 

DRZEWO_DECYZYJNE 

Rysunek 8-10. Fragment danych opisujących kompleksy w sympleksie uzyskane z aplikacji ga_new.exe 

(rozdział 6.3.5) – wg tabeli GA_NEW 

8.2.5. Interfejs uŜytkownika – Trafo2000 

Interfejs Trafo2000 ma za zadanie umoŜliwić uŜytkownikowi manipulacją 

danymi zawartymi w bazie danych pomiarów (poprzez ich dodanie, edycję, usunięcie). 

Ma umoŜliwić uŜytkownikowi wykonanie diagnozy w oparciu o dostępne wyniki 

obliczeń numerycznych zawarte w bazie wiedzy stałej i w bazie reguł. 

Interfejs wymaga zalogowania się uŜytkownika (np.: login „cholajda” hasło 

„1234”), a następnie wyświetla okno wyszukiwania transformatora (rysunek 8-11). W 

oknie tym moŜna nie tylko wyszukać potrzebne dane o transformatorze, ale równieŜ 

usunąć wszelkie o nim zapiski, dodać nowy transformator i najwaŜniejsze: 

przeanalizować dane pomiarowe (przycisk „Otwórz” na rysunku 8-11) dotychczas 

zebrane. 

Rysunek 8-11. Okno szukania transformatora

162 

W oknie danych pomiarowych transformatora (rysunek 8-12) moŜna 

wydrukować informacje o samym transformatorze, wyniki pomiarowe moŜna zapisać 

do arkusza Excela lub je wydrukować jako wartości, moŜna dodać nowe wyniki 

pomiarów stęŜeń gazów rozpuszczonych w oleju transformatorowym, moŜna teŜ je 

wydrukować na wykresie celem przeanalizowania ich przyrostów (rysunek 8-13). 

NajwaŜniejsze w tym oknie jest polecenie wykonania diagnozy na wynikach danego 

pomiaru w oparciu o dostępne metody diagnostyczne (rysunek 8-14). 

Rysunek 8-12. Okno danych pomiarowych transformatora 

Rysunek 8-13. Wydruk danych pomiarowych transformatora wraz z wykresem przedstawiającym zmiany 

wartości pomiarowych w czasie

163 

Rysunek 8-14. Okno diagnoz danych pomiarowych transformatora 

Okno diagnoz danych pomiarowych transformatora (rysunek 8-14) otwiera się 

wykonując domyślnie diagnozy danych pomiarowych w oparciu o bazę wiedzy stałej, 

czyli w oparciu o metody opisane w rozdziałach 6.2.2 – 6.2.7, . Lista dostępnych metod 

diagnostycznych zakończona jest poleceniem „Drukuj”, którym moŜna poprosić o 

wydrukowanie wyniku pomiaru wraz z jego szczegółowym uzasadnieniem (np. rysunki 

8-15 - 8-18), co jest niejako podsumowaniem wiedzy o danej metodzie diagnostycznej i 

cennym narzędziem dla człowieka wykonującego diagnostykę. 

Rysunek 8-15. Wydruk diagnozy dla danych pomiarowych transformatora wg metody niemieckiej

Rysunek 8-16. Wydruk diagnozy danych pomiarowych transformatora wg metody polskiej pogłębionej 

164

165 

Rysunek 8-17. Wydruk diagnozy danych pomiarowych transformatora wg metody kanadyjskiej 

Rysunek 8-18. Wydruk diagnozy dla danych pomiarowych transformatora wg metody francuskiej

W oknie diagnoz danych pomiarowych transformatora (rysunek 8-14) moŜna równieŜ 

poprosić o wykonanie diagnoz dostępnych w oparciu o inne, opisane w pracy metody 

takie jak opisana w rozdziale 6.2.8 metoda „Zalecenia eksperta” (rysunek 6-5), czy 

opisana w rozdziale 6.3.1 zmodyfikowana metoda a-najbliŜszych sąsiadów (radiobutton 

„porównanie odległości” z rysunku 8-14) dla 3-wymiarowej przestrzeniu kodu IEC 

(wzór 6-2) lub dla 10-wymiarowej przestrzeni wyznaczonej przez wyniki pomiarów 

DGA (rysunki 8-19 i 8-20). 

166 

Rysunek 8-19. Wydruk diagnozy dla danych pomiarowych transformatora wg zmodyfikowanej 

metody a-najbliŜszych sąsiadów w przestrzeni IEC – w systemie Trafo2000 nazywanej metodą TOP 10%

167 

Rysunek 8-20. Wydruk diagnozy dla danych pomiarowych (10-wymiarowych) transformatora 

wg zmodyfikowanej metody a-najbliŜszych sąsiadów w przestrzeni DGA – w systemie Trafo2000 

nazywanej metodą TOP 10% 

RównieŜ opisana w rozdziale 6.3.2 metoda rozmytego kodu IEC jest 

zaimplementowana w oprogramowaniu, a wyniki zaproponowanego algorytmu 

dostępne są w formie wydruku (rysunek 8-21). 

Rysunek 8-21. Wydruk diagnozy dla danych pomiarowych transformatora wg metody 

rozmytego kodu IEC

168 

RównieŜ diagnoza danych pomiarowych dostępna jest do wykonania i wydrukowania 

(rysunek 8-22) poprzez klastry uzyskane w wyniku podziału połówkowego przestrzeni 

danych pomiarowych (rozdział 6.3.3). 

Rysunek 8-22. Wydruk diagnozy dla danych pomiarowych transformatora wg klastrów 

Klastry zebrane w drzewo decyzyjne (rozdział 6.3.4) równieŜ udostępniają 

moŜliwość wykonania diagnozy na ich podstawie (rysunek 8-23). MoŜna równieŜ 

zaŜądać prezentacji (w formie wydruku) samego drzewa decyzyjnego lub praw w nim 

zawartych (odpowiednio rysunek 8-24 oraz 8-25). 

Rysunek 8-23. Wydruk diagnozy dla danych pomiarowych transformatora wg drzewa decyzyjnego

169 

Rysunek 8-24. Wydruk konstrukcji drzewa decyzyjnego 

Rysunek 8-25. Wydruk prawa słuŜącego do diagnozy, a zawartego w drzewie decyzyjnym 

Opisany w rozdziale 6.3.5 algorytm genetyczny równieŜ generuje prawa jeŜeli-to 

umoŜliwiające klasyfikację danego pomiaru (rysunek 8-26) oraz prezentację samych 

praw (rysunek 8-27).


Rysunek 8-26. Wydruk diagnozy dla danych pomiarowych transformatora wg prawa zapisanego w 

sympleksie 

Rysunek 8-27. Wydruk prawa słuŜącego do diagnozy, a uzyskanego z algorytmu genetycznego 

Wreszcie moŜliwa jest takŜe klasyfikacja wyniku pomiaru wg sztucznego eksperta, 

którego uzyskanie opisano w rozdziale 7. MoŜliwe jest teŜ wykonanie wydruku samej 

diagnozy (rysunek 8-28) oraz samego eksperta (rysunek 8-29).

171 

Rysunek 8-28. Wydruk diagnozy dla danych pomiarowych transformatora wg sztucznego eksperta 

Rysunek 8-29. Wydruk prawa słuŜącego do diagnozy, a uzyskanego ze sztucznego eksperta 

Reasumując: interfejs uŜytkownika – Trafo2000 umoŜliwia manipulację danymi 

pomiarowymi wyników DGA oraz wykonywanie diagnoz większością metod opisanych 

w rozdziale 6 i 7 (diagnostyka regułami uzyskanymi z sieci Pedrycza nie jest dostępna 

poprzez ten interfejs).

172 

8.2.6. Interfejs uŜytkownika – Trafo2000_ext 

Interfejs zarządzający bazą wiedzy Trafo2000_ext ma na celu umoŜliwienie 

uŜytkownikowi przejrzenie elementów zbiorów uczących i właściwości samych 

zbiorów, tworzenie nowych zbiorów uczących, usuwanie zbędnych, czy modyfikację 

ich wybranych właściwości takich jak rozmiar przestrzeni, w której ów zbiór się 

znajduje. Czynności te dostępne są dla grupy poleceń „Zarządzanie bazą faktów” z okna 

„Zbiory uczące” (rysunek 8-30) , które pojawia się po zalogowaniu. 

Rysunek 8-30. Okno zarządzania bazą wiedzy (i niektórych elementów bazy faktów) 

Ponadto zaprezentowane okno umoŜliwia spreparowanie konfiguracyjnych plików dla 

aplikacji ga_new.exe realizującej algorytm genetyczny opisany w rozdziale 6.3.5 oraz 

wczytanie wyników jej pracy. RównieŜ z tego okna moŜna wykonać podział przestrzeni 

zbiory uczącego na podobszary dyskretne, moŜna zapisać wynik tego podziału w formie 

klastrów, moŜna wykonać drzewo decyzyjne. Oddzielnie moŜna takŜe skontrolować 

przebiegi drugiego z algorytmów genetycznych opisanego w rozdziale 7 i 

zaimplementowanego w aplikacji Fuzzy3D.exe (rysunek 8-31).

173 

Rysunek 8-31. Okno zarządzania informacjami o przebiegach algorytmu 

genetycznego - opis zbioru uczącego 

Rysunek 8-32. Okno zarządzania informacjami o przebiegach algorytmu 

genetycznego – parametry algorytmu 

W oknie tym moŜna skontrolować z jakimi parametrami został uruchomiony algorytm 

genetyczny (rysunek 8-32), czy przejrzeć jak w kolejnych generacjach zmieniały się 

uzyskiwane najlepsze wyniki (rysunek 8-33).

174 

Rysunek 8-33. Okno zarządzania informacjami o przebiegach algorytmu genetycznego – zapisy o 

najlepszym chromosomie (ekspercie) w danej generacji oraz okno szczegółowych wiadomości o 

wybranym ekspercie 

W spisie wyników (rysunek 8-33) po zaznaczeniu konkretnego chromosomu moŜna 

zobaczyć szczegółowe o nim informacje takie jak: z jakich praw się składa, ile ich jest, 

do jakiego podziału przestrzeni naleŜą, w której z kolei generacji uzyskano ten 

najlepszy chromosom, ile praw zawiera łącznie, ile danych potrafi nimi sklasyfikować 

poprawnie itp. MoŜna teŜ wykonać test, czy dane o ekspercie zapisane są poprawnie 

przez aplikację Fuzzy3D.exe. MoŜna teŜ usunąć dane szczegółowe pozostawiając tylko 

dane nagłówkowe (ogólne) o ekspercie celem wykonywania jedynie analizy przebiegu 

algorytmu genetycznego i zwolnienia miejsca w bazie wiedzy. 

W kolejnej zakładce okna zarządzania przebiegiem algorytmu genetycznego moŜna 

przeanalizować wykres prezentujący jak zmieniało się przystosowanie maksymalne, 

średnie i minimalne w kolejnych generacjach (rysunek 8-34). Zaprezentowany tu 

rysunek 8-34 wyraźnie pokazuje efekt działania nowych operatorów genetycznych w 

postaci „przebijania szklanego sufitu” przez najlepszy z chromosomów co widoczne jest 

w poprawie wartości przystosowania maksymalnego i dąŜenia przez tę wartość do 

wartości maksymalnej wynoszącej 1. Pozostałe analizy dostępne w tym oknie mają 

charakter pomocniczy.

175 

Rysunek 8-34. Okno informacji przebiegu algorytmu genetycznego – poprawa przystosowania 

najlepszego chromosomu dla około 4000 generacji. 

Reasumując: poprzez wykonany interfejs zarządzania bazą wiedzy uŜytkownik dostaje 

do ręki wygodne narzędzie do zarządzania oraz do analizy wyników. 

8.2.7. Interfejs uŜytkownika – ga_new i Fuzzy3D 

Wykonane (rysunek 8-30) pliki z dyskretnymi danymi uczącymi do metody 

opisanej w rozdziale 6.3.5 mogą być łatwo zamienione na dane zbioru POS i NEG. Do 

tego celu wykonano pomocniczy interfejs MALEDIN-Trafo2000 (rysunek 8-35). Za 

pomocą tego oprogramowania uŜytkownik moŜe wczytać cały zbiór danych uczących i 

wygenerować z niego zbiory POS i NEG, na których pracuje aplikacja ga_new.exe 

realizująca algorytm opisany w rozdziale 6.3.5. Inferfejs MALEDIN-Trafo2000 składa 

się z dwóch zasadniczych elementów – zarządzania zbiorami danych i uczenia 

maszynowego (rysunek 8-35). W ramach zarządzania danymi moŜna m.in. wczytać 

dane uczące (rysunek 8-36), ustalić co wyróŜnia wczytane dane i jaki zbiór wartości 

oznacza klasę (rysunek 8-37). Po podzieleniu całego zbioru uczącego na rozłączne 

podzbiory ze względu na ustaloną klasę, moŜna wybrać (rysunek 8-38) jeden z nich

jako zbiór POS - pozostałe tworzą zbiór NEG, a nawet spróbować samodzielnie 

wykonać pomocniczy zbiór danych diagnostycznych DDD. 

176 

Rysunek 8-35. Okno interfejsu MELEDIN-Trafo2000. 

Rysunek 8-36. Okno przetwarzania danych uczących dla aplikacji ga_new.exe – wczytanie danych. 

Rysunek 8-37. Okno przetwarzania danych uczących dla aplikacji ga_new.exe – budowa plików z 

danymi POS i NEG.

177 

Rysunek 8-38. Okno przetwarzania danych uczących dla aplikacji ga_new.exe – włączenie uczenia 

maszynowego dla zadanego zbioru POS (pozostałe tworzą NEG). 

Rysunek 8-39. Okno przetwarzania danych uczących dla aplikacji ga_new.exe 

Uruchomiona aplikacja ga_new.exe potrafi w pełni automatycznie przetworzyć 

wczytane zbiory algorytmem opisanym w rozdziale 6.3.5 (rysunek 8-40) – w tym celu 

naleŜy ustawić parametry jej pracy (menu „Settings”) oraz w menu „Processing” 

ustawić przełącznik „Fully automatic” i wydać polecenie „GO!” z paska narzędzi.

Wyniki pracy tej aplikacji zapisane w pliku tekstowym KLASA.FFF moŜna 

zaimportować celem dalszej analizy poprzez interfejs Trafo2000_ext (rysunek 8-30). 

178 

Rysunek 8-40. Wyniki przetwarzania danych uczących w aplikacji ga_new.exe – fragment reguły 

klasyfikującej 

Innym interfejsem uŜytkownika jest aplikacja Fuzzy3D.exe, która nie potrzebuje 

pomocniczego programu nią zarządzającego – samodzielnie łączy się (poprzez ODBC) 

z bazą faktów i samodzielnie zapisuje w niej wyniki swojego przebiegu (realizacji) 

celem dalszych analiz (rysunki 8-32, 8-33, 8-34). 

Rysunek 8-41. Fuzzy3D.exe – prezentacja wczytanych danych uczących

Posługiwanie się interfejsem Fuzzy3D.exe wymaga jedynie wydawania 

polecenia „Dalej”. Po wczytaniu danych uczących naleŜy zdecydować się na sposób ich 

konwersji jednym z zaproponowanych (rozdział 7.4) odwzorowań (rysunek 8-42) celem 

redukcji czasochłonności rozwiązywania zadania dzięki próbie rozrzedzenia obszarów, 

w których występuje wiele danych naleŜących do róŜnych klas (dane 

trudnoseparowalne) . Po wykonaniu konwersji aplikacja zaczyna wykonywać kolejne 

podziały (rozdział 7.3) celem generowania reguł klasyfikujących (rysunek 8-43 i 8-44). 

179 

Rysunek 8-42. Fuzzy3D.exe – prezentacja wczytanych danych uczących po transformacji 

Rysunek 8-43. Fuzzy3D.exe – podział przestrzeni danych uczących na podobszary (tu kaŜdy z boków 

sześcianu jednostkowego podzielono na K=2 części)

180 

Rysunek 8-44. Fuzzy3D.exe – końcowy podział przestrzeni danych uczących na podobszary (tu kaŜdy z 

boków sześcianu jednostkowego podzielono na K=12 części) 

Po zakończeniu wykonywania podziałów aplikacja prezentuje obszary 

decyzyjne uzyskane z próby wykonania klasyfikacji wszystkimi uzyskanymi prawami 

(rysunek 8-45), a następnie wymaga określenia parametrów uruchomieniowych 

algorytmu genetycznego (rysunek 8-46). 

Rysunek 8-45. Fuzzy3D.exe – klasyfikacja przykładowych danych z uwzględnieniem praw 

wygenerowanych podczas ostatniego podziału K (tu K=12)

181 

Rysunek 8-46. Fuzzy3D.exe –parametryzacja algorytmu genetycznego 

Rysunek 8-47. Fuzzy3D.exe –generacja startowa algorytmu genetycznego 

Rysunek 8-48. Fuzzy3D.exe –generacja końcowa algorytmu genetycznego (tu ustawiono na potrzeby 

prezentacji tylko 5 generacji do wykonania)

Wykonany przebieg algorytmu genetycznego zapisywany jest co 10 generacji do bazy 

faktów i kończy się wraz z osiągnięciem z góry ustalonej liczby generacji (rysunek 8-47 

i 8-48). Najlepszy z uzyskanych chromosomów zapisany jest w bazie faktów jako 

ekspert (rysunek 8-49). Po jego uzyskaniu moŜna wczytać z bazy faktów innych 

ekspertów (rysunek 8-50) i wykonywać klasyfikację nowych danych pomiarowych w 

oparciu o ich całą grupę (rysunek 8-51 i 8-52). 

182 

Rysunek 8-49. Fuzzy3D.exe – rozmyte obszary decyzyjne wg praw zawartych w najlepszym 

chromosomie (znaczenie kolorów jak na rysunku 8-45) 

Rysunek 8-50. Fuzzy3D.exe – wczytanie najlepszych wyników: ekspertów (uzyskanych z innych 

przebiegów aplikacji Fuzzy3D.exe) 

Rysunek 8-51. Fuzzy3D.exe – klasyfikacja nowego pomiaru przez grupę wczytanych ekspertów

183 

Rysunek 8-52. Fuzzy3D.exe – wynik współpracy grupy ekspertów: klasyfikacja nowego pomiaru 

Dysponując grupą ekspertów w aplikacji Fuzzy3D.exe moŜna wykonać 

zestawienie praw w nich zawartych i zapisać je w formie pliku tekstowego (rysunki 8- 

53 i 8-54) celem uzyskania wiedzy przez człowieka. 

Rysunek 8-53. Fuzzy3D.exe – wiedza dla człowieka: analiza reguł jeŜeli-to z ekspertów 

Rysunek 8-54. Fuzzy3D.exe – wiedza dla człowieka: analiza reguł jeŜeli-to z ekspertów, a zapisanych w 

pliku tekstowym

184 

Rysunek 8-55. Fuzzy3D.exe – analiza jakości uzyskanego eksperta: obszary decyzyjne (znaczenie 

kolorów jak na rysunku 8-45) i histogram pewności udzielanej odpowiedzi podczas klasyfikacji 

(charakterystyczny jest niewielki udział odpowiedzi „bardzo pewnych” ze względu na posiadanie 

niewielkiej liczby praw juŜ uogólnionych, zamiast wielkiej liczby praw szczegółowych) 

MoŜliwe jest równieŜ w aplikacji Fuzzy3D.exe przeanalizowanie jakości 

uzyskanego eksperta poprzez zestawienie liczby danych klasyfikowanych przez prawa 

w nim zawarte w sposób poprawny i niepoprawny, wykonanie prezentacji przestrzeni 

decyzyjnych oraz prezentacji „charakteru eksperta” w formie histogramu, uzyskanego 

dla próby diagnozowania 1mln przykładowych danych pomiarowych i zestawieniu 

pewności udzielanej diagnozy. Ekspert dobrze wyuczony (rysunek 8-55) ze względu na 

niewielką liczbę praw w nim zawartych, będzie często udzielać odpowiedzi 

niepewnych, co wynika z faktu uŜywania praw wygenerowanych dla duŜych obszarów. 

Ekspert słabo wyuczony będzie często udzielać odpowiedzi pewnych, gdyŜ posługuje 

się on wieloma prawami przyporządkowanymi do niewielkich obszarów, a tym samym 

o duŜych wartościach zaufania. 

Opisane tu oprogramowanie ma wiele cech systemu ekspertowego, jednak ze 

względu na to, Ŝe nie bierze pod uwagę innych metod diagnostycznych poza DGA, 

naleŜy je traktować jako moduł systemu, który będzie wspomagać proces 

podejmowania decyzji przez człowieka nt. stanu technicznego transformatora.

185 

9. Podsumowanie 

W pracy przeanalizowano teoretycznie aspekty i wykonano praktyczne 

obliczenia dla metody automatycznego generowania reguł decyzyjnych opartych na 

rozmytych obszarach decyzyjnych. Realizując algorytmy tej metody dla rzeczywistych 

danych pomiarowych pewnej klasy transformatorów, stworzono nową technikę 

wspomagania ich diagnostyki. Technikę tę następnie porównano (tabela 7-16) z 

dotychczas uŜywanymi metodami diagnostycznymi zarówno narodowymi jak i 

międzynarodowymi (metoda kodu IEC) oraz z wybranymi algorytmami sztucznej 

inteligencji. Przy zapewnieniu dobrej jakości podejmowanych decyzji nt. stanu 

technicznego transformatora istotnie zmniejszono liczbę uŜywanych reguł w wyniku 

zastosowania algorytmu genetycznego, dając tym samym narzędzie (rozdział 8) 

wykonujące poprawnie klasyfikację (diagnozę) i jednocześnie dające zrozumiałe dla 

człowieka reguły działania. Zaproponowana metoda nie tylko realizuje poprawnie 

diagnostykę, ale równieŜ umoŜliwia człowiekowi przyswojenie sobie wiedzy o sposobie 

wykonywania diagnozy, celem ustanowienia nowych wzorów opisujących 

fizykochemiczne właściwości procesów zachodzących w kadzi transformatora 

olejowego. 

Analizowany przykład obliczeniowy zawiera dane trudnoseparowalne (rysunek 

7-3), zgrupowane na niewielkim obszarze przestrzeni danych uczących, ponadto z 

duŜymi dysproporcjami w liczbie danych poszczególnych klas (stanów technicznych), 

czy z obszarami w przestrzeni danych uczących zawierającymi niewiele danych, co 

istotnie utrudnia zbudowanie prostych reguł klasyfikujących. Reguły te udało się jednak 

uzyskać poprzez zastosowanie zbiorów rozmytych, nieliniowego przekształcenia 

przestrzeni danych, czy zaakceptowania moŜliwości uzyskania kilku dobrych wyników, 

które mogą nawzajem wpierać proces diagnostyczny (praca z „grupą ekspertów”). 

Ponadto podano ocenie dotychczas stosowane metody diagnostyki stanu 

technicznego transformatorów olejowych, proponując niekiedy ich modyfikacje 

(metoda rozmytego kodu IEC) i wykonując ich porównania ze sobą – wykazujące wady 

i zalety poszczególnych z nich. 

Zaproponowano i wykonano obliczeniowo pomocniczą metodę redukcji liczby 

reguł uzyskanych w wyniku dyskretyzacji pomiarów o wartościach rzeczywistych 

(ga_new), która skutecznie - choć nie dość wystarczająco w podanym przykładzie

obliczeniowym – dokonywała redukcji metodą algorytmu genetycznego liczby reguł 

uŜywanych do klasyfikacji. 

Wykonano (rozdział 8) oprogramowanie implementujące opisywane metody o 

charakterze systemu ekspertowego, będące zarazem narzędziem dla diagnosty. 

W działającym algorytmie genetycznym zaproponowano nowe operatory 

mutacji (takie jak: operator usunięcia jedynki, operator inteligentnego przesunięcia 

jedynki, operator nieproporcjonalnego wstawienia jedynki), które kodują sobą wiedzę o 

naturze zadania i umoŜliwiają istotną redukcję liczby reguł klasyfikujących – do czego 

uŜywany jest algorytm genetyczny. Przeanalizowano wpływ poszczególnych 

parametrów algorytmu genetycznego na jego przebieg i uzyskany rezultat. 

186 

Wykazano, Ŝe prawdziwą jest postawiona w pracy teza: 

Dzięki wykorzystaniu nowych, dopasowanych do zadania mechanizmów genetycznych i 

uogólnieniu metody generowania rozmytych reguł klasyfikacji na przypadek 

wielowymiarowy, moŜliwe jest przeprowadzenie skutecznej klasyfikacji za pomocą 

istotnie zredukowanej liczby reguł rozmytych, otrzymanych w oparciu o 

trudnoseparowalne dane cech ilościowych badanych obiektów. 

Wykonana praca ma charakter badawczy w zakresie realizacji regułowego 

systemu klasyfikacji, niezaleŜnego od konkretnego badania. 

Uzyskane rezultaty w postaci reguł klasyfikujących stan techniczny 

transformatora mogą stanowić podstawę do zastosowania dalszych, bardziej 

wyrafinowanych metod sztucznej inteligencji (jak opisywany w pracy algorytm FCM), 

czy do skonstruowania wzorów opisujących fizykochemiczne reakcje zachodzące w 

kadzi transformatora olejowego. 

Oczywiście ewentualne przemysłowe wdroŜenie systemu diagnostycznego dla 

transformatorów, uŜytych tutaj jako ilustracja, wymagać będzie wielu dalszych badań i 

testów na liczniejszych zbiorach uczących, zwłaszcza dla klas rzadko rejestrowanych w 

praktyce eksploatacyjnej. 

Opisana w pracy teoria moŜe słuŜyć jako metoda klasyfikacji w innych 

zadaniach praktycznych dla danych rzeczywistych.

187 

Dodatek A. Opis oprogramowania załączonego do pracy 

Na nośniku załączonym do pracy znajduje się oprogramowanie, które zostało 

uŜyte do jej napisania. 

Nazwa programu i system 

operacyjny 

Fuzzy3D.exe 

Windows ‘95 

ga_new.exe 

Windows ‘95 

Maledin – Trafo2000.mdb 

Windows ‘95 

Trafo2000.mdb 

Windows ‘95 

Trafo2000_ext.mdb 

Windows ‘95 

Trafo2000_data.mdb 

Trafo2000_rules.mdb 

Windows ‘95 

kulki.exe 

DOS 

gademo.exe 

DOS 

glp.exe 

DOS 

xx.exe 

DOS 

Działanie programu 

Wykonuje klasyfikację obiektów rzeczywistych w przestrzeni 

3-wymiarowej. 

Buduje prawa klasyfikujące na podstawie wartości 

dyskretnych zawartych w zbiorach POS i NEG. 

System sterujący budową zbiorów POS i NEG dla 

ga_new.exe. 

System wykonujący diagnostykę transformatorów olejowych 

w oparciu o wyniki DGA. 

System budujący drzewa decyzyjne, czy wykonujący analizy 

przebiegów algorytmu genetycznego 

Baza danych dla Trafo2000. 

Baza wiedzy dla Trafo2000. 

Wykonuje podział 2-wymiarowej przestrzeni danych na 

podobszary rozmyte. 

Przedstawia wyniki wyszukiwania maksimum funkcji za 

pomocą metody gradientowej, przeszukiwania losowego i 


Wykonuje analizę pracy generatora liczb pseudolosowych 

wbudowanego w język C++. 

Demonstruje dąŜenie algorytmu genetycznego do znalezienia 

maksimum funkcji f(x)=x 2 . 

Aby uruchomić wszystkie te programy wymagany jest system operacyjny z 

rodziny Windows’95 (do Windows XP włącznie) oraz pakiet Office 2000 PL 

Proffesional lub przynajmniej Access 2000 PL (do wersji 2003 włącznie).

188 

Dodatek B. Wykaz skrótów i symboli 

DGA 

- (z ang. Dissolved Gas Analysis) analiza chromatograficzna gazów 

metoda kodu IEC - metoda diagnostyczna opracowana przez Międzynarodową 

Komisję Elektrotechniczną (International Electrotechnical 

Commision), która to metoda opiera się o opracowany specjalny 

kod zwany kodem IEC 

R, R + , R -- - zbiór liczb rzeczywistych, rzeczywistych dodatnich, rzeczywistych 

ujemnych 

ℵ 

- zbiór liczb naturalnych 

(a, b) 

- przedział obustronnie otwarty 

〈a, b〉 

- przedział obustronnie domknięty 

{a, a+1,..., b} - zbiór liczb całkowitych od a do b 

{1,2,..., N} - zbiór liczb naturalnych od 1 do N 

||A|| 

- moc zbioru A (jeŜeli A jest zbiorem o skończonej liczbie 

elementów jest to liczność zbioru) 

|a| 

- wartość bezwzględna (moduł) z a 

∅ 

- zbiór pusty 

∧ 

- dla kaŜdego 

∨ 

- istnieje taki, Ŝe 

≥ 

- większy równy 

≤ 

- mniejszy równy 

∈, ∉ - naleŜy, nie naleŜy 

 

- znacznik końca algorytmu 

Pow(A) - zbiór potęgowy zbioru A

189 

Literatura podstawowa 

[1] J. Arabas, Wykłady z algorytmów ewolucyjnych, Wydawnictwo WNT, 

Warszawa, 2001, str. 29-266. 

[2] S. Araki, A Self-Generating Method of Fuzzy Inference Rules, Fuzzy 

Engineering toward Human Friendly System (Part VIII), pp. 1047-1058, 

IFSA’91, 1991. 

[3] K.T. Atanassov, J. Kacprzyk, M. Krawczak, E. Szmidt, Issues in the 

Representation and Processing of Uncertain and Imprecise Information, 

Akademicka Oficyna Wydawnicza EXIT, Warszawa 2005, ISBN: 

8360434018; artykuł: A Softened Formulation in Inductive Learning and its 

Application to Coronary Disease Data pod redakcją: J. Kacprzyk, G. 

Szkatuła 

[4] G.P. Babu, M.N. Murty, Clustering with evolution strategies, Pattern 

Recognition 27(2), pp. 321-329, 1994. 

[5] R. Babuska, Fuzzy modeling for control, Kluwer Academic Publishers, 

Boston 1998 

[6] K. Badźmirowski, M. Kubiś, Systemy ekspertowe, Przemysłowy Instytut 

Elektroniki, Warszawa 1991 

[7] E. Bednarczuk, Parametryczne problemy optymalizacji wielokryterialnej. 

Warunki stabilności rozwiązań, Akademicka Oficyna Wydawnicza EXIT, 

Warszawa 2005 

[8] J.C. Bezdek, C. Coray, R. Gunderson, J. Watson, Detection and 

characterization of cluster substructure, I. Linear structure: Fuzzy c-lines, 

SIAM J. Appl. Math. 40(2), pp 358-372, 1981. 

[9] J.C. Bezdek, Pattern Recognition with Fuzzy Objective Function, Plenum 

Press, New York, 1981. 

[10] J.C. Bezdek, R.J. Hathway, R.E.Howard, C.A. Wilson, M.P. Windham, 

Local convergence analysis of a grouped variable version of coordinate 

descent, Journal of Optimization Theory and Applications 54(3), pp. 471- 

777, 1987. 

[11] J. Chromiec, E. Strzemieczna, Sztuczna inteligencja. Metody konstrukcji i 

analizy systemów eksperckich, Akademicka Oficyna Wydawnicza PLJ,

Warszawa 1994, strony 1-216. 

[12] P. Cichosz, Systemy uczące się, Wydawnictwo WNT, Warszawa 2000. 

[13] E. Cox, The Fuzzy Systems Handbook, Acedemic Press, London, 1994. 

[14] J. Cytowski, Algorytmy genetyczne. Podstawy i zastosowania, Akademicka 

Oficyna Wydawnicza PLJ, Warszawa 1996, strony 1-93. 

[15] E. Czogała, W. Pedrycz, Elementy i metody teorii zbiorów rozmytych, 

Państwowe Wydawnictwo Naukowe, Warszawa 1985, strony 8-11. 

[16] C.W. De Silva, Inteligent Control: Fuzzy Logic Applications, CRC Press, 

Boca Raton, 1995. 

[17] W.S. DeSarbo, Gennclus: New models for general nonhierarchical 

clustering analysis, Psychometrika 47(4), pp. 449-476, 1982. 

[18] Diagnostyka procesów. Modele, Metody sztucznej inteligencji, 

Zastosowania, pod redakcją: J. Korbicz, J.M. Kościelny, Z. Kowalczuk, W. 

Cholewa, WNT Warszawa 2002. 

[19] D. Domański, P. Kałuski, M. Szpilewski, Algorytmy genetyczne, PC 

Magazine po polsku Listopad’1996, strony 116-118. 

[20] T. DomŜalski, M. Kaźmierski, M. Kozłowski, W. Olech, Repair on-side of 

HV transformers in the polish grid, CIGRE 1994, pp. 12-202. 

[21] T. DomŜalski, W. Olech, Doświadczenia krajowej energetyki w dziedzinie 

diagnostyki duŜych transformatorów, Instytut Energetyki, Warszawa 1992, 

strony 101-116. 

[22] D. Driankov, H. Hellendoorn, M. Reinfrank, Wprowadzenie do sterowania 

rozmytego, Wydawnictwa Naukowo-Techniczne, Warszawa 1996, strony 

52-122. 

[23] D. Dubois, H. Prade, Fuzzy Sets and Systems: Theory and Applications, 

Academic Press, San Diego, 1980. 

[24] R.O. Duda, P.E. Hart, Pattern Classification and Scene Analysis, John 

Wiley & Sons, New York, 1973. 

[25] M. Duval, P. Gervais, G. Belanger, Update on hydro-quebec’s experience 

in the interpretation of dissolved gas analysis in HV transformers, CIGRE, 

Symposium Berlin 1993, 110-14, pp 1-6. 

[26] E. A. Feigenbaum The art of artificial intelligence – themes and case 

studies of knowledge engineering, Proc. Of the 5 th Int. Joint Conf. On AI, 

1977, pp. 1024-1029 

190

[27] I. Gath, A.B. Geva, Unsupervised optimal fuzzy clustering, IEEE Trans. 

Pattern Analysis and Machine Intelligence 7, 1989, pp. 773-781. 

[28] E. Gatnar, Klasyfikacja danych za pomocą pakietu statystycznego SPSS for 

Windows, Wydawnictwo PLJ, Warszawa 1995. 

[29] T. Gerstenkorn, T. Śródka, Kombinatoryka i rachunek 

prawdopodobieństwa, Państwowe Wydawnictwo Naukowe, Warszawa 

1972, strony 78-79, 225. 

[30] D. E. Goldberg, Algorytmy genetyczne i ich zastosowania, Wydawnictwa 

Naukowo-Techniczne, Warszawa 1995, strony 17-103. 

[31] G. Guiochon, C. Pommier, Chromatografia gazowa w chemii 

nieorganicznej, Państwowe Wydawnictwa Naukowe, Warszawa 1979, 

strony 1-88. 

[32] D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance 

matrix, Proc. IEEE CDC, San Diego, California, USA, 1979, pp.761-766. 

[33] R.J. Hathway, J.C. Bezdek, Switching regression models and fuzzy 

clustering, IEEE Trans. Fuzzy Systems I(3), 1993, pp. 195-204. 

[34] R.J. Hathway , J.C. Bezdek, Grouped coordinate minimization using 

Newton’s method for inexact minimization in one vector coordinate, 

Journal of Optimization Theory and Applications 71(3), pp. 503-516, 1991. 

[35] S. Haykin, Neural networks. A comprehensive foundation, Macmilan Publ. 

Company, Englewood Cliffs, 1994. 

[36] J.H. Holland, Adaptation in Natural and Artificial Systems, University of 

Michigan Press, Ann Arbour, 1975. 

[37] S. Horikawa, Comparison Methods of Fuzzy Neural Networks, Proc of 

IECON’90, vol.2,pp.1253-1258,1990. 

[38] S. Horikawa, T. Furyhashi, On Fuzzy Modeling Using Neural Networks 

with the Back-propagation Algorithm, IEEE Trans. on Neural Networks, 

vol.3,no.5, September 1992. 

[39] H. Ichihashi, T. Wanatabe, Learning Control System by a Simplified Fuzzy 

Reasoning Model, IPMU’90, pp.417-419, Paris 1990. 

[40] Instytut Energetyki Oddział Transformatorów, Wyniki analiz DGA, Łódź 

1997. 

[41] International Electrotechnical Commision, Interpretation of the analysis of 

gases in transformers and other oil-filled electrical equipment in service, 

191

Genewa 1979. 

[42] H. Ishibuchi, K. Nozaki, N. Yamamoto, H. Tanaka, Selecting Fuzzy If-Then 

Rules for Classification Problems Using Genetic Algorithms, IEEE 

Transactions on fuzzy systems, vol. 3, no. 3, August 1995, pp. 260-270. 

[43] H. Ishibushi, H. Okada, H. Tanaka, Interpolation of Fuzzy If-Then Rules by 

Neural Networks, Proceedings of the 2 nd International Conference on Fuzzy 

Logic and Neural Networks, Lizuka (Japan), 17-22 July 1992. 

[44] S. Jagnuszewski, T. Sagan, F. Szczucki, H. Świątek, Eksploatacja urządzeń 

elektrycznych i energoelektronicznych, Wydawnictwo Instytutu 

Technologii Eksploatacji, Radom 1999, strony 7-222. 

[45] A.K. Jain, R.C. Dubes, Algorithms for Clustering Data, Englewood Cliffs, 

Prentice Hall, 1988 

[46] P. Jaskulski, Taksonomia numeryczna. Wprowadzenie do problematyki 

klasyfikacji, Biuletyn Antropologiczny ISSN 1428-7420, tom 1, str. 7-10, 

1997. 

[47] J. Kacprzyk, Zbiory rozmyte w analizie systemowej, Wydawnictwo PWN, 

Warszawa 1986. 

[48] M. Kaźmierski, I. Pinkiewicz, T. DomŜalski, Nowoczesna diagnostyka 

transformatorów energetycznych, Biuletyn Instytutu Energetyki Numer 

9/94, Łódź 1994, strony 319-324. 

[49] M. Kaźmierski, P. Szczepaniak, Komputerowa diagnostyka 

transformatorów energetycznych, I Konferencja Naukowa „Diagnostyka 

Procesów Przemysłowych”, Podkowa Leśna 10-12 czerwiec 1996, strony 

101-104 

[50] G.J. Klir, T.A. Folger, Fuzzy sets, Uncertainty and Information, Prentice 

Hall, Englewood Cliffs, 1988. 

[51] J. Korbicz, A. Obuchowicz, D. Uciński, Sztuczne sieci neuronowe. 

Podstawy i zastosowania, Akademicka Oficyna Wydawnicza PLJ, 


[52] R. Krishnapuram, J.M. Keller, A possibilistic approach to clustering, IEEE 

Transactions, Fuzzy Systems I(2), pp.98-110, 1993. 

[53] R. Kruse, J. Gebhardt, F. Klawonn, Foundations of Fuzzy Systems, John 

Wiley, Chichester, 1994. 

[54] K. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, 

192

Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. 

Część 2. Statystyka matematyczna, Państwowe Wydawnictwa Naukowe, 


[55] M. Kutyłowski, W. – B. Strothmann, Kryptografia. Teoria i praktyka 

zabezpieczania systemów komputerowych, Oficyna Wydawnicza READ 

ME, Warszawa 1998, strony 101-112. 

[56] K. Kwang-Yong, K. Oh-Seok, A New gradient Descent Based Self- 

Generating Fuzzy Algorithm Using the Partition of Fuzzy Input Space, 

Chungnam National University pp.494-497, Taejon 1994. 

[57] W. Kwiatkowski, Metody automatycznego rozpoznawania wzorców, 

Instytut Automatyki i Robotyki Wydział Cybernetyki WAT, Warszawa 

2001 

[58] G.F. Luger, Artificial intelligence: Structures and Strategies for Complex 

Problem Solving, Addison-Wesley, London 2005 

[59] A. Łachwa, Rozmyty świat zbiorów, liczb, relacji, faktów, reguł i decyzji, 

Seria: Problemy współczesnej nauki – Teoria i zastosowania. Informatyka, 

Akademicka Oficyna Wydawnicza EXIT, Warszawa, 2001, strony 11-67 

[60] J. Łęski, Systemy neuronowo-rozmyte, Wydawnictw Naukowo-Techniczne, 

Warszawa 2008 

[61] Z. Michalewicz, Algorytmy genetyczne + struktury danych = programy 

ewolucyjne, Wydawnictwa Naukowo-Techniczne, Warszawa 1996, strony 

37-375. 

[62] F. Mosiński, Y. K. Al-Mualla, Metody oceny wyników badań 

chromatograficznych gazów rozpuszczonych w oleju transformatorowym, 

Konferencja Krajowa „Transformatory Specjalne”, Kazimierz Dolny 1996, 

strony 115-125. 

[63] J. J. Mulawka, Systemy ekspertowe, Wydawnictwa Naukowo – Techniczne, 

Warszawa 1996, strony 20-164 

[64] H. Nomura, A Self-Tuning Method of Fuzzy Control by Descent Method, 

Proc. of 4 th IFSA Congress vol.Engineering, pp.155-158, Brussels 1991. 

[65] H. Nomura, A Self-Tuning Method of Fuzzy Reasoning by Genetic 

Algorithm, Fuzzy Control System pp.337-354, CRC Press. 1994 

[66] W. Olech, H. Olejniczak, Ocena stanu technicznego transformatorów 

metodą chromatografii gazowej, Biuletyn Energopomiar Nr 11, Warszawa 

193

1992, strony 385-388 

[67] W. Pedrycz, Computational intelligence: an introduction, CRC Press, 1998 

[68] A. Pieczyński, Reprezentacja wiedzy w diagnostycznym systemie 

ekspertowym, Lubelskie Towarzystwo Naukowe w Zielonej Górze, Zielona 

Góra 2003 

[69] Praca zbiorowa pod redakcją P. Węgleńskiego, Genetyka molekularna, 

Wydawnictwo Naukowe PWN, Warszawa 1998, strony 15-437. 

[70] D. Przybylak, J. Roganowicz, System ekspertowy na rzecz monitoringu 

stanu transformatorów, Instytut Energetyki Oddział Transformatorów 

dokumentacja 24/95, Łódź 1995. 

[71] I. C. Pyle, Ada, tłumaczenie z angielskiego, Wydawnictwa Naukowo- 

Techniczne, Warszawa 1986, strona 25. 

[72] D. Rutkowska, M. Piliński, L. Rutkowski, Sieci neuronowe, algorytmy 

genetyczne i systemy rozmyte, Wydawnictwo Naukowe PWN, Warszawa, 

1997, strony 17-376. 

[73] L. Rutkowski, Metody i techniki sztucznej inteligencji, Wydawnictwo 

Naukowe PWN, Warszawa 2006. 

[74] J. Ryan, M. Ryan, J. Power, Using Fuzzy Logic, Prentice Hall, London, 

1994. 

[75] K. Sasiak, Sieci neuronowe i logika rozmyta w diagnostyce technicznej, 

praca magisterska Politechnika Łódzka Wydział Fizyki Technicznej, 

Informatyki i Matematyki Stosowanej 

[76] Z. Stein, Maszyny i napęd elektryczny, Wydawnictwa Szkolne i 

Pedagogiczne, Warszawa 1985, str. 81-143. 

[77] P.S. Szczepaniak, Obliczenia inteligentne, szybkie przekształcenia i 

klasyfikatory, Akademicka Oficyna Wydawnicza EXIT, Warszawa 2004 

[78] R. Tadeusiewicz, Odkrywanie właściwości sieci neuronowych przy uŜyciu 

programów w języku C#, Wydawnictwo Polskiej Akademii Umiejętności, 

Kraków 2007 

[79] R. Tadeusiewicz, Elementarne wprowadzenie do techniki sieci 

neuronowych z przykładowymi programami, Akademicka Oficyna 

Wydawnicza PLJ, Warszawa 1998, strony 1-308. 

[80] R. Tadeusiewicz, Sieci neuronowe, Akademicka Oficyna Wydawnicza 

RM, Warszawa 1993, strony 5-136. 

194

[81] T. Terano, K. Asai, M. Sugeno, Fuzzy Systems Theory and its Applications, 

Academic Press, London, 1992. 

[82] C. A. Ville, Biologia, Wydawnictwo KESAN, Kaunas 1977, strony 679- 

757. 

[83] Y. Wang, Fuzzy clustering analysis by using Genetic algorithm, ICIC 

Express Letters, 2008 

[84] R. Wieczorkowski, R. Zieliński, Komputerowe generatory liczb losowych, 

Wydawnictwa Naukowo-Techniczne, Warszawa 1997, strony 11-125 

[85] Z. Witkiewicz, J. Hepter, Chromatografia gazowa, Wydawnictwa 


[86] Z. Witkiewicz, Podstawy chromatografii, Wydawnictwa Naukowo- 

Techniczne, Warszawa 2000, strony 11-142. 

[87] R. R. Yager, D. P. Filev, Podstawy modelowania i sterowania rozmytego, 

Wydawnictwa Naukowo-Techniczne, Warszawa 1995, strony 13-17. 

[88] L.A. Zadeh, Fuzzy Sets, Information and Control, 1965, vol. 8, pp 338-353 

[89] Zakłady Remontowe Energetyki „Transformatory Janów”, Wyniki analiz 

DGA, Łódź 1996-1997. 

[90] F. Zia, C. Isik, Neuro-Fuzzy Control Using Self-Organizing Neural Nets, 

Proc of 3 rd IEEE International Conference on Fuzzy Systems, FUZZY- 

IEEE’94, vol.1, pp.70-75, June 1994. 

[91] R. Zieliński, Generatory liczb losowych, Wydawnictwa Naukowo- 


[92] H.J. Zimmermann, Fuzzy Set Theory, Kluwer Academic Publishers, 

Boston-London, 1994. 

195

196 

Literatura uzupełniająca 

[u.1] S. Anderson, S. Anger, W. A. Bass, T. Brown, M. Crompton, H. Dusenberg, 

S. Gumas, J. Hawkins, A. Hermida, S. Jolly, R. McGregor, G. MacNicol, 

W. Newhall, Ch. J. Ohazama, D. Oliver, G. Stetten, Grafika PC bez tajemnic, 

Wydawnictwo Intersoftland, Warszawa 1995, strony 197-209. 

[u.2] N. Barkakati, Grafika i animacja w Windows, Wydawnictwo Intersoftland, 


[u.3] D. Chapman, Visual C++ 6 dla kaŜdego, Wydawnictwo HELION, Gliwice 

1998, strony 17-733. 

[u.4] P. Chomicz, R. Ulijasz, Programowanie w języku C i C++, Wydawnictwo PLJ, 


[u.5] M. Domaradzki, R. Gembara, Tworzenie realistycznej grafiki 3D, 

Wydawnictwo Lynx-SFT, Warszawa 1993, strony 7-69. 

[u.6] P. DroŜdŜewicz, Programowanie dla Windows w języku C dla początkujących, 

Wydawnictwo Lynx-SFT, Warszawa 1994, strony 174-176. 

[u.7] J. Grębosz, Symfonia C++, Wydawnictwo Oficyna Kallimach, Kraków 1993, 

strony 6-735. 

[u.8] S. Holzner, Heavy Metal Visual C++, Oficyna Wydawnicza READ ME, 


[u.9] A. LaMothe, J. Ratcliff, M. Seminatore, D. Tyler, Sztuczki i tajemnice 

programowania gier, Oficyna Wydawnicza LT&P Sp. z o.o., Warszawa 1996, 

strony 129-147. 

[u.10] A. Marciniak, Turbo Pascal 5.5, Wydawnictwo Nakom, Poznań 1993, strony 

454-458. 

[u.11] P. Perry, Ch. Corry, Ch. Cullens, M. Davidson, R. W. McKean, J. Tackett, 

Visual C++ 2. Podręcznik programisty, Oficyna Wydawnicza LT&P 

Sp. z o.o., Warszawa 1996, strony 224-231. 

[u.12] A. Williams, MFC czarna księga, Wydawnictwo HELION, Gliwice 1999, 

strony 15-491 

[u.13] N. Wirth, Algorytmy + Struktury danych = Programy, Wydawnictwa 

Naukowo-Techniczne, Warszawa 1989, strony 77-80.

[u.14] J. Sanchez, M. Canton, Direct3D. Programowanie grafiki trójwymiarowej w 

DirectX. Biblia, Wydawnictwo HELION, Warszawa 2001, strony 1-720. 

[u.15] Praca zbiorowa pod redakcją J. Zabrodzkiego, Grafika komputerowa metody i 

narzędzia, Wydawnictwa Naukowo-Techniczne, Warszawa 1994, strony 523- 

529. 

[u.16] S. Lalani, R. Chandak, Active X biblioteka programisty, Wydawnictwo 

MIKOM, Warszawa 1997, strony 11-270. 

[u.17] V. Toth, Programowanie Windows 98/NT, Wydawnictwo HELION, Gliwice 

1999, strony 633-689. 

[u.18] R. S. Wright jr, M. Sweet, Open GL. Księga eksperta, Wydawnictwo HELION, 

Gliwice 1999, strony 25-234. 

[u.19] A. Nowak, P. Frej, Tworzenie plików pomocy dla Windows, Wydawnictwo 

HELION, Gliwice 1999, strony 17-334. 

[u.20] T. Zydorowicz, MS-ACCESS 1.1 bez tajemnic, Wydawnictwo PLJ, Warszawa 

1993, strony 7-375. 

[u.21] Ch. St. Valentine, Access 2. Potęga programowania, Wydawnictwo LT&P, 


[u.22] Praca zbiorowa pracowników firmy Catapult, Microsoft Access 7 dla Windows 

95 - krok po kroku, Wydawnictwo READ ME, Warszawa 1997, strony 3-281. 

[u.23] A. Simpson, E. Olson, Access 97, Wydawnictwo HELION, Gliwice 1998, 

strony 3-796. 

[u.24] C. N. Prague, M. R. Irwin, Access 97 - Biblia, Wydawnictwo READ ME, 


[u.25] P. Cassel, C. Eddy, Access 97 - baza danych dla kaŜdego, Wydawnictwo 

HELION, Gliwice 1999, strony 1-560. 

[u.26] F. S. Barker, D. Barker, Access 97, Wydawnictwo MIKOM; Warszawa 1999, 

strony18-381. 

[u.27] M. Nowakowska, E. Zając, Microsoft Access - programowanie aplikacji, 

Wydawnictwo MIKOM, Warszawa 1998, strony 11-147. 

[u.28] E. Callahan, Microsoft Access 97 Visual Basic krok po kroku, Wydawnictwo 

READ ME; Warszawa 1998, strony 1-394. 

[u.29] J. Habraken, Microsoft Access 97 - Przewodnik egzaminacyjny, Wydawnictwo 

Translator; Warszawa 1998, strony 20-316. 

197

198 

[u.30] 

[u.31] 

[u.32] 

[u.33] 

[u.34] 

[u.35] 

[u.36] 

[u.37] 

[u.38] 

[u.39] 

[u.40] 

[u.41] 

[u.42] 

[u.43] 

[u.44] 

[u.45] 

[u.46] 

Oficjalny podręcznik Microsoft, Szybki kurs Access 97, Wydawnictwo 

MEDIUM, Warszawa 1998, strony 2-163. 

K. Kuciński, Poznajemy,... ACCESSA, Wydawnictwo Edition 2000; Kraków 

1999, strony 9-394. 

J. Graf , Access 97. Ćwiczenia praktyczne, Wydawnictwo HELION, Warszawa 

2001 

C. N. Prague, M. R. Irwin, Access 2000 - Biblia, Wydawnictwo READ ME; 


J. Viescas, Podręcznik Microsoft Access 2000, Wydawnictwo READ ME; 


Praca zbiorowa pracowników firmy Catapult, Microsoft Access 2000 krok po 

kroku, Wydawnictwo READ ME; Warszawa 1999, strony 3-282. 

E. Callahan, Microsoft Access 2000 Visual Basic krok po kroku, Wydawnictwo 

READ ME; Warszawa 2000, strony 3-385. 

F. Wempen, Poznaj Access 2000 w 10 minut, Wydawnictwo Intersoftland, 


R. Dobson, Microsoft Access 2000. Programowanie, Wydawnictwo READ 

ME, Warszawa 2000, strony 1-510. 

I. Szymacha, M. Kopertowska, Ćwiczenia z Access 2000 PL, Wydawnictwo 

MIKOM, Warszawa 2000, strony 1-150. 

S. S. Harkins, K. Hansen, T. Gerhart, Poznaj Microsoft Access 2000 PL, 


A. Neibauer, Access 2000 dla Zabieganych, Wydawnictwo READ ME, 


M. Kopertowska, Zaawansowane moŜliwości bazy danych Access 2000 PL, 


D. S. Ray, E. S. Ray, Po prostu Access 2000 PL, Wydawnictwo HELION, 


T. Nabiałek, ABC... ACCESSA 2000, Wydawnictwo Edition 2000, Kraków 

2000, strony 15-409. 

P. Cassel, P. Palmer, Access 2000 PL dla kaŜdego, Wydawnictwo HELION, 


E. Publishing, Prosto do celu: Microsoft Access 2000, Wydawnictwo READ

ME, Warszawa 2000 

[u.47] B. Krzymowski, Access 2000 PL. Pierwsza pomoc, Wydawnictwo HELP, 

Michałowice 2000, strony 1-292. 

[u.48] V. Andersen, Access 2000 - kompendium wiedzy, Wydawnictwo PLJ, 


[u.49] Praca zbiorowa pod redakcją S. Forte, Access 2000 Development. Ksiega 

Eksperta, Wydawnictwo HELION, Warszawa 2001, strony 1-720. 

[u.50] J. Graf, Access 2000 PL. Ćwiczenia praktyczne, Wydawnictwo HELION, 


[u.51] P. Norton, V. Andersen, Access 2000 PL - programowanie według Petera 

Nortona, Wydawnictwo MIKOM, Warszawa 2000, strony 1-744. 

[u.52] P. Cholajda, Systemy informatyczne w MS Access 97 PL, WyŜsza Szkoła 

Informatyki Stosowanej i Zarządzania, Warszawa 1999, strony 5-208. 

[u.53] J. Celko, SQL. Zaawansowane techniki programowania, Wydawnictwo 


[u.54] H. Ladanyi, SQL - księga eksperta, Wydawnictwo HELION, Warszawa 2000, 

strony 19-868. 

[u.55] J. L. Harrington, SQL dla kaŜdego, Wydawnictwo MIKOM, Warszawa 1998, 

strony 11-223. 

[u.56] M. Gruber, SQL, Wydawnictwo HELION, Warszawa 1996, strony 15-256. 

[u.57] R. K. Stephens, R. R. Plew, B. Morgan, J. Perkins, SQL w 3 tygodnie, 

Wydawnictwo LT&P, Warszawa 1999, strony 3-365. 

[u.58] C. J. Date, H. Darwen, SQL. Omówienie standardu języka, Wydawnictwo 

WNT, Warszawa 2000, strony 3-520. 

[u.59] B. Forta, Poznaj SQL w 10 minut, Wydawnictwo Intersoftland, Warszawa 

2000, strony 1-304. 

[u.60] A. Jakubowski, Podstawy SQL. Ćwiczenia praktyczne, Wydawnictwo 

HELION, Warszawa 2001, strony 1-104. 

[u.61] R. Coburn, SQL dla kaŜdego, Wydawnictwo HELION, Warszawa 2001, strony 

1-600. 

[u.62] L. Banachowski, Bazy danych. Tworzenie aplikacji, Akademicka Oficyna 

Wydawnicza PLJ, Warszawa 1998, strony 5-322. 

[u.63] M. J. Fernandez, Bazy danych dla zwykłych śmiertelników, Wydawnictwo 

199


[u.64] J. D. Ullman, J. Widom, Podstawowy wykład z systemów baz danych, 

Wydawnictwo Naukowo-Techniczne, Warszawa 2000, strony 19-518. 

[u.65] R. Barker, CASE*Method. Modelowanie związków encji, Wydawnictwo 


[u.66] P. Beynon-Davies, Systemy baz danych, Wydawnictwo Naukowo-Techniczne, 

Warszawa 1998 (wznowienie: Warszawa 2000), strony 13-309. 

[u.67] C. Delobel, M. Adiba, Relacyjne bazy danych, Wydawnictwo Naukowo- 


[u.68] E. Yourdon, Marsz ku klęsce. Poradnik projektanta systemów, Wydawnictwo 


[u.69] K. Henderson, Bazy danych w architekturze klient/serwer, Wydawnictwo 

Robomatic, Wrocław 2000, strony 115-240. 

[u.70] V. Poe, P. Klauser, S. Brobst, Tworzenie hurtowni danych, Wydawnictwo 

WNT, Warszawa 2000, strony 31-279. 

[u.71] P. Beynon-Davies, InŜynieria systemów informacyjnych, Wydawnictwo WNT, 


[u.72] G. Lausen, G. Vossen, Obiektowe bazy danych. modele danych i języki, 

Wydawnictwo WNT, Warszawa 2000, strony 1-250. 

[u.73] R. M. Riordan, Projektowanie systemów relacyjnych baz danych, 

Wydawnictwo READ ME, Warszawa 2000, strony 1-278. 

[u.74] C. J. Date, Wprowadzenie do systemów relacyjnych baz danych, Wydawnictwa 


[u.75] J. L. Harrington, Obiektowe bazy danych dla kaŜdego, Wydawnictwo MIKOM, 


[u.76] J. Buyens, Bazy danych w Internecie krok po kroku, Wydawnictwo RM, 


[u.77] S. Erlank, C. Levin, Power Builder 6.0 Oficjalny podręcznik, Wydawnictwo 

MIKOM, Warszawa 1998, strony 511-519 i 575-601. 

[u.78] M. Gunderloy, M. Chipman, SQL Server 7, Wydawnictwo MIKOM, Warszawa 

1999, strony 59-247. 

[u.79] Microsoft SQL Server 7.0 Resource Kit, edycja polska: APN PROMISE, 


200

[u.80] J. Sturm, Hurtownie danych. Microsoft SQL Server 7.0 Przewodnik techniczny, 

edycja polska: APN PROMISE, Warszawa 2000, strony 1-24. 

201 

Znajomość zagadnień poruszanych w literaturze uzupełniającej jest potrzebna do 

zrozumienia kodów źródłowych oprogramowania załączonego do pracy. 

Adresy internetowe 

[i.1] 

[i.2] 

[i.3] 

[i.4] 

[i.5] 

[i.6] 

[i.7] 

[i.8] 

[i.9] 

[i.10] 

[i.11] 

[i.12] 

[i.13] 

[i.14] 

[i.15] 

http://www.iec.ch/ 

International Electrotechnical Commision 

http://www.engr.umd.edu/~blj/papers/icmc95.pdf 

zastosowanie algorytmu genetycznego w komponowaniu muzyki 

http://www.cs.usyd.edu.au/~josiah/gecco_workshop_biles.pdf 

zastosowanie algorytmu genetycznego w komponowaniu muzyki 

http://www.cs.bgu.ac.il/~omri/NNUGA/ 

zastosowanie algorytmu genetycznego do nauki sieci neuronowej 

http://www.mathtools.net/Excel/Genetic_algorithms/index.html 

gotowe biblioteki wykonujące algorytm genetyczny 

http://www.piblue.com/products/optworks_ex.html 

aplikacja wykonująca algorytm genetyczny 

http://www.caplet.com/MannaMouse.html 

rozprzestrzenianie się myszy w zaleŜności od występowania zasobów 

pokarmu 

http://www.j-chrom-sci.com/ 

miesięcznik naukowy o chromatografii 

http://ull.chemistry.uakron.edu/chemsep/ 

kurs chromatografii 

http://www.elektromontazwroclaw.pl/ 

producent transformatorów energetycznych 

http://www.energoserwis.pl/pl/index.html 


http://www.elhand.com.pl/ 


http://codeguru.earthweb.com/ 

przykłady programowania w MFC i C++ 

http://msdn.microsoft.com/visualc/ 

strona o Visual C++ 

http://www.visionx.com/mfcpro/

202 

[i.16] 

[i.17] 

[i.18] 

[i.19] 

[i.20] 

informacje o MFC 

http://info.wsisiz.edu.pl/~cholajda/ 

strona autora pracy o Accessie 97 i 2000 

http://web.pertus.com.pl/~stanley/index.htm 

strona o Accessie 

http://www.mvps.org/access/ 

strona o Accessie 

http://www.sixsigma.pl/textbook/stathome_stat.htmlhttp%3A%2F%2Fwww. 

sixsigma.pl%2Ftextbook%2Fstknn.html 

internetowy podręcznik statystyki 

http://www.ise.pw.edu.pl/~cichosz/mow/wyklad/mow-w8/mow-w8.html 

dyskretyzacja

rozprawa przemyslaw cholajda-70 - Instytut BadaÅ Systemowych PAN

Create successful ePaper yourself

Delete template?

Save as template?

rozprawa przemyslaw cholajda-70 - Instytut BadaÅ Systemowych PAN