Apresentação

 

ANEXO 6

 

Critérios de seleção das palavras

O quadro abaixo mostra o conjunto dos critérios escolhidos para proceder à seleção das palavras da amostragem. Trata-se de critérios de filtragem para a aceitação de uma palavra. Para chegar aos 57 termos, centenas foram recusados.

 

Quadro 13:
Critérios de seleção lingüística das palavras da amostragem

CRITÉRIO DEFINIÇÃO EXEMPLOS MÉTODO COMENTÁRIOS
Neutralidade cultural Propriedade de uma palavra relacionada com sua freqüência de aparição na linguagem em função da cultura. Vinho, perfume, gastronomia e as palavras da linguagem diplomática não são culturalmente neutras em francês.. De modo a obter uma amostragem com o coeficiente da mais fraca variação, as palavras culturalmente neutras são afastadas.  
Homografia translingüística A ortografia de uma palavra em uma língua é idêntica à de uma palavra em outra língua. Isto se dá tanto para as grafias idênticas com o mesmo sentido quanto para os "falsos amigos". É possível distinguir as homografias com ou em diacríticos. Exemplo de grafia idêntica: casa em espanhol e português.
Exemplos falsos amigos: red em espanhol ("rede"), red em inglês("vermelho"); hier em francês (ontem) e hier em alemão (aqui ).
Rejeitar, na amostragem, as palavras que apresentam esta característica (com ou sem diacríticos). Só são levadas em conta as homografias entre as línguas do estudo e/ou as línguas presentes na Internet (como o alemão). Para evitar o risco estatístico de homografia com línguas estranhas ao estudo, são afastadas as palavras com menos de quatro letras.
Homografia translingüística com um dos elementos de uma palavra composta   Mardi gras (terça -feira gorda) em inglês Deve-se observar os resultados das pesquisas para detectar esse gênero de intruso. E possível descontar o resultado das formas estrangeiras.
Homografia translingüística por empréstimo Quando uma palavra de uma língua é aceita tal qual em uma outra língua Os anglicismos como business, sandwich ou software.
Reciprocamente deja vu em inglês (homógrafo do francês sem diacríticos).
Rejeição da amostragem das palavras emprestadas.  
Homografia com uma abreviatura   Número sept (sete em francês), com as abreviaturas de septembre (francês) e principalmente September (inglês). Evitar essas palavras. Estamos relativamente protegidos por evitar as palavras com menos de quatro letras.
Homografia com um nome próprio freqüente   Windows significa "janela" em inglês... mas é também o nome de um programa automatizado, muito citado na Internet. Rejeitar as palavras dessa categoria.  
Pseudo-homografia translingüística A escrita de uma palavra com um erro comum de ortografia corresponde a uma palavra em outra língua. Ambasador em romeno e ambas(s)ador em inglês. O caso só é rejeitado se a língua de alvo for o inglês.  
Significações não equivalentes   Prix em francês significa ao mesmo tempo prêmio et precio (espanhol), price e prime (inglês). Evitar essas palavras ou, se possível, tentar compará-las incluindo todas as acepções que completam uma significação equivalente nas línguas onde for preciso.  
Morfossintaxe não equivalente: substantivo, verbo O inglês, muito diferente das outras línguas estudadas, tem freqüentemente a mesma forma como substantivo e variante verbal, que por sua vez é equivalente a varias formas da conjugação em outras línguas. Love em inglês é ao mesmo tempo a palavra que significa "amor" e o verbo amar: no infinitivo (precedido de "to"), no presente do indicativo (amo, amas, amamos amai amam), etc., etc. Evitar essas palavras. Esta característica do inglês nos faz, a priori, rejeitar os verbos.
Morfossintaxe não equivalente: adjetivos e substantivos Os adjetivos, invariáveis em inglês, variam em gênero e número nas outras línguas estudadas. Os substantivos, que em geral só variam em número nas outras línguas, variam também de acordo com o caso (nominativo, genitivo, etc.) e diferença determinado/não determinado em romeno. O adjetivo inglês yellow corresponde a amarillo / amarilla / amarillos / amarillas, em espanhol. A palavra inglesa instability / instabilities às seguintes variantes romenas: instabilitate / instabilitatea / instabilităţii / instabilităţi / instabilităţile / instabilităţilor (não incluímos aqui as variantes sem diacríticos). Ter o cuidado de multiplicar as variantes em gênero, número e caso nas outras línguas quando houver necessidade de equivalência.  
Pluricentrismo léxico e semântico Quando uma língua tem mais de um centro normativo léxico-semântico. De acordo com o país hispanófono, diz-se nafta ou gasolina.
Americano em alguns países hispanófonos da América Latina não tem o mesmo sentido que em outros ou na Espanha ("pertencente ao conjunto do continente" ou "pertencente aos Estados Unidos").
Ter o cuidado de multiplicar as variantes sinonímicas nacionais ou regionais quando for necessário.  
Pluricentrismo ortográfico Quando uma língua tem mais de um centro ortográfico E o caso do inglês e principalmente do português. Algumas palavras são escritas de maneira diferente nos Estados Unidos e na Inglaterra (theater e theatre), em Portugal e no Brasil (electricidade e eletricidade). Multiplicar as variantes sinonímicas nacionais ou regionais pelas equivalências quando for possível.  

 

ANEXO 7

Quadro 14:
Resultado das medidas no espaço WWW

No quadro abaixo, para cada língua, os valores correspondem ao número de citações das palavras no espaço WWW, contados graças ao motor HotBot com base nos seguintes parâmetros: "exact phrase", "anytime", "anywhere".

Assim são levadas em consideração todas as citações que aparecem no conjunto das páginas Web referenciadas pelo motor. Os valores marcados em itálico correspondem a anomalias do trabalho lingüístico (ver capítulo anterior).

 

 

PALAVRAS

EN

ES

FR

IT

PT

RO

1

Ambiguity

144 766

2 072

5 466

2 169

706

317

2

causality

23 547

747

1 744

536

281

12

3

cheese

350 048

10 243

13 329

7 861

2 847

911

4

compatibility

619 141

6 248

9 140

8 584

2 272

869

5

contiguity

3 947

101

228

440

65

14

6

dangerous

422 323

15 423

20 639

8 854

3 327

82

7

december

4 202 193

119 649

152 966

60 469

41 827

5 295

8

density

573 362

9 277

16 396

5 052

3 156

314

9

disparity

62 899

1 499

3 428

1 819

526

8

10

divisibility

3 515

108

215

67

64

3

11

elasticity

43 374

1 377

1 623

1 538

579

50

12

electricity

380 218

16 721

24 586

2 500

3 280

286

13

february

4 072 110

105 941

129 898

53 753

19 515

3 523

14

femininity

15 281

430

870

570

129

19

15

fertility

113 268

2 097

2 317

903

1 254

48

16

fidelity

156 597

5 221

5 768

3 881

1 877

315

17

fraternity

197 787

2 978

5 878

1 988

1 533

75

18

friday

1 481 714

35 993

37 232

17 349

5 227

1 506

19

heterosexuality

6648

90

226

58

22

1

20

homosexuality

69 100

1 029

3 251

772

221

46

21

horse

373 770

6 454

11 311

11 120

1 527

127

22

humidity

201 190

8 158

6 447

2 896

2 257

114

23

illness

1 329 311

26 450

55 458

15 318

9 861

957

24

immortality

53 435

999

1 248

693

430

6

25

immunity

132 276

2 821

2 928

1 195

1 015

594

26

incompatibility

72 043

2 893

2 827

3 931

951

261

27

infallibility

7 468

196

221

130

83

0

28

inferiority

18 555

978

805

766

277

85

29

infidelity

19 343

801

542

472

219

14

30

instability

133 942

5 040

5 125

1 805

1 815

416

31

inviolability

4 634

863

392

222

247

63

32

irregularity

43 704

5 029

2 372

2 958

2 387

16

33

irresponsibility

11 420

1 727

741

281

384

232

34

june

4 466 960

118 879

159 146

66 627

27 606

3 786

35

knee

548 412

6 143

7 335

4 217

2 105

361

36

knife

325 334

3 672

6 878

3 386

3 500

664

37

lung

378 212

4 903

4 585

2 031

1 454

152

38

masculinity

19 436

352

338

104

131

8

39

monday

1 356 145

33 409

36 129

17 198

3 841

4 533

40

october

4 186 337

111 332

144 021

61 602

28 527

6 588

41

parity

398 500

18 244

22 870

9 553

4 004

1 408

42

probability

629 463

8 363

9 789

6 327

3 088

321

43

productivity

678 743

17 888

18 540

8 073

8 086

1 060

44

puberty

30 393

609

855

359

228

32

45

responsibility

3 076 317

64 057

79 070

31 791

20 552

2 310

46

sexuality

174 287

3 657

6 372

1 776

1 300

30

47

singularity

34 154

1 525

1 980

693

662

53

48

superiority

79 047

2 698

2 901

1 421

852

281

49

thursday

1 177 498

29 563

32 481

13 102

3 900

1 297

50

today

6 898 783

200 295

151 755

110 150

62 192

15 265

51

truth

1 109 455

50 004

32 219

18 042

22 785

7 740

52

tuesday

1 167 880

28 159

39 124

3 373

11 924

1 604

53

uniformity

74 001

1 940

2 814

1 927

565

54

54

universality

26 237

1 694

2 637

916

495

89

55

university

10 457 021

215 767

284 361

107 266

106 449

5 837

56

wednesday

2 231 584

56 276

54 576

23 020

7 217

3 221

57

yellow

2 379 190

90 170

47 471

28 431

7 605

1 358

  TOTAL

57 246 318

1 469 252

1 673 864

742 335

439 229

74 631

 

ANEXO 8

Quadro 15:
Cálculos estatísticos no espaço WWW

 

PALAVRAS

EN

ES

FR

IT

PT

RO

1

ambiguity

144 766

1,43%

3,78%

1,50%

0,49%

0,22%

2

causality

23 547

3,17%

7,41%

2,28%

1,19%

0,05%

3

cheese

350 048

2,93%

3,81%

2,25%

0,81%

0,26%

4

compatibility

619 141

1,01%

1,48%

1,39%

0,37%

0,14%

5

contiguity

3 947

2,56%

5,78%

11,15%

1,65%

0,35%

6

dangerous

422 323

3,65%

4,89%

2,10%

0,79%

0,02%

7

december

4 202 193

2,85%

3,64%

1,44%

1,00%

0,13%

8

density

573 362

1,62%

2,86%

0,88%

0,55%

0,05%

9

disparity

62 899

2,38%

5,45%

2,89%

0,84%

0,01%

10

divisibility

3 515

3,07%

6,12%

1,91%

1,82%

0,09%

11

elasticity

43 374

3,17%

3,74%

3,55%

1,33%

0,12%

12

electricity

380 218

4,40%

6,47%

0,66%

0,86%

0,08%

13

february

4 072 110

2,60%

3,19%

1,32%

0,48%

0,09%

14

femininity

15 281

2,81%

5,69%

3,73%

0,84%

0,12%

15

fertility

113 268

1,85%

2,05%

0,80%

1,11%

0,04%

16

fidelity

156 597

3,33%

3,68%

2,48%

1,20%

0,20%

17

fraternity

197 787

1,51%

2,97%

1,01%

0,78%

0,04%

18

friday

1 481 714

2,43%

2,51%

1,17%

0,35%

0,10%

19

heterosexuality

6 648

1,35%

3,40%

0,87%

0,33%

0,02%

20

homosexuality

69 100

1,49%

4,70%

1,12%

0,32%

0,07%

21

horse

373 770

1,73%

3,03%

2,98%

0,41%

0,03%

22

humidity

201 190

4,05%

3,20%

1,44%

1,12%

0,06%

23

illness

1 329 311

1,99%

4,17%

1,15%

0,74%

0,07%

24

immortality

53 435

1,87%

2,34%

1,30%

0,80%

0,01%

25

immunity

132 276

2,13%

2,21%

0,90%

0,77%

0,45%

26

incompatibility

72 043

4,02%

3,92%

5,46%

1,32%

0,36%

27

infallibility

7 468

2,62%

2,96%

1,74%

1,11%

0,00%

28

inferiority

18 555

5,27%

4,34%

4,13%

1,49%

0,46%

29

infidelity

19 343

4,14%

2,80%

2,44%

1,13%

0,07%

30

instability

133 942

3,76%

3,83%

1,35%

1,36%

0,31%

31

inviolability

4 634

18,62%

8,46%

4,79%

5,33%

1,36%

32

irregularity

43 704

11,51%

5,43%

6,77%

5,46%

0,04%

33

irresponsibility

11 420

15,12%

6,49%

2,46%

3,36%

2,03%

34

june

4 466 960

2,66%

3,56%

1,49%

0,62%

0,08%

35

knee

548 412

1,12%

1,34%

0,77%

0,38%

0,07%

36

knife

325 334

1,13%

2,11%

1,04%

1,08%

0,20%

37

lung

378 212

1,30%

1,21%

0,54%

0,38%

0,04%

38

masculinity

19 436

1,81%

1,74%

0,54%

0,67%

0,04%

39

monday

1 356 145

2,46%

2,66%

1,27%

0,28%

0,33%

40

october

4 186 337

2,66%

3,44%

1,47%

0,68%

0,16%

41

parity

398 500

4,58%

5,74%

2,40%

1,00%

0,35%

42

probability

629 463

1,33%

1,56%

1,01%

0,49%

0,05%

43

productivity

678 743

2,64%

2,73%

1,19%

1,19%

0,16%

44

puberty

30 393

2,00%

2,81%

1,18%

0,75%

0,11%

45

responsibility

3 076 317

2,08%

2,57%

1,03%

0,67%

0,08%

46

sexuality

174 287

2,10%

3,66%

1,02%

0,75%

0,02%

47

singularity

34 154

4,47%

5,80%

2,03%

1,94%

0,16%

48

superiority

79 047

3,41%

3,67%

1,80%

1,08%

0,36%

49

thursday

1 177 498

2,51%

2,76%

1,11%

0,33%

0,11%

50

today

6 898 783

2,90%

2,20%

1,60%

0,90%

0,22%

51

truth

1 109 457

4,51%

2,90%

1,63%

2,05%

0,70%

52

tuesday

1 167 880

2,41%

3,35%

0,29%

1,02%

0,14%

53

uniformity

74 001

2,62%

3,80%

2,60%

0,76%

0,07%

54

universality

26 237

6,46%

10,05%

3,49%

1,89%

0,34%

55

university

10 457 021

2,06%

2,72%

1,03%

1,02%

0,06%

56

wednesday

2 231 584

2,52%

2,45%

1,03%

0,32%

0,14%

57

yellow

2 379 190

3,79%

2,00%

1,19%

0,32%

0,06%

  MÉDIA

3,37%

3,75%

2,00%

1,09%

0,20%

  Diferença

3,07%

1,78%

1,76%

0,99%

0,33%

  Coeficiente de variação

0,96

0,69

0,94

0,95

1,27

 

Valores muito superiores à média: fundo preto
Valores muito inferiores à média: fundo cinza

O coeficiente de variação é a raiz quadrada da diferença ao quadrado dividido pela média ao quadrado. Um valor superior a 1 indica uma forte dispersão, logo, uma média pouco confiável. Um valor inferior a 1 indica uma fraca dispersão, logo, um resultado mais digno de confiança.

 

Continuação

Cultura