Thành viên:Laurent Bouvier/Free Vietnamese Dictionary Project Vietnamese-Vietnamese

Vietnamien

sửa

Salut Laurent Bouvier,

Je suis un administrateur à vi:. Je viens de decouvrir que tu as un "bot" qui te permet à "aller plus vite" dans le transfert de à Wiktionnaire. Je voudrais collaborer avec toi pour faire la même chose pour vi:, transferer le contenu de à vi:. Comme vous avez déjà le license pour Wiktionnaire, et les "technologies"/"infrastructures" pour ce gens de travail, il y a un fort chance de appliquer les mêmes pour vi:.

Indique moi si tu est d'accord, si tu veux executer toi-même le "bot" (avec les "mots clés" vietnamiens au lieu de français, que je peux te fournir), ou si tu veux me donner les codes de "bot" (apparament Python) et les guides de tes savoirs faire.

Actuellement, nous avons seulement 1000 mots; si cette operation est reussite, ça va être une explosion dans la aspect utile de notre projet. Merci bien pour tes nouvelles,

Trần Thế Trung 6 juin 2006 à 17:54 (UTC)

P.S. Excuse moi de ma française de niveau User-fr-1 ou User-fr-2

May be, can continue this discussion in English? I have no problem to help you to import in your dictionary your content.

I have created two users (Laurent Bouvier and PiedBot) to support the import. Now, there are a couple of point that we will have agree:

  • Item structure: it seems that it is quite similar to the French wikt with names in English.
  • Category name: Can we define a list of categories?
  • Pronunciation: I have worked with a friend of mine to define a typical pronunciation which could be not so correct.

Can we define a list of words that we use as testing samples? Laurent Bouvier 11:19, ngày 7 tháng 6 năm 2006 (UTC)

Thank you for your kind collaboration! Here are the answers:
  • Item structure: I suspect it is highly similar to Dutch Wiktionary, because User:David, an administrator here, being a Dutch origin, had built many of them. It is also very similar to French Wiktionnaire and English Wiktionary, as far as I can tell. Basically, we use template to define the structure. The source code of a page should have:

First level : defining the language, e.g. {{-fr-}} for French (ISO 639)
Second level : defining the nature of word ({{-noun-}}, {{-verb-}}, {{-adj-}}, {{-adverb-}}...)
directly below is the word in bold, e.g. '''mot'''
Third level 0: {{-pron-}}, below is pronunciation, e.g. [[w:IAP|IAP]] /mot/ 
Third level 1: {{-etym-}} and the explaination of etymology below, if available
Third level 2: a numbered list of meaning (use code "#" for numbered listing)
Third level 3: translation: begin with {{-trans-}} then 
{{top}}
list of language and their translation (use code * for listing), e.g.
*{{vi}} : [[từ]]
We also use template here for language name (ISO 639).
The translation is enclosed in [[]]
If they are noun, there may be {{f}}, {{m}}, {{n}}, ... 
indicating their gender (masculin, feminin, ...) beside each translation
{{mid}}
the same content
{{bottom}}
Third level 4: derived word, related word, .... if available 

Repeat the same structure for other language/nature of word if available

Additional category code (the template above automatically add category)

Interwiki code

Here is the list of all templates: , many of their meaning can easily be deduced from their English names, feel free to ask if you need a clarification.
  • Category name: much of the categorization work is automatically done by the templates mentioned above. So far we only have about 166 categories . Would you like a translation for the category name in some list that you would provide?
  • Pronunciation: w:IPA should be ok; well it may be better if we start testing the following word:
Vietnamese
cười (smile, verb) người (man, noun) xinh (beautiful, adjective) sẽ (auxiliary for verb in future, ), nói (say, verb, existed, to test if the bot can ignore existed word)
French
être, vous
Mixed
toi (having meaning in both vietnamese and french, not meantioning other if any)
For our project, I suggest adding a template Bản mẫu:Hồ Ngọc Đức to indicate the original source of the content (Hồ Ngọc Đức is the name of the author at Leipzig). This template add a line in references or even turn on/off a special category.Trần Thế Trung 15:40, ngày 7 tháng 6 năm 2006 (UTC)

OK. I am in Germany up to the end of the week.

My proposal:

  • Next week-end (June 10-11th): I prepare a list of a couple of samples.
  • During the following week: I let you comment out the modifications that you would like
  • On the following week end (June 17-18th): we import the validated parts of the dictionnary.
  • On July 15-16th: We finish the import.

Another question:

  • Which of the dictionnary would you like to import? I have used on English to Vietnamese and French to Vietnamese.
  • The German to Vietnamese seems to have a very bad quality ( for instance yêu chuộng is translated gernhaben "to like", gleich "as", wie "as", ähnlich "similar to" because that's a direct translation of te English "like" as verb and preposition)
  • The Từ điển tiếng Việt: I am not sure that it is importable (no grammatical section; bad format).
  • Russian Vietnamese: No idea if it is good.
  • Norvegian - Vietnamese: may be possible.




Laurent Bouvier 17:30, ngày 7 tháng 6 năm 2006 (UTC)

Hi Laurent, I wasn't aware of your work at the Wiktionnaire; I'm excited about your proposal.

  • Item structure: You can find our structural templates at Đặc biệt:Prefixindex/Tiêu bản:-. There are, however, some additional templates at the French Wiktionary that would be useful, such as "term".
  • Category name: How were categories handled at the French Wiktionary? It looks as if, for the most part, the entries there are just assigned categories based on their part of speech. In that case, our structural templates can take care of that.
  • Pronunciation: The pronunciation varies considerably from region to region. For example, northern speakers generally use one more tone than souther speakers do. You seem to have accounted for those differences in the entries I've seen. I am a bit puzzled as to why "đ" is represented as [ɗ] instead of plain ol' [d]. Wikipedia says it means the consonant is glottalized, and my phonetics book says that means it's an implosive, but at least in my family, "đ" is pronounced exactly the same as "d" in English.
  • Dictionaries: To me, Từ điển tiếng Việt is the most important of the dictionaries for this wiki, even if it's not formatted very well, since we should define Vietnamese words here before translating them. At the French Wiktionary, that's not necessary, since you only have to link to a French word where the user can find a suitable definition. As long as Hồ Ngọc Đức releases the dictionary under the GFDL, though, we can simply import the plain text definitions above the translations and stick a tag on the entries, then go through and manually wikify those definitions.

We should ask Đỗ Quốc Bảo to look over some of the Free Vietnamese Dictionary Project's entries to see if the database as a whole is worth importing, since he's been critical of the quality of our definitions in the past, and I regularly see poor translations or glaring omissions in the English↔Vietnamese dictionary.

I'd like to wait until PiedBot has made some edits before granting it bot status, so we can spot any problems early on; bot status would only make it harder to spot errors. I'll actually be studying for and taking final exams until the 15th, and I might not have Internet access from then to the 20th, so if you'd like to go ahead with the import while I'm away, Trung will have to work with you. I'm sure David would also be interested in helping out a bit with this import.

Again, thanks so much for approaching us. After the import, this Wiktionary might actually be useful! :^)

  Minh Nguyễn (thảo luận, đóng góp) 07:32, ngày 8 tháng 6 năm 2006 (UTC)

Hi Laurent, your excellently proposed plan fits me well! For the bot status, only Minh Nguyễn can grant, as he is our only "Bueaucrat" (I am just "Sysop"). I agree that for the tests, it might be better to have the bot visible. About the questions over the dictionaries, if the import of Vietnamese words need extra works that might not be readily available, I suggest we can start with English to Vietnamese and French to Vietnamese. Those are also very useful as well, since many Vietnamese speakers do search for English/French terms. Looking forward to see your samples. Trần Thế Trung 08:03, ngày 8 tháng 6 năm 2006 (UTC)
Oh, about the quality of Free Vietnamese Dictionary Project's entries, for the 3 languages that I can speak, it is acceptable to me, and probably the best free source available on the entire Internet. I will contact Đỗ Quốc Bảo anyway for his advice. Trần Thế Trung 08:09, ngày 8 tháng 6 năm 2006 (UTC)

Hi everybody.

I'm certainly interested in importing TĐTV. I actually asked for help here once, but no one seems to have noticed.

As for which dictionaries to import: I believe vi-vi can be imported immediately. It may be we'll have to do more manual work afterwards, but if we don't import it, we'll have to invent definitions ourselves and that will be much more work. De-vi is indeed bad. Ru-vi is good enough as far as I'm concerned. I'm not a specialist, but to me it has been of use already. There are example phrases and such... I have encountered quite a few blank pages, though. They may have been filled up by now, but I'd still beware. No-vi seems to be pretty good too, but I only understand of Norwergian what is similar enough to Dutch, so I can't say for sure.

About the templates: With the startup of WiktionaryZ the language codes have been put to the question again. They switched to another standard and the Wikiontaries that use them, are discussing to change over too. English will ben -eng- instead of -en-, Dutch will be -nld- instead of -nl- etc. For the case of uniformity with the other language wikis we may consider following their example.

As for pronounciation: Whenever one writes words phonetically, one always has to make choices about what to represent and what not. According to Ishwar's work on Wikipedia, Vietnamese đ is pronounced as a preglottalised implosive [ʔɗ]. But if it's really unimportant, we can choose to represent it as /d/.

And for categories: I hadn't bothered about them yet because I first wanted a base of words. But if we start importing an entire dictionary now it may be useful to create new categories and integrate them on the fly.

And for me helping: I have exams at university :-(. I have worked harder during the year than other years (you may have remarked my recent inactivity), so I can enjoy the start of summer (and it started pretty unconvincingly, this year...). But I can't make any promises about what I will and will not be able to contribute to the import. I'll certainly do what I can and help where and when I can.

Greets, David Da Vit 12:24, ngày 8 tháng 6 năm 2006 (UTC)

Regarding the language templates, we actually need to rewrite most of them to be consistent with Wikipedia. For example, we no longer call it "Tiếng Ucraina" but rather "Tiếng Ukraina", and "Tiếng Hoa" or "Tiếng Trung Quốc" is now preferred over "Chữ Hán".
As for pronunciation, we need to decide how narrow or broad we want the IPA transcriptions to be. I'd prefer a broad transcription, since there's so much variation among speakers. My English "day" is identical to my Vietnamese "đây", except that there isn't an even tone and the /e/ is a bit longer. However, if linguists commonly acknowledge a [ʔɗ], I guess we can go with it. We'll need an IPA examples chart, though, since not everyone's familiar with that system. In fact, I met with some resistence at the Vietnamese Wikipedia when I added IPA to an article once.
If we decide to integrate categories into this import, are we going to tag entries by hand, or are we going to try and parse the word in parentheses before each definition?
  Minh Nguyễn (thảo luận, đóng góp) 22:04, ngày 8 tháng 6 năm 2006 (UTC)
Also, the VietFun mirror of TĐTV has a "Hán Việt  Việt" dictionary. Could that be of use for this project, or would that belong in our new Vietnamese Wikisource instead?  Minh Nguyễn (thảo luận, đóng góp) 22:06, ngày 8 tháng 6 năm 2006 (UTC)
It looks pretty similar to the other project. How, I have noticed that for some not so obvious reasons the first letter in the definition is truncated. Laurent Bouvier 07:20, ngày 9 tháng 6 năm 2006 (UTC)
I will take care of the language templates this weekend (change the language codes, change the name of languages). This should not be a headache, since it does not affect any of the old article (or even the new articles created with old convention). Only categories need to be changed, but that also does not affect the content of articles.
About the IPA, I am not expert, so I leave you the free choices.Trần Thế Trung 10:00, ngày 9 tháng 6 năm 2006 (UTC)

VietFun is actually a mirror of Hồ Ngọc Đức's dictionary: it runs on the same software, and, for the most part, it uses the same dictionary files. If I remember correctly, Hồ Ngọc Đức's site had the same truncation issue awhile back, but he fixed it, whereas the folks at VietFun haven't. I was just wondering if Hán-Việt  Việt (Sino-Vietnamese to Vietnamese) dictionary such as that one would be useful for Wiktionary.

Also, I noticed that the French Wiktionary has a Paronymes section that lists words with different combinations of diacritical marks. That'd be a good idea here, too, but I'd recommend setting up a multicolumn layout, similar to our Dịch ("Translation") sections, so that the lists don't get unwieldy.

A final question: should we create redirects for minor differences in spelling (quý vs. quí or xóa vs. xoá), or should we create separate entries for each, like the English Wiktionary tends to do (although English doesn't have as many systematic spelling variations like Vietnamese does). This is important because, whereas the EnglishVietnamese dictionary uses the new diacritic style (xoá), the VietnameseEnglish and VietnameseVietnamese dictionaries both use the traditional style (xóa), without any difference in meaning.

  Nguyễn Xuân Minh (thảo luận, đóng góp) 22:32, ngày 9 tháng 6 năm 2006 (UTC)

Just a note on pronounciation: the table here doesn't seem too accurate to me. <iu> is written /ju/ and <uy> is written /yi/, for example. According to this (and that is, as far as I know, a good approximation) is would be /iw/ for <iu> and /wi/ for <uy>. Based on Ishwar's work, I made this tabel once. It's just Hà Nội accent, of course... Comments?
As for the spelling variation, I think we'd better have one page giving all information and another page redirecting (or saying: "Spelling variation of...", "Older/Newer spelling of..."), so that if there's a mistake somewhere, or someone edits something, we don't get two different pages about fundamentally the same thing.
Thân mến, David Da Vit 11:13, ngày 10 tháng 6 năm 2006 (UTC)
The note of David on pronunciation is right. Trần Thế Trung 13:54, ngày 11 tháng 6 năm 2006 (UTC)
I agree with redirecting spelling variation, instead of having articles of essetially the same thing. I have tried to list all cases of 2 styles ("old" and "new") of spelling at Thành viên:Trần Thế Trung#Vietnamese variation on spelling Trần Thế Trung 12:34, ngày 11 tháng 6 năm 2006 (UTC)

Import of Vietnamese - Vietnamese

sửa

I have begun to think on the way to import this dictionnary.

These are the first examples:

etymology (closed)

sửa

Can somebody tell me whether the comment (H. ...) in Thành viên:Laurent Bouvier/hạnh phúc or Thành viên:Laurent Bouvier/hào hứng is actually an etymology? Laurent Bouvier 13:20, ngày 25 tháng 6 năm 2006 (UTC)

Yes, I would consider the two comments to be etymologies. Since Vietnamese is an analytic language, compound words such as hạnh phúc and hào hứng are often composed of words that have meaning on their own or that "stand for" concepts, just as the A in "AIDS" stands for "acute". So the hạnh in hạnh phúc (happiness) means luck, and the hứng in hào hứng (elation) stands for hứng thú (pleasantness). Something like that.  Nguyễn Xuân Minh (thảo luận, đóng góp) 18:50, ngày 25 tháng 6 năm 2006 (UTC)
The examples that you have imported are good! Yes, the H. in (H. ...) are indicators of etymology. There are a lack of "," and "." to separate the examples in 1 line, as I have pointed out in the talk pages like Thảo luận Thành viên:Laurent Bouvier/hầu. Hope that this should not be too hard to fix, especially for "." as it is infront of capitalized word (I have checked out FVDP and, unfortunately they have the same problem, so for the ",", it could be hard to fix). Very nice work in general though, well done! Trần Thế Trung 08:49, ngày 26 tháng 6 năm 2006 (UTC)

Pronunciations (Close)

sửa
  • I have not added any sections on pronunciations as I am not a native speaker and I don't have any trustable ressource. Does somebody know where to find some that can be GFDL compliant ? Laurent Bouvier 13:20, ngày 25 tháng 6 năm 2006 (UTC)
Pronunciation in Vietnamese follows these rules. Basically, you can create a function taking a Vietnamese word and give an IPA pronunciation code, based on the given GFDL article. In the article, there are Hanoi/Saigon/others variations, but there exist a standard Vietnamese (very close to Hanoi); we can start with Hanoi only pronunciation (other can be added later). If this sounds hard to you, and if David or Minh don't have better ideas, I will take the responsibility of doing quick research and creating the function in python code this weekend, which you may reuse for the bot. Sound like we are doing a bit of text-to-speech job.Trần Thế Trung 14:04, ngày 28 tháng 6 năm 2006 (UTC)
It sounds a good idea. This is what we did for the vietnamese in the French wiktionary but the codification selected may be difficult. My proposal is that we introduce the pronounciation in a second step. Laurent Bouvier 17:09, ngày 28 tháng 6 năm 2006 (UTC)
This sounds like something we could even do in wikisyntax: create a template that uses ParserFunctions to handle all the nuances of Vietnamese orthography, and have each entry pass the word to this template in the format {{IPA tiếng Việt|đ|à|n}}. It'd be one elephant of a template, but it looks like ParserFunctions has enough logic support for the job, allowing us to easily fix any logic errors as we go. Failing that, we could of course create a Python function. Has this been done before? If not, we'd need to do a lot of unit testing, right?  Nguyễn Xuân Minh (thảo luận, đóng góp) 03:36, ngày 29 tháng 6 năm 2006 (UTC)
Ok, we will do this in second step. Wiksysntax can be a good idea to me, in the case where a pronunciation is confirmed, we can always use "subst:" to unload the server. Trần Thế Trung 08:19, ngày 29 tháng 6 năm 2006 (UTC)
Please check out Tiêu bản:VieIPA. Try it and/or fix it if you like. :)Trần Thế Trung 09:10, ngày 1 tháng 7 năm 2006 (UTC)
Actually, I will use it ... and let you fix it;-) Laurent Bouvier 17:46, ngày 3 tháng 7 năm 2006 (UTC)

Authors (Open)

sửa

I have noticed that some of you guys are replacing the author name acronyms by their actual name. I have therefore compiled a list of author name abbreviations so that we can directly import them with a proper name

Author name in shortOccurrencesActual nameStatus
HCM40Hồ Chí MinhConfirmed
NgTuân35Nguyễn TuânConfirmed
Tản-đà35Tản ĐàConfirmed
Ai Tư Vãn3Ai tư vãnclassical work (Avia)
b. ? ?
Bà huyện TQ3Nguyễn Thị HinhConfirmed
BCKN13Bích câu kỳ ngộclassical work (Avia)
BĐGiang2Bảo Định GiangConfirmed by Avia
BNT7Bần nữ thán (This is a poem, not a author)
Bùi Kỉ6Bùi KỷConfirmed
Câu đối cổ3Câu đối cổConfirmed (folk)
cd268ca daoConfirmed (folk)
cd.77ca daoConfirmed (folk)
CgO31Cung oán ngâm khúc(Avia's suggestion)
chỉ Thượng đế, Trời3N/Anot an author/work (an incomplete explicative sentence)
Chinh phụ ngâm5Chinh phụ ngâmConfirmed (classical work)
ChMTrinh5Chu Mạnh TrinhConfirmed by Avia
Chp12Chinh phụ ngâm
Chu Văn3Chu VănConfirmed
2cổnot an author/work (explaining "old" [proverb?])
Cung oán ngâm khúc8Cung oán ngâm khúcConfirmed (classical work)
Đào Vũ2Đào VũConfirmed
DgQgHàm9Dương Quảng HàmConfirmed
ĐgThMai68Đặng Thai Maiin documents before 1945: Đặng Thái Mai (Avia)
Đỗ Mười3Đỗ MườiConfirmed
GHC8Gia huấn caxem
Hà-thành chính khí ca3Hà thành chính khí caConfirmed (classical work)
HĐThuý, HgĐThúy, HgĐThuý2, 4, 26Hoàng Đạo ThúyConfirmed by Avia
HgTùng5Hoàng TùngConfirmed by Avia
HgXHãn9Hoàng Xuân HãnConfirmed
Hồ Xuân Hương3Hồ Xuân HươngConfirmed
Hoàng Trừu5Hoàng TrừuConfirmed
HThKháng2Huỳnh Thúc KhángConfirmed
Huy Cận15Huy CậnConfirmed
Huỳnh Tịnh Của3Huỳnh Tịnh CủaConfirmed
HXHương24Hồ Xuân HươngConfirmed (same as above)
K240Truyện KiềuConfirmed (classical work)
Lê Ngọc Hân2Lê Ngọc HânConfirmed
Lê Thánh-tông8Lê Thánh TôngConfirmed
Lí Công3Lý CôngConfirmed
LKPhiêu4Lê Khả PhiêuConfirmed
LQĐôn3Lê Quý ĐônConfirmed
Lục Vân Tiên17Lục Vân TiênConfirmed (classical work)
LVT19Lục Vân Tiên
Ma Văn Kháng4Ma Văn KhángConfirmed
Nam Cao2Nam CaoConfirmed
NĐM21Nông Đức MạnhConfirmed by Avia
Ng- Hồng2Nguyên HồngConfirmed
NgBính ?Nguyễn BínhConfirmed
NgBKhiêm5Nguyễn Bỉnh KhiêmConfirmed
NgCgHoan68Nguyễn Công HoanConfirmed
NgCgTrứ11Nguyễn Công TrứConfirmed
NgĐChiểu2Nguyễn Đình ChiểuConfirmed
NgĐThi35Nguyễn Đình ThiConfirmed
NgDu3Nguyễn DuConfirmed
NgHồng2Nguyên HồngConfirmed (same as above)
Ng-hồng115Nguyên HồngConfirmed (same as above)
NgHTưởng49Nguyễn Huy TưởngConfirmed
NgKhải30Nguyễn KhảiConfirmed by Avia
NgKhuyến7Nguyễn KhuyếnConfirmed
Ngô Tất Tố4Ngô Tất TốConfirmed
Ngô Văn Phú2Ngô Văn PhúConfirmed
Ngọc-hân công chúa3Lê Ngọc HânConfirmed (same as above)
NgTrãi10Nguyễn TrãiConfirmed
Nguyễn Bá Học3Nguyễn Bá HọcConfirmed
Nguyễn Bính3Nguyễn BínhConfirmed
Nguyễn Đình Chiểu3Nguyễn Đình ChiểuConfirmed (same as above)
Nguyễn Duy3Nguyễn DuyConfirmed
Nguyễn Quang Sáng2Nguyễn Quang SángConfirmed
Nguyễn Thế Phương2Nguyễn Thế PhươngConfirmed
NgVBổng5Nguyễn Văn BổngConfirmed
NgVLinh2Nguyễn Văn LinhConfirmed
NgVVĩnh2Nguyễn Văn VĩnhConfirmed
NgXSanh4Nguyễn Xuân SanhConfirmed
Nhị độ mai6Nhị độ maiConfirmed (classical work)
Phan Thanh Giản3Phan Thanh GiảnConfirmed
Phan Trần7Phan TrầnConfirmed (classical work)
Phan Tứ8Phan Tứhis pseudonym also: Lê Khâm
PhBChâu12Phan Bội ChâuConfirmed
PhKBính2Phan Kế BínhConfirmed
PhTr11Phan TrầnConfirmed (classical work) by Avia
PhVĐồng91Phạm Văn ĐồngConfirmed
PhVKhải8Phan Văn KhảiConfirmed
QÂTK3Quan âm thị kínhclassical work
QSDC3Quốc sử diễn caclassical work (Avia)
Quốc âm thi tập6Quốc âm thi tậpConfirmed (classical work)
Sóng hồng, Sóng-hồng3, 4Sóng Hồnga pseudonym of Trường Chinh
Sơn-tùng13Sơn TùngConfirmed
Tản Đà2Tản ĐàConfirmed
TBH3Tỳ bà hànhPo Chu-i poem with Vnamese transl. (Avia)
Tế Hanh2Tế HanhConfirmed
Thế-lữ4Thế LữConfirmed
Thơ Vương Tường3Vương Tườngone of Four Chinese Beauties
tng295tục ngữConfirmed (folk)
tng.227tục ngữConfirmed (folk)
Tô Hoài, Tô-hoài6, 27Tô HoàiConfirmed
Tố-hữu60Tố HữuConfirmed
Trần Hiếu Minh2Trần Hiếu Minha pseudonym of Nguyễn Văn Bổng (Avia)
Trần Tế Xương3Trần Tế XươngConfirmed
TrBĐằng13Trần Bạch ĐằngConfirmed
Trê Cóc10Trê CócConfirmed (classical work)
Trg-chinh111Trường ChinhConfirmed
TrTXương16Trần Tế XươngConfirmed (same as above)
Trương Vĩnh Kí2Trương Vĩnh KýConfirmed
Truyện Hoa tiên6Truyện Hoa tiênConfirmed (classical work)
Truyện Kiều99Truyện KiềuConfirmed (classical work) (same as above)
TrVGiàu30Trần Văn GiàuConfirmed
TrVTrà2Trần Văn TràConfirmed
Tự tin, có đủ bản lịnh trong suy nghĩ, hành động3N/AAn explicative sentence. Not author.
Tự tình khúc4Tự tình khúcConfirmed (classical work)
Tú-mỡ51Tú MỡConfirmed
Vè thất thủ kinh đô3Vè thất thủ kinh đôConfirmed (classical work)
VNgGiáp65Võ Nguyên GiápConfirmed
vỡ bát3N/Anot author nor title
Võ Văn Kiệt3Võ Văn KiệtConfirmed
Vũ Đình Liên2Vũ Đình LiênConfirmed
XDiệu5Xuân DiệuConfirmed
X-thuỷ27Xuân ThủyConfirmed
HNĐ9 ?
For the author/work that have not been recognized with full name, you may give the explicit word that cite them: that can help finding out the right author/work. Trần Thế Trung 08:52, ngày 29 tháng 6 năm 2006 (UTC)
I am quite impressed by the speed of the answer !!!! waoohh! Laurent Bouvier 12:49, ngày 29 tháng 6 năm 2006 (UTC)

Allwiki (closed)

sửa

"Allwiki" is when every single word in a wiki page is wikilinked. Translationaries (including the FVDP) tend to do this, but Wiktionary has tended to keep the Wikipedia model by linking only to relevant words; otherwise, features like What Links Here get all cluttered up. "hầu" is a perfect example of allwiki, but what can we do about this? Are there any frequency lists for Vietnamese, so that we can at least filter out common words like "và", "các", and "đi"? Or maybe we should just remove all the links in definitions, so that we can manually add them in later? (The second option would be easy enough if we didn't have tens of thousands of entries to grapple with.)

Speaking of frequency lists, it'd be cool to get one or compile one ourselves. The English Wiktionary to find easy words that need to be defined well.

  Nguyễn Xuân Minh (thảo luận, đóng góp) 03:50, ngày 29 tháng 6 năm 2006 (UTC)

I can foresee three ways to deal with that:
  • We wikify everything and then we have periodic updated to remove the wikification that does not sound useful. ==> This can be easily automated
  • We may a list of exceptions or of inclusions to decide which word to wikify and then all correct will be manual as it is difficult to decide.
  • The last option, I can imagine is that we decide to wikify only the word with more than one syllables.
Any comment/preferences/other ideas ? Laurent Bouvier 13:14, ngày 29 tháng 6 năm 2006 (UTC)
As a non native speaker, my preference is going towards the first and the third options. The option 3 is nearly the one taken on the French wiktionary where we don't wikifwy the words with less than 5 letters. Laurent Bouvier 08:16, ngày 30 tháng 6 năm 2006 (UTC)
Here is a list of Vietnamese words that is ignored in the search text of KDE document/help center (taken from Vietnamese translation of KDE). It is a rough translation of a similar list English. I give no guarantie that it is good for our purpose. For me any of your choice is OK, even allwiki style. "trên, về, theo, qua, sau, lại, tất cả, chỉ, đã, và, tuy, luôn, trong, nữa, bất cứ, là, quanh, thành, vì, đã là, trước, đầu, dưới, cạnh, giữa, tỷ, cả, nhưng, có thể, không thể, đã không, không, làm, đừng, từng, nơi khác, khác, cuối, đủ, mọi, bất cứ, trừ, ngoại trừ, cho, tìm, thêm, đã có, do đó, của, anh ta, cô ta, như nào, bao nhiêu, tuy nhiên, thay cho, vào, của nó, sau này, như, nhiều, triệu, đa số, nghĩa là, không bao giờ, không ai, bây giờ, thường xuyên, nếu không thì, chúng tôi, gần đây, giống như, có vẻ, vài, từ khi, cái gì đó, vẫn, dừng, phải là, họ, thì, này, đấy, nghìn, mẹo, quá, cũng, về, nếu không, cho đến khi, cập nhật, dùng, rất, muốn, cách, tốt, gì, khi, mỗi, cái gì, hay, ai, toàn bộ, tại sao, cùng, không có, sẽ không, sẽ, đang, có, chưa, bạn, của bạn, bạn đã"Trần Thế Trung 15:47, ngày 1 tháng 7 năm 2006 (UTC)
It sounds fair enough. By the way, there is also a second reason to use something close to all wiki style: the wiktionary in the official statistics are sorted by counting the intrawiki links. Laurent Bouvier 09:51, ngày 2 tháng 7 năm 2006 (UTC)
Are you referring to how the official count requires articles to have at least one interwiki link? If so, that shouldn't be a problem: except for the English and French words that exactly mean trên, về, etc., you can't form a definition using only these words. "Probably above front but after" is not a definition. :^)  Nguyễn Xuân Minh (thảo luận, đóng góp) 05:13, ngày 3 tháng 7 năm 2006 (UTC)
sửa
I'd suggest removing the following words from your list (thus linking them in the entries), as they might be important in the context of the definition: tỷ/tỉ, triệu, họ, nghìn, mẹo, cập nhật, tốt, bạn.  Nguyễn Xuân Minh (thảo luận, đóng góp) 01:35, ngày 4 tháng 7 năm 2006 (UTC)
thường should also be delinked. We should link to the words in this list only when they're the only words in the definition. This way, at properly links to .  Nguyễn Xuân Minh (thảo luận, đóng góp) 02:53, ngày 5 tháng 7 năm 2006 (UTC)
xuống, làm cho, với, hoặc and một (outside the context of numbers; see previous message) should be delinked as well. Also, "nói tắt" appears at the end of a definition for vật; it means "for short" and should be a {{term}}.  Nguyễn Xuân Minh (thảo luận, đóng góp) 06:43, ngày 5 tháng 7 năm 2006 (UTC)
sự, cuộc, and nào should definitely be delinked.  Nguyễn Xuân Minh (thảo luận, đóng góp) 02:46, ngày 6 tháng 7 năm 2006 (UTC)
Also, delink bộ, bằng, thứ, nhỏ, lớn, to, but link these words if they're the only words in the definition.  Nguyễn Xuân Minh (thảo luận, đóng góp) 06:24, ngày 8 tháng 7 năm 2006 (UTC)
Delink các and làm.  Nguyễn Xuân Minh (thảo luận, đóng góp) 16:50, ngày 8 tháng 7 năm 2006 (UTC)
Delink được and bị.  Nguyễn Xuân Minh (thảo luận, đóng góp) 07:07, ngày 17 tháng 7 năm 2006 (UTC)
Delink ra.  Nguyễn Xuân Minh (thảo luận, đóng góp) 04:02, 3 tháng 8 2006 (UTC)

Terminology (Open)

sửa

In Thành viên:Laurent Bouvier/én the terminology "động" (no valid meaning in this context) is actually a short form of "động vật học" (study of animal). So I think probably we will need to compile the following list of shortform->fullform for terminology.

And this is the full list ... Laurent Bouvier 09:39, ngày 6 tháng 7 năm 2006 (UTC)
I have add the fullforms for those I know. The others you can leave them as original source, they will be fixed in context (if needed).Trần Thế Trung 08:11, ngày 7 tháng 7 năm 2006 (UTC)
Short formOccurrencesFull formStatus
Động ?Động vật họcConfirmed
Y ?Y họcConfirmed
đph187Địa phương
kng.127Khẩu ngữConfirmed
toán109Toán họcConfirmed
96Vật lý họcConfirmed
ph.77Phương ngữ
id.67Ít dùng
kết hợp hạn chế64Kết hợp hạn chế
chm.49Hóa học
thực44Thực vật họcConfirmed
thiên35Thiên văn họcConfirmed
33Từ cũ
hóa29Hóa họcConfirmed
địa28Địa lý họcConfirmed
thgt.12Thông tục
cũ; id.12Từ cũ; ít dùng
vch.11Văn chươngConfirmed
vchg.?Văn chươngConfirmed
âm thanh11Âm thanhConfirmed
mắt10Nhãn khoaConfirmed
9Vật lý họcConfirmed (same as above)
thường dùng phụ sau đg.7dùng sau động từ
kng.; id.7Khẩu ngữ; ít dùngConfirmed
làm việc gì6 ?
kng.; kết hợp hạn chế6Khẩu ngữ; kết hợp hạn chếConfirmed
cũ, hoặc ph.6Từ cũ hoặc địa phương
triết5Triết họcConfirmed
id.; kết hợp hạn chế5Ít dùng; kết hợp hạn chế
dùng hạn chế trong một số tổ hợp5 ?
động vật5Động vật họcConfirmed
5Cơ họcConfirmed
tính4 ?
thường viết hoa4 ?
người4 ?
ngữ4 ?
hoặc t.4hoặc tính từ
hiện tượng4 ?
cây cối4Thực vật họcConfirmed
tính người3 ?
thường dùng phụ cho đg.3Thường dùng phụ cho động từ
sinh3Sinh họcConfirmed
ph.; kng.3Phương ngữ; khẩu ngữConfirmed
nói năng3 ?
nói3 ?
bụng3 ?
hay t.3hoặc tính từ
dùng trước d.3dùng trước danh từ
chất lỏng3Chất lỏngConfirmed
dùng trong một số tổ hợp3 ?
dùng phụ sau đg.3dùng sau động từ
dùng phụ sau d., trong một số tổ hợp3dùng sau danh từ, trong một số tổ hợp
da3DaConfirmed
cơ thể3Cơ thể ngườiConfirmed
2Xã hội học
vật chất2Vật chấtConfirmed
trẻ con2Trẻ emConfirmed
ăn uống2Ẩm thựcConfirmed
chủ nghĩa2 ?
tình cảm2Tình cảmConfirmed
tiếng khóc2 ?
thuyết2 ?
thường dùng sau có2thường dùng sau "có"
thường dùng phụ trước d.2dùng trước danh từ
thực vật2Thực vật họcConfirmed (same as above)
thức ăn2 ?
thiền2 ?
thgt.; kết hợp hạn chế2thô tục; kết hợp hạn chếConfirmed
cây2Thực vật họcConfirmed
quả2Hoa quảConfirmed
phật2Phật họcConfirmed
ph.; id.2Phương ngữ; ít dùng
ph.; cũ2Phương ngữ; từ cũ
nơi2 ?
chất2Hợp chất hóa họcConfirmed
nhận thức2Nhận thứcConfirmed
ngựa2NgựaConfirmed
ngủ2 ?
mùi2Mùi vịConfirmed
máy móc2Máy mócConfirmed
mặt2 ?
lúa2LúaConfirmed
lợn2LợnConfirmed
khí hậu2Khí hậu họcConfirmed
hoặc đg.2hoặc động từ
hoặc d.2hoặc danh từ
bệnh2Bệnh tậtConfirmed
hoa2Hoa quảConfirmed (same as above)
hay đg.2hoặc động từ
giọng, tiếng2Giọng nóiConfirmed
giải2 ?
đường sá, sông ngòi2Giao thôngConfirmed
đường sá2Đường sáConfirmed
dùng phụ sau d.2dùng sau danh từ
dùng làm phần phụ trong câu2 ?
dùng hạn chế trong một vài tổ hợp2 ?
đất đai2Đất đaiConfirmed
đá2Đất đáConfirmed
cũ; dùng hạn chế trong một số tổ hợp2Từ cũ; dùng hạn chế trong một số tổ hợp
2Confirmed
xe cộ1Xe cộConfirmed
cứ: dựa vào; điểm: nơi1 ?
cũ, hoặc vch.1 ?
cũ; dùng hạn chế trong một vài tổ hợp1Từ cũ; dùng hạn chế trong một vài tổ hợp
cũ; dùng ở cuối câu1Từ cũ; dùng ở cuối câu
cũ; dùng phụ trước d., kết hợp hạn chế1Từ cũ; dùng phụ thuộc danh từ, kết hợp hạn chế
cũ; dùng trước một từ xưng hô1Từ cũ; dùng trước một từ xưng hô
biến âm của dâng1 ?
cũ; kc.1 ?
cũ; kết hợp hạn chế1Từ cũ; kết hợp hạn chế
cũ; kng.1Từ cũ; khẩu ngữConfirmed
cũ; ph.1Từ cũ; phương ngữ
cũ; trtr.; dùng phụ sau d., trong một số tổ hợp1Từ cũ, trạng từ; dùng phụ sau danh từ, trong một số tổ hợp
cũ; vch.; dùng hạn chế trong một số tổ hợp1 ?
cung1 ?
cười1 ?
chim, gà...1Chim chócConfirmed
cũ, hoặc kng.1Từ cũ hoặc khẩu ngữConfirmed
dã: đồng nội; cầm: chim1 ?
đặc biệt là các tháng 6-7-81 ?
dân tộc1Dân tộcConfirmed
dáng đi1 ?
dáng điệu, đường nét1 ?
cử chỉ, nói năng1 ?
đất trồng1Đất đaiConfirmed (same as above)
đất trồng trọt sau khi đã được cày cuốc và phơi nắng1 ?
đầu1 ?
đầu tóc1 ?
đgt.1động từ
(to distinguish from đại từ)
bia1BiaConfirmed
diễn đạt1 ?
diễn viên1Diễn viênConfirmed
điều ước1 ?
đồ dùng1 ?
đồ mặc1 ?
đội mũ1 ?
dòng nước1 ?
các vật nhọn1 ?
động vật con được ấp đủ ngày trong trứng1 ?
bộ phận của cơ thể động vật1 ?
đức: mark1 ?
các biến trong toán học1 ?
beau1 ?
dùng không có chủ ngữ1 ?
dùng không có chủ ngữ, như một phần phụ hoặc phần chêm trong câu1 ?
đừng lầm điển này với ấp cây.1 ?
công: khéo léo; nghệ: nghề1công (sự khéo léo) + nghệ (nghề nghiệp)
dùng ở câu hỏi, và đi đôi với một đ. phiếm chỉ ai, gì, sao, nào, đâu1 ?
dùng ở cuối câu1 ?
dùng ở cuối vế câu, thường trong câu cầu khiến1 ?
dùng ở đầu câu hoặc đầu phân câu1 ?
dùng ở đầu một phân câu1 ?
dùng phụ cho đg.1dùng phụ cho động từ
công việc1 ?
dùng phụ sau d., hạn chế trong một số tổ hợp1dùng sau danh từ, hạn chế trong một số tổ hợp
chim, gà, vịt1Chim chócConfirmed (same as above)
chim1Chim chócConfirmed (same as above)
dùng phụ sau đg. trong một số tổ hợp, đi đôi với vay1 ?
dùng phụ sau đg., t.1dùng sau động từ, tính từ
dùng phụ sau đg.; kết hợp hạn chế1dùng sau động từ; kết hợp hạn chế
dùng phụ sau một đg. khác hoặc ở đầu câu, đầu phân câu1dùng sau động từ khác hoặc ở đầu câu, đầu phân câu
dùng phụ trước đg.1dùng trước động từ
dùng phụ trước đg. hoặc dùng làm phần phụ trong câu1dùng trước động từ hoặc làm phần phụ trong câu
dùng sau đ. nghi vấn1dùng sau động từ nghi vấn
dùng sau sẽ, hẵng, hãy1dùng sau "sẽ", "hẵng", "hãy"
dùng tay1 ?
dùng trong câu có hình thức nghi vấn1 ?
dùng trong câu có ý phủ định1 ?
dùng trong kết cấu càng... càng...1 ?
chiết: gẫy; trung: giữa1 ?
dùng trong một số tổ hợp, thường trước đg.1dùng trong một số tổ hợp, trước động từ
dùng trong một số tổ hợp, trước d.1dùng trong một số tổ hợp, trước danh từ
chất rắn1Chất rắnConfirmed
dùng trước d. chỉ đơn vị thời gian1dùng trước danh từ chỉ đơn vị thời gian
dùng trước d. số lượng1dùng trước danh từ số lượng
dùng trước d., trong một vài tổ hợp làm phần phụ của câu1dùng trước danh từ, trong một vài tổ hợp làm phần phụ của câu
dùng trước đg.1dùng trước động từ
dùng trước gì, chi trong câu nghi vấn hoặc phủ định1dùng trước "gì", "chi" trong câu nghi vấn hoặc phủ định
dùng trước một đg. khác1dùng trước một động từ khác
dùng trước một số d. chỉ bộ phận cơ thể1dùng trước một số danh từ chỉ bộ phận cơ thể
dùng trước một số d. số lượng1dùng trước một số danh từ số lượng
dùng với chủ ngữ là từ chỉ người1 ?
dùng với chủ ngữ là từ chỉ sự vật, sự việc, và bổ ngữ là từ chỉ người1 ?
dược1Dược khoaConfirmed
đường đạn, đường bóng1 ?
côn trùng1Côn trùngConfirmed
con đực và con cái1 ?
1Confirmed
gia súc, gia cầm1gia súc, gia cầmConfirmed
con chiên1 ?
giấy, vải...1vật liệu giấy, vải, ...Confirmed
gió1GióConfirmed
gió thổi1GióConfirmed (same as above)
giọng nói1Giọng nóiConfirmed (same as above)
giọng nói, cách nói1Cử chỉ thể hiệnConfirmed
giọng nói, mắt nhìn1Cử chỉ thể hiệnConfirmed (same as above)
giọng nói, nét chữ1Cử chỉ thể hiệnConfirmed (same as above)
cơm, canh1Ẩm thựcConfirmed (same as above)
goòng, xe1Xe cộConfirmed (same as above)
gương1GươngConfirmed
hai bên trai gái1 ?
hai từ hoặc hai vế câu1 ?
hai vật cùng loại1 ?
hành động diễn ra1 ?
hạt1 ?
còi1 ?
hay p.1 ?
chất hữu cơ thực vật1 ?
cát và cánh là tên cây1 ?
hiện tượng các chất1Hóa họcConfirmed (same as above)
hiện tượng vật lí1Vật lý họcConfirmed (same as above)
hình phạt thời phong kiến1 ?
hình thức học tập1 ?
có tướng số1 ?
cơ thể động vật1Động vật họcConfirmed (same as above)
hoá1Hóa họcConfirmed (same as above)
bánh xe1 ?
cách ăn mặc1Thời trangConfirmed
hoặc đgt.1hoặc động từ
cấp trên1 ?
hoạt động, nói năng1 ?
học sinh, bệnh nhân1 ?
hội1 ?
hơi bị nén1 ?
baht1 ?
id.; dùng sau một số đg.1Ít dùng; dùng sau m ột số động từ
cable1 ?
id.; thường đi đôi với đường1Ít dùng; thường đi đôi với "đường"
id.; thường dùng đi đôi với thân1Ít dùng; thường đi đôi với "thân"
bành là ghế ngồi trên lưng voi1 ?
kết hợp hạn chế, chỉ dùng với trắng1 ?
kết hợp hạn chế, dùng với bánh mì1 ?
kết hợp với từ chỉ hướng như ra, vào, lên, xuống để tính1 ?
khhc1 ?
cn. xếp hàng1 ?
khoảng không gian1 ?
khu1 ?
kinh1 ?
âm thanh, hình1 ?
kng., hoặc thgt.; dùng phụ sau t., hoặc đg., trong một số tổ hợp1khẩu ngữ, hoặc thô tục; dùng phụ sau tính từ, hoặc động từ, trong một số tổ hợp
kng.; dùng có kèm ý phủ định1khẩu ngữ; dùng có kèm ý phủ định
kng.; dùng có kèm ý phủ định, thường trước nào1khẩu ngữ; dùng có kèm ý phủ định, thường trước "nào"
kng.; dùng đi đôi với cũng1khẩu ngữ; dùng đi đôi với "cũng"
kng.; dùng hạn chế trong một số tổ hợp1khẩu ngữ; dùng hạn chế trong một số tổ hợp
kng.; dùng ở cuối câu1khẩu ngữ; dùng ở cuối câu
kng.; dùng ở cuối câu hoặc cuối phân câu1khẩu ngữ; dùng ở cuối câu hoặc cuối phân câu
kng.; dùng phụ sau đg.1khẩu ngữ; dùng sau động từ
kng.; dùng phụ trước đg.1khẩu ngữ; dùng trước động từ
kng.; dùng sau d., đg.1khẩu ngữ; dùng sau danh từ, động từ
kng.; dùng sau đg.1khẩu ngữ; dùng sau động từ
kng.; dùng sau đg.; kết hợp hạn chế1khẩu ngữ; dùng sau động từ; kết hợp hạn chế
kng.; dùng trong một số tổ hợp1khẩu ngữ; dùng trong một số tổ hợp
kng.; dùng trong một số tổ hợp, trước d. chỉ bộ phận cơ thể1khẩu ngữ; dùng trong một số tổ hợp, trước danh từ chỉ bộ phận cơ thể
kng.; dùng trước một số d. chỉ công cụ1khẩu ngữ; dùng trước một số danh từ chỉ công cụ
kng.; dùng trước tên người1khẩu ngữ; dùng trước tên người
kng.; dùng với chủ ngữ ở ngôi thứ nhất hoặc không có chủ ngữ1khẩu ngữ; dùng với chủ ngữ ở ngôi thứ nhất hoặc không có chủ ngữ
bổn là biến thể của bản tức là gốc, là vốn1 ?
chất bài tiết1 ?
kng.; thường dùng phụ trước d.1khẩu ngữ; dùng trước danh từ
la1 ?
làm gì1 ?
boxe1 ?
bock1 ?
linh hồn1 ?
loài chim1Chim chócConfirmed (same as above)
loài vật1loài vậtConfirmed
loài vật cùng loại1 ?
lối diễn đạt1 ?
lời nói1 ?
lời nói, cử chỉ, thái độ1 ?
lời văn1 ?
lối viết chữ1 ?
lời, giọng, âm thanh1 ?
cn. xăn1 ?
lợn cái1 ?
cn. võ1 ?
lửa1 ?
lực lượng quần chúng1 ?
lưng1 ?
lưỡi cắt1 ?
ánh sáng1 ?
ma quỷ, thần linh1 ?
mảnh nhọn, sắc...1 ?
bộ phận trong cơ thể1 ?
cn. trả1 ?
mắt nhìn1 ?
mặt trăng, mặt trời1 ?
mạt: xoá bỏ; sát: rất1 ?
màu1 ?
màu sắc1 ?
cn. thông gia1 ?
mi mắt1 ?
mỗi bên đều được một bàn thắng1 ?
món ăn1 ?
mưa1 ?
mực nước1 ?
cn. ten-nít1 ?
mùi thơm1 ?
nét mặt1 ?
ngày1 ?
nghĩa tế1 ?
ngtuân1 ?
cn. táo1 ?
cao1 ?
cn. sượt1 ?
cạnh, mặt1 ?
người con trai1 ?
người đàn bà goá1 ?
người hoặc cấp có thẩm quyền1 ?
người và động vật1 ?
nhà1 ?
nhà cửa1 ?
cn. non sông1 ?
nhân vật trong truyện thần thoại1 ?
như 1968, 1972, 1976...1 ?
cn. nhịp1 ?
cn. nhà băng1 ?
nói hoặc khóc1 ?
cây trồng1 ?
nói năng, cư xử1 ?
nói năng, diễn đạt1 ?
nói về nhà ở1 ?
nói, viết1 ?
nộp1 ?
nước1 ?
nước da1 ?
nước hoặc dân tộc1 ?
nước mũi1 ?
nước này1 ?
nước, chất lỏng1 ?
ở cách xa1 ?
ở một số địa phương, dân chài thờ cá voi nên gọi là ông1 ?
ánh trăng1 ?
cn. nệm1 ?
cn. nề nếp1 ?
ph.; kết hợp hạn chế1Phương ngữ; kết hợp hạn chế
cây cối, động vật1 ?
pháo, đạn1 ?
cn. mả, mộ1 ?
phụ nữ1 ?
phương pháp giảng dạy1 ?
phương tiện vận tải đường thuỷ1 ?
pomme1 ?
pont1 ?
poste1 ?
pot1 ?
poupée1 ?
cn. lát1 ?
quá trình1 ?
quần áo, cách ăn mặc1 ?
quân nhân đã xuất ngũ1 ?
quăn, xoắn1 ?
quặng1 ?
quang cảnh, không khí1 ?
quỷ thần1 ?
sắc, rét1 ?
sắp xếp1 ?
sâu mọt1 ?
cn. kiền1 ?
sinh vật1Sinh vậtConfirmed
số đông1 ?
số phận1 ?
sống1 ?
sự kiện1 ?
sự việc1 ?
suy lí, suy luận1 ?
suy nghĩ, tính toán1 ?
tâm1 ?
tam giác1 ?
tàu1 ?
thai1 ?
thái độ, cử chỉ1 ?
thái độ, ý kiến1 ?
thanh thiếu niên, trẻ em1 ?
biến âm của chữ hán hảo1 ?
thgt.; dùng trước d., trong một số tổ hợp1thô tục; dùng trước danh từ, trong một số tổ hợp
cn. kích động; h. khích: khêu động; động: không yên1 ?
bày ra, giăng ra1 ?
cn. hoàng anh, hoàng oanh1 ?
thời gian1 ?
thời tiết1 ?
thtục1thô tụcConfirmed
thứ quả1 ?
thục1 ?
bàu, rạch1 ?
cn. goá1 ?
thức ăn uống đã nấu chín1 ?
thức ăn, thức uống1 ?
thực phẩm1 ?
cn. giật1 ?
thường có sắc thái ph.1thường có sắc thái phương ngữ
thường đi đôi với ngang1 ?
thường đi với lại1 ?
thường đi với ra1 ?
thường dùng có kèm ý phủ định1 ?
thường dùng đi đôi với cũng hoặc dùng trong câu phủ định1 ?
cây cỏ, hoa lá1 ?
thường dùng phụ sau d.1dùng sau danh từ
thường dùng phụ sau d. số lượng1dùng sau danh từ số lượng
bom và đạn là những vũ khí giết người1 ?
cn. đậu tương1 ?
cn. đậu dải áo1 ?
thường dùng sau đg.1 ?
thường dùng sau một đg. khác1 ?
thường dùng sau những tổ hợp chỉ đơn vị giờ1 ?
thường dùng trong câu cảm xúc hoặc câu có ý phủ định1 ?
thường dùng trước d.1 ?
thường dùng trước đg.1 ?
thường dùng trước đg., t.1 ?
thường dùng trước là, như1 ?
thường dùng trước lên1 ?
thường dùng trước một cấu trúc chủ ngữ - vị ngữ1 ?
thường dùng trước ra1 ?
thường dùng xen với động từ lặp trong một số tổ hợp1 ?
thường nói bơm to, bơm phồng1 ?
thường nói cỏ tranh1 ?
thường nói đá tảng1 ?
thường nói đơn đặt hàng1 ?
thường nói reo lên1 ?
thường nói về trẻ em1 ?
cái của chính mình1 ?
thuỷ triều1 ?
thuyền chở1 ?
cn. dăng1 ?
tia sáng1 ?
tiền1 ?
tiếng cổ1 ?
cn. cổi1 ?
tiếng nói1 ?
tiếng tăm1 ?
tim, mạch1 ?
cách nói năng1 ?
cn. bệnh1 ?
cây có1 ?
tổ chức1 ?
tòa1 ?
chuyển động quay nhanh1 ?
tôm1 ?
chỗ hoặc lúc1 ?
trẻ nhỏ nói1 ?
cá, tôm, thịt1 ?
trong khoa lí số1 ?
trvgiàu1Trần Văn Giàuauthor
tt1 ?
từ1 ?
từ bên ngoài1 ?
từ một điểm1 ?
từ sênh đọc chạnh đi1 ?
tư tưởng chính trị1 ?
vật1 ?
chm.; kết hợp hạn chế1 ?
vật có hình khối1 ?
vật hình khối1 ?
vật hình ống1 ?
biến âm của đường1 ?
vch., hoặc chm.1 ?
viết, vẽ1 ?
vọt, nâng1 ?
vua chúa1 ?
chm.; dùng sau d., trong một số tổ hợp1 ?
xã hội1 ?
xảy ra1 ?
TrgtnayTrạng từAdverb, or adjective?
Địa lý,địa chất76Địa lý học, địa chất học
Thể dục,thể thaoThể dục, thể thao
Nh.{{like-entry}}
Tech≈4,000Kỹ thuậtConfirmed
Gazetteer
h.?huyệnAll words from end of this abbrev. to comma/fullstop should be considered one word.
t.?tỉnh

Foreign etymology

sửa

The source sometimes contains indications of the original language (mainly French and English). Can somebody make a proposal of what could be a correct translation for:

  • "From the English word XXX'"
  • "From the French word XXX'"

Many thanks Laurent Bouvier 11:27, ngày 6 tháng 7 năm 2006 (UTC)

I'd translate it this way:

From the English word foo meaning "foobar", from the French word baz meaning "bazbar" + the English word bar meaning "barbar".
Từ tiếng Anh foo (foobar), từ tiếng Pháp baz (bazbar) + tiếng Anh bar (barbar).

  Nguyễn Xuân Minh (thảo luận, đóng góp) 15:54, ngày 6 tháng 7 năm 2006 (UTC)

  • "From the English word XXX" = "Bắt nguồn từ tiếng Anh XXX"
  • "From the French word XXX" = "Bắt nguồn từ tiếng Pháp XXX"
Trần Thế Trung 08:08, ngày 7 tháng 7 năm 2006 (UTC)

First import

sửa

I am currently imported only items for which I haven't got any terminology. My initial list is based on the most wanted items and then I will perform of the whole dictionnary. Laurent Bouvier 11:27, ngày 6 tháng 7 năm 2006 (UTC)

In some of the item, beginning at the explanation of term, there is "Cg. xxx." This means the term is synonym with xxx. So we should convert it to "Đồng nghĩa với xxx".Trần Thế Trung 09:33, ngày 7 tháng 7 năm 2006 (UTC)

We have {{-syn-}} for this purpose.  Nguyễn Xuân Minh (thảo luận, đóng góp) 03:52, ngày 8 tháng 7 năm 2006 (UTC)
Any example? Laurent Bouvier 17:25, ngày 11 tháng 7 năm 2006 (UTC)
"nghề" is an example of cg, and "" is an example of {{-syn-}}.  Nguyễn Xuân Minh (thảo luận, đóng góp) 02:12, ngày 12 tháng 7 năm 2006 (UTC)
See example Trần Thế Trung 09:47, ngày 13 tháng 7 năm 2006 (UTC)

-info- & -trans-

sửa

I wonder if the bot could search vi.wikipedia for the article of the same name; if there is an vi.wikipedia article of the same name, then the bot could do 2 things:

  1. add {{-info-}} at the beginning
  2. add {{-trans-}} at the end with the information about the given word in other language is found from interwiki links of the vi.wikipedia article.

See the example edit I have done in đà điểu: I do exactly the same thing, especially the {{-trans-}} section is copied from w:đà điểu interwiki. Trần Thế Trung 09:02, ngày 13 tháng 7 năm 2006 (UTC)

We can even take care of "disambiguation naming style" as in đa giác (see Italian translation). Trần Thế Trung 09:14, ngày 13 tháng 7 năm 2006 (UTC)
Don't forget to turn the first letters into non-capitalized letters. Wiktionary makes a difference there, Wikipedia doesn't! David Da Vit 11:37, ngày 13 tháng 7 năm 2006 (UTC)

For words in English, French, and Dutch, we can turn to the other Wiktionaries for translations; that could be done automatically, no?  Nguyễn Xuân Minh (thảo luận, đóng góp) 05:19, ngày 14 tháng 7 năm 2006 (UTC)

I was actually thinking of importing some translations once the vietnamese articles are created. (I still miss a third of them...) and I did not thought that it has particularly useful to add {{-trans-}} in the meanwhile. I will however add it in the next load. For {{-info-}}, this should not be a problem. Laurent Bouvier 20:14, ngày 17 tháng 7 năm 2006 (UTC)

Proper noun >< Proverb

sửa

Small problem: the bot can not distinguish between proper noun and proverb. In general, proper noun contains all Capitalized part (e.g. Cao Lỗ) while a proverb contains some parts not capitalized (e.g. Cao Biền dậy non) except when the part are joined by "-" (like Đơ-ro). For the proverb, we can remove {{-trans-}}, replace {{-pr-noun-}} by {{-proverb-}}, change the [[Category:Danh từ riêng tiếng Việt]] to [[Category:Thành ngữ tiếng Việt]]. And it seems that when the proverb has 2 meanings: actually the first is meaning, the second is etymology (we can add {{-etym-}} and "Theo điển tích " infront of the second). See example .Trần Thế Trung 12:55, ngày 28 tháng 7 năm 2006 (UTC)

Corrections (Open)

sửa

For these Vietnamese entries, a few notes:

  • h. stands for huyện and t. stands for tỉnh. If you can, please expand these.
  • For a bit more context, , [[Việt Nam]] should be placed right before the full-stop.
  • All the words between h. and the comma, or between t. and the period, should be linked as one word.

Some time in the next couple months, I'd like to create a bot to insert coordinates for each of these placenames from the database I mentioned above.

  Nguyễn Xuân Minh (thảo luận, đóng góp) 03:59, 8 tháng 8 2006 (UTC)

Come to think of it, definitions in this form:

  1. () H. foo, t. bar.

Should be changed to this form:

  1. Một thuộc huyện foo, tỉnh bar, Việt Nam.

  Nguyễn Xuân Minh (thảo luận, đóng góp) 04:02, 8 tháng 8 2006 (UTC)

Some more corrections:

Original formCorrect formCorrected
  1. Một Tx. FOO, tỉnh BAR, Việt Nam.
  1. Một thuộc thị xã FOO, tỉnh BAR, Việt Nam.
22:31, 9 tháng 8 2006 (UTC)
  1. (Quận) Tp. FOO.
  1. Một quận thuộc thành phố FOO, Việt Nam.
22:31, 9 tháng 8 2006 (UTC)
  1. (Thị trấn) H. FOO, t. BAR.
  1. Một thị trấn thuộc huyện FOO, tỉnh BAR, Việt Nam.
22:31, 9 tháng 8 2006 (UTC)
  1. (Quận) thuộc thành phố FOO, Việt Nam.
  1. Một quận thuộc thành phố FOO, Việt Nam.
Laurent Bouvier 06:10, 10 tháng 8 2006 (UTC)
  1. (Thị trấn) thuộc huyện FOO, tỉnh BAR, Việt Nam.
  1. Một thị trấn thuộc huyện FOO, tỉnh BAR, Việt Nam.
Not found
  1. (Ttnn) H. FOO, t. BAR.
  2. (Ttnn) thuộc huyện FOO, tỉnh BAR, Việt Nam.
  1. Một thị trấn nông nghiệp thuộc huyện FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 06:10, 10 tháng 8 2006 (UTC)
  1. (Thị xã) T. FOO.
  1. Một thị xã thuộc tỉnh FOO, Việt Nam.
Laurent Bouvier 20:22, 10 tháng 8 2006 (UTC)
  1. (Phường) Tx. FOO, t. BAR.
  2. (Phường) Tx. FOO, tỉnh BAR, Việt Nam.
  1. Một phường thuộc thị xã FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:22, 10 tháng 8 2006 (UTC)
  1. (Tỉnh) .
  1. Một tỉnh Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. () Tp. FOO, t. BAR.
  2. () thành phố FOO, tỉnh BAR, Việt Nam.
  1. Một thuộc thành phố FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. (Phường) Q. FOO, tp. BAR, Việt Nam, Việt Nam.
  1. Một phường thuộc quận FOO, thành phố BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. Một phường Tp. FOO, FOO, Việt Nam, Việt Nam.
  1. Một phường thuộc thành phố FOO, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. Một phường Tp. FOO, tỉnh BAR, Việt Nam.
  2. (Phường) Tp. FOO, t. BAR.
  1. Một phường thuộc thành phố FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. Một thị trấn thuộc huyện FOO, tp. BAR, Việt Nam.
  1. Một thị trấn thuộc huyện FOO, thành phố BAR, Việt Nam.
  1. () Tx. FOO, t. BAR.
  1. Một thuộc thị xã FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. (Huyện) T. FOO, Việt Nam.
  2. Một huyện T. FOO, Việt Nam.
  1. Một huyện thuộc tỉnh FOO, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. (FOO) Tên gọi các BAR thuộc h. FOO1 (BAR1), h. FOO2 (BAR2), h. FOO3 (BAR3).
  2. Một BAR Tên gọi các BAR thuộc h. FOO1 (BAR1), h. FOO2 (BAR2), h. FOO3 (BAR3), Việt Nam.
  1. Tên gọi các BAR thuộc huyện FOO1 (BAR1), huyện FOO2 (BAR2), huyện FOO3 (BAR3).
  1. (FOO) Tên gọi các BAR thuộc XX1. FOO1 (BAR1), XX2. FOO2 (BAR2), XX3. FOO3 (BAR3), Việt Nam.
  2. (FOO) Tên gọi các BAR thuộc XX1. FOO1 (BAR1), XX2. FOO2 (BAR2), XX3. FOO3 (BAR3), Việt Nam.
  1. (FOO) Tên gọi các BAR thuộc XX1. FOO1 (BAR1), XX2. FOO2 (BAR2), XX3. FOO3 (BAR3), Việt Nam.
  1. Tên gọi các BAR thuộc XX1 FOO1 (BAR1), XX2 FOO2 (BAR2), XX3 FOO3 (BAR3), Việt Nam.

(Where XXX is converted: h.huyện; x.xã; tx.thị xã; tp.thành phố; q.quận; t.tỉnh)

  1. Một FOO, tỉnh BAR, Việt Nam.
  1. Một thuộc FOO, tỉnh BAR, Việt Nam.
  1. () H. FOO, t. BAR.
  1. Một thuộc huyện FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)

Also, tỉnh names like Gia Lai still need to be treated as one word, and we should probably link "Thành phố Hồ Chí Minh" as one phrase, since Hồ Chí Minh by itself probably isn't an acceptable way to refer to the city. Thanks for taking the time to make all these corrections.

  Nguyễn Xuân Minh (thảo luận, đóng góp) 21:01, 8 tháng 8 2006 (UTC)

We've also got issues where a colon has been interpreted as the beginning of a list of examples/quotations. As far as I know, none of the Vietnamese geographical entries contain such lists, so the colon shouldn't be treated specially. The current interpretation leads to interesting results such as Ninh Bình and Sài Gòn. I'm not sure how we'd go about fixing this by hand, so your bot would probably have to go back over all these entries (maybe except the ones that Trung and I have edited since).  Nguyễn Xuân Minh (thảo luận, đóng góp) 02:42, 10 tháng 8 2006 (UTC)

I am looking for the meaning of this abbreviation? Any idea Laurent Bouvier 13:28, 19 tháng 8 2006 (UTC)

"tính từ" ("adjective") ?193.52.24.125 13:57, 19 tháng 8 2006 (UTC)
Oh Yes!!! I should have been able to guess. Thanks Laurent Bouvier 14:00, 19 tháng 8 2006 (UTC)

Problem of grammatical category

sửa

I think that I am close to have finished. There are approximately 10.000 articles in the FVDP dictionary without any category. Any idea how we can integrate them?

Can you give an example? Trần Thế Trung 10:21, 17 tháng 9 2006 (UTC)
Are you talking about entries without any part-of-speech category? Because, according to Đặc biệt:Uncategorizedpages, we only have 17 entries without any category at all. You can use this CatScan query to find Vietnamese entries that weren't created by PiedBot. Most of these entries were simply created by hand with the proper structure and categories, but some were created by David or me before Laurent started contributing here. These entries will have to get a second look.  Nguyễn Xuân Minh (thảo luận, đóng góp) 04:11, 18 tháng 9 2006 (UTC)
Or are you talking about entries in the FVDP database that don't mark any part of speech? One such word is diện kiến. You could import those, mark them with {{-dfn-}} where you would otherwise use a part-of-speech template, and place them in a special category, Thể loại:Mục từ tiếng Việt chưa xếp theo loại từ  would that name be correct, Trung?  Nguyễn Xuân Minh (thảo luận, đóng góp) 04:13, 18 tháng 9 2006 (UTC)

OK, I see. Thể loại:Mục từ tiếng Việt chưa xếp theo loại từ is fine. 10,000 is a big number for a small community to work on with later. However, there is little thing we could do for now.

  1. If the bot find the word is in synonym list of other categorized word, it can deduce the category.
  2. If the definition start with "sự"/"Sự" then the word is noun.
  3. If the definition start with a verb (in the case of diện kiến, it start with đem) then the word is a verb.
  4. Otherwise, we have to leave it at Thể loại:Mục từ tiếng Việt chưa xếp theo loại từ.

The automatic category may need to be revised by human, so we may want to add a notice box {{bot}}. Trần Thế Trung 07:14, 18 tháng 9 2006 (UTC)

Does the VietnameseVietnamese dictionary even provide synonym lists? Also, number 3 is complicated, because many words will be both nouns and verbs. The other ideas would help a lot, though. Unfortunately, the Vietnamese entries don't make use of {{term}}, so it won't be possible to identify the adjectives by finding definitions that begin with "(thuộc)".  Nguyễn Xuân Minh (thảo luận, đóng góp) 08:28, 18 tháng 9 2006 (UTC)
For the cases where the entry have more than one definitions, all definitions that don't satisfy 1,2,3 will be placed under {{-dfn-}}. Trần Thế Trung 14:25, 18 tháng 9 2006 (UTC)
I will import already all the words starting whose definition is starting with sự and đem and I will prepare some kind of list. I am not in favor of importing and then correcting which is causing more problems. Laurent Bouvier 11:42, 19 tháng 9 2006 (UTC)
Đem isn't an identifier for verbs; it just happens to be at the beginning of one of the words we mentioned, so it won't turn up many results. I agree with your stance on importing then correcting, but I suppose entries without parts of speech is less embarassing than entries with unrelated images. A list sounds good though.  Nguyễn Xuân Minh (thảo luận, đóng góp) 18:05, 19 tháng 9 2006 (UTC)

Some more ways to identify nouns:

  • (cái), (cây), (chiếc), (quả), (trái), (cuốn), and (quyển) at the beginning mark nouns.
  • bài, bản, and lời mark nouns, though you might not find many of these.
  • cây, chiếc, quả, quyển, việc, and cuộc mark nouns.

  Nguyễn Xuân Minh (thảo luận, đóng góp) 22:20, 19 tháng 9 2006 (UTC)

And if the word is all capitalized then it is a proper noun. Trần Thế Trung 07:34, 20 tháng 9 2006 (UTC)
I have tried all that without any big success. I have also tried to get the grammatical category from the Viet-English Dictionary and I have been able to add 20%. Still remains 11000 words ... Laurent Bouvier 11:47, 22 tháng 9 2006 (UTC)
And Viet-French, Viet-Russian, Viet-German? Trần Thế Trung 13:54, 22 tháng 9 2006 (UTC)
Unfortunately, ... There is no grammatical info in the Viet-French, and the Viet-German. Viet-Russian is not provided... Laurent Bouvier 09:23, 23 tháng 9 2006 (UTC)

-interj-

sửa

I think the entries having "Th." standing infront of the definition can be categorized by {{-interj-}} ("Th." stand for "Thán từ"); the template {{-interj-}} put the page in Thể loại:Thán từ and we can add Thể loại:Thán từ tiếng Việt in the page source. Example: riệt, khà. Trần Thế Trung 16:04, 13 tháng 10 2006 (UTC)

There are more, like lt {{-conj-}} and ph {{-adv-}}.  Nguyễn Xuân Minh (thảo luận, đóng góp) 21:25, 13 tháng 10 2006 (UTC)